Пайкараи миллии забони тоҷикӣ (ПМЗТ)
Ин манбаъ пайкараи хаттии забони тоҷикиро ба миқдори 58,4 миллион вожа дар бар мегирад. Ҳиссаи коркарди автоматӣ 96%-ро ташкил медиҳад. Ҳар як шакли калимаи таҳлилшаванда бо маълумоти грамматикӣ ва тарҷума ба забони русӣ ва англисӣ таъмин гардидааст.
Маблағгузорӣ
Таҳия ва рушди пайкара аз ҳисоби манбаъҳои зерин маблағгузорӣ карда мешавад:
- Буҷаи давлатии Ҷумҳурии Тоҷикистон (солҳои 2019-2021); роҳбар - д.и.ф., профессор Искандарова Д.М., мушовири илмӣ - д.и.ф., профессор, академики АИ Россия В.А. Плунгян);
- Барномаи рушди Донишгоҳи (Славянии) Россия ва Тоҷикистон (соли 2019); роҳбар - д.и.ф., профессор Искандарова Д.М.;
- Гранти ФТФР № 19-012-00637 (солҳои 2019-2021, роҳбар – н.и.ф. А.П. Видрин).
Таркиби пайкара
Дар айни замон ин пайкара асарҳои муосирро, ки дар асрҳои ХХ ва ХХI ба забони адабии тоҷик нашр ёфтаанд, дар бар мегирад. Дар пайкара жанрҳои зерин муаррифӣ мешаванд: наср, назм, драма, публитсистика, адабиёти илмӣ ва таълимӣ, ёддоштӣ-библиографӣ, динӣ, сиёсӣ, ҳуқуқӣ ва рӯзномаҳо. Таносуби фоизӣ аз рӯи жанрҳо чунин аст:
- наср — 13,5%
- назм — 3%
- адабиёти илмӣ ва таълимӣ — 6%
- адабиёти ёддоштӣ-библиографӣ — 2%
- публитсистика — 0,65%
- адабиёти динӣ — 1,8%
- адабиёти ҳуқуқӣ — 0,7%
- адабиёти сиёсӣ — 0,14%
- афсонаҳо— 0,1%
- драма— 0,03%
- рӯзномаҳо — 72%
Рӯйхати пурраи асарҳое, ки ба Пайкараи миллии забони тоҷикӣ дохил карда шудаанд, дар саҳифаи дуюми равзана ҳангоми зер кардани тугмачаи "Интихоби зерпайкара" пайдо мешавад.
Хусусиятҳои пайкара
Дар раванди таҳияи пайкара усули коркарди автоматӣ тавассути барномаи таҳлилгари морфологӣ истифода бурда шудааст. Таҳлилгарро Т.А. Архангелский ҳамчун воситаи барномавии универсалӣ барои таҳияи пайкараҳои забонӣ омода кардааст ва он аз миёнаҳои солҳои 2000 дар ҷараёни сохтани як қатор пайкараҳо бомуваффақият амалӣ гардидааст. Ин пайкараҳо дар мавқеи дастрасии озод қарор доранд. Дар байни пайкараҳои дигари забонҳои эронӣ пайкараи миллии осетинӣ (http://corpus.ossetic-studies.org/) ва пайкараи хаттии лаҳҷаи дигории забони осетиниро (http://corpus-digor.ossetic-studies.org/) қайд кардан лозим аст.
Системаи коркарди автоматии таҳлил аз раванди лемматизация (аслгардонӣ)-и калима ва қайди нишонаҳои морфологӣ иборат мебошад. Дар лемматизатсия ба ҳар як шакли калима сарвожа, яъне шакли луғавии он, мувофиқ карда мешавад. Дар пайкараи забони тоҷикӣ барои ҳар як шакли калима, ғайр аз шакли луғавии он, маъноҳои асосии вожа ба забони русӣ ва англисӣ низ нишон дода шудааст. Барои тарҷума аз забони тоҷикӣ ба русӣ “Луғати тоҷикӣ-русӣ” зери таҳрири М.В. Раҳимӣ ва Л.В. Успенская (М: Нашри давлати луғатҳои хориҷӣ ва миллӣ, 1954) ва “Фарҳанги тоҷикӣ ба русӣ” зери таҳрири Д.Саймиддинов, С.Д.Холматова, С.Каримов (Нашри дуввум бо илова, такмил ва ислоҳ. Душанбе: Пайванд, 2006) истифода шудааст. Лемматизатсия коркарди мустақими луғати тоҷикӣ-русиро дар назар дорад. Қайди нишонаҳои морфологӣ маънои таъмин кардани ҳар як калима бо маълумоти грамматикӣ ва синтаксикӣ (ҳиссаи нутқ, сиға, замон, шахс, шумора ва ғайра)-ро дорад. Қоидаҳо ва мутобиқкунии қайди нишонаҳои морфологӣ мустақиман бидуни истифодаи системаҳои автоматии компютерӣ таҳия шудаанд.
Дар айни замон, ҳиссаи маводи ба таври автоматӣ ҷудошуда 96%-ро ташкил медиҳад.
Барои пайкара системаи ҷустуҷӯии универсалӣ, ки онро T.A. Архангельский таҳия кардааст, мутобиқ гардонда шудааст. Ҷустуҷӯ аз рӯи вожаҳо, шакли калимаҳо, зернишонаи луғавии тарҷума ва инчунин аз рӯи хусусиятҳои грамматикӣ имконпазир мебошад (рӯйхати пурраи глоссҳо бо рамзҳояш ниг. поёнтар). Барои ҷустуҷӯи дақиқтар имконияти омезиши дархостҳо аз рӯи параметрҳои гуногун вуҷуд дорад. Системаи ҷустуҷӯ имкон медиҳад, ки якчанд элементҳои забониро бо масофаи муайяни байни онҳо, инчунин дар зерпайкара, яъне дар матнҳои интихобкарда (масалан, танҳо дар матнҳои як жанр ё давраи муайян, дар матнҳои муаллиф ё муаллифони муайян) ҷустуҷӯ намоед. Имконияти мутобиқкунии маводи матлуб низ пешбинӣ шудааст.
Барои фаҳмидани имкониятҳои дигари ҷустуҷӯ, аломати саволеро, ки дар қисми болои саҳифа ҷойгир шудааст, пахш бояд кард.
Бо мақсади пешгирии вайронкунии ҳуқуқи муаллиф матнҳои пурра дастраси истифодабаранда намешавад. Дастрасӣ ба матн бо 7 ҷумла маҳдуд мебошад.
Вориди аломатҳои махсус
Барои ворид кардани ҳарфҳои тоҷикие, ки дар клавиатураи русӣ нестанд, аз комбинатсияи аломатҳои зерин истифода бурдан мумкин аст:
- и1 = ӣ
- х1 = ҳ
- к1 = қ
- ч1 = ҷ
- у1 = ӯ
- г1 = ғ
- * = ҳама гуна ҳарф (ҳарфҳо)
- | – ҳама гуна аз (масалан, дархости "prox|dist" дар сатри Grammar дар натиҷа ҷонишинҳои дараҷаи дур ё наздикро пайдо мекунад)
Табдили ҳуруф
Соли 2021 табдили ҳуруфи кириллии тоҷикӣ ба ҳуруфи лотинӣ ба анҷом расонида шуд. Барои табдили ҳуруф аз тоҷикӣ ба лотинӣ дар канори болоии чапи саҳифаи Ҷустуҷӯ Option,Transliteration, latin - ро интихоб кунед.
Барои вориди ҳуруфи лотинӣ дар канори болоии чапи саҳифаи асосии Ҷустуҷӯ Option, Character input method, inputmethod_latin -ро интихоб кунед.
Дар поён рӯйхати мувофиқати ҳуруфи лотинӣ ба тоҷикӣ, ки дар вақти ҷустуҷӯ истифода кардан мумкин аст, оварда шудааст:
- g1 = ғ
- s1 = ш
- z1 = ж
- h1 = х
- ch = ч
- a1 = я
- o1 = ё
- y1 = ю
- i1 = ī
- u1 = ū
- c1 = щ
- y2 = ы
- a = а
- b = б
- v = в
- g = г
- d = д
- z = з
- i = и
- ī = ӣ
- y = й
- k = к
- q = қ
- l = л
- m = м
- n = н
- o = о
- p = п
- r = р
- s = с
- t = т
- u = у
- ū = ӯ
- f = ф
- h = ҳ
- j = ҷ
- ' = ъ
- ė = э
- c = ц
- ` = ь
Соли 2021 ҳамчунин клавиатураи виртуалӣ барои чопи маводи забони тоҷикӣ ворид карда шуд. Барои гирондани клавиатураи виртуалӣ ба майдони Word ё Lemma ворид шавед ва онро пайдо карда метавонед.
Рӯйхати аломатҳои грамматикӣ
(майдони Грамматика/Grammar дар ҷустуҷӯ)
Диққат! Хангоми ҷустуҷӯ регистри аломатҳоро риоя кунед:
- abs – пасвандҳои -ӣ / -вӣ / -гӣ, пасванди исми абстрактсоз
- ADJ – сифат (ҳиссаи нутқ)
- adj1 – пасванди сифатсоз -ӣ / -вӣ / -гӣ
- adj2 – пасванди сифатсоз -нок
- adj3 – пасванди сифатсоз -она / -гона
- adj4 – пасванди сифатсоз -онӣ
- adj5 – пасванди сифатсоз -ангӣ
- adj6 – пасванди сифатсоз -ин / -гин
- ADV – зарф
- ag – пасванди исми фоилсоз
- ag1 – пасванди -чӣ, пасванди исми фоилсоз
- ag2 – пасванди -гар, пасванди исми фоилсоз
- ag3 – пасванди -бон, пасванди исми фоилсоз
- ag4 – пасванди -ор, пасванди исми фоилсоз
- ag5 – пасванд -гор, пасванди исми фоилсоз
- ag6 – пасванди -вар, пасванди исми фоилсоз
- ag7 – пасванди -кор, пасванди исми фоилсоз
- and – пайвандакҳои у / ю / ва
- anim – ҷондор
- bi – пешванди феълии би- дар императив ва ё сиғаи шартӣ-хоҳишмандӣ
- bodypart – узви бадан
- caus – феъли сабаб (каузативи морфологӣ)
- cnject – сиғаи эҳтимолӣ
- cnject,prs – сиғаи эҳтимолии замони ҳозира
- cnject.prs.pass – замони ҳозираи сиғаи эҳтимолии ғайрифаъол (дида мешудагистам)
- cnject.prs.prog – сиғаи эҳтимолии замони ҳозираи муайян (хонда истодагист)
- cnject,pst – сиғаи эҳтимолии замони гузашта
- cnject.pst.pass – замони гузаштаи сиғаи эҳтимолии ғайрифаъол (дида шудагистам)
- cnject2 – сиғаи эҳтимолии шакли хуллас
- cnject2,prs – сиғаи эҳтимолии замони ҳозираи шакли хуллас
- cnject2.prs.pass – сиғаи эҳтимолӣ (бо шакли мухтасари бандаки феълӣ)
- cnject2.prs.prog – сиғаи эҳтимолии замони ҳозираи муайян
- cnject2,pst – сиғаи эҳтимолии замони гузаштаи шакли хуллас
- cnject2.pst.pass – сиғаи эҳтимолӣ (бо шакли мухтасари бандаки феълӣ)
- color – ранг
- compar – дараҷаи қиёсӣ -тар
- CONJ – пайвандак
- conv.prs.prog – феъли ҳоли замони ҳозираи муайян (хонда истода)
- cop – бандаки феълӣ
- cop.v – шакли пурраи бандаки феълӣ
- cop.encl – шакли мухтасари бандаки феълӣ
- DEM – ҷонишинҳои ишоратӣ
- dist – ҷонишинҳои дараҷаи дур
- dimin – пасванди хурдиву навозиш (деминутивӣ)
- dimin 1 – пасванди хурдиву навозиш (деминутивӣ) -ҷон
- dimin 2 – пасванди хурдиву навозиш (деминутивӣ) -ак / -акак
- dimin 3 – пасванди хурдиву навозиш (деминутивӣ) -ча / -чек / -ичек
- dimin 4 – пасванди хурдиву навозиш (деминутивӣ) -ина
- ezf – изофа
- f – исми хоси занона
- fract – шумораи касрӣ
- fut – замони ояндаи меъёри адабӣ
- fut.pass – ояндаи ғайрифаъол (сохта хоҳад шуд)
- have – пасванди -манд, ифодагари соҳибият ва ё сифат
- hab – бардавом, мукаррар (префикси ме- дар замони гузашта ва шакли мутлақ)
- hab.part.pst – сифати феълии ғайримутлақи замони гузашта бо -та / -да
- hab,prf – гузаштаи мутлақи давомдор / дуративи эвиденсиалӣ (мегуфтаанд)
- hab.prf.pass – мутлақи давомдори ғайрифаъол / дуративи эвиденсиалии ғайрифаъол (дида мешудааст)
- hab,pst – замони гузаштаи давомдор (мехобид)
- obj.def – нишондиҳандаи бевоситаи объекти мушаххас -ро
- ord – шумораи тартибӣ
- part – ҳар гуна сифати феълӣ
- part.fut – сифати феълии замони оянда бо -анӣ
- part.mod – сифати феълии модалӣ бо -агӣ
- part.mod.prs – сифати феълии модалии замони ҳозира бо ме-...-агӣ
- part.mod.prs.pass – шакли ғайрифаъоли сифати феълии модалии замони ҳозира бо ме-...- агӣ (кашида мешудагӣ)
- part.mod.pst – сифати феълии модалии замони гузашта бо -агӣ
- part.mod.pst.pass – шакли ғайрифаъолии сифати феълии модалӣ бо -агӣ (хонда шудагӣ)
- part.prs – сифати феълии замони ҳозира бо -анда
- part.prs.prog – сифати феълии замони гузаштаи муайян (хонда истодагӣ)
- part.pst – сифати феълии замони гузашта бо -та / -да
- pass – ҳамаи шаклҳои ғайрифаъол
- pass.part – ҳама гуна сифати феълии ғайрифаъол
- pass.part.pst – сифати феълии ғайрифаъоли замони гузашта бо -ташуда / -дашуда
- pers – ҷонишини шахсӣ
- pl – шумораи ҷамъ
- place – пасванди ифодагари макон
- place1 – пасванди ифодагари макон -(и)стон
- place2 – пасванди ифодагари макон -зор
- place3 – пасванди ифодагари макон -сор
- place4 – пасванди ифодагари макон -гоҳ
- place5 – пасванди ифодагари макон -дон
- pl.anim – шумораи ҷамъ барои исмҳои ҷондор (-он / -гон / -вон / -ён)
- pl.ar – исми ҷамъи забони арабӣ бо -от / -ҷот / -вот
- pl.ar.m – исми ҷамъи забони арабӣ бо -ин
- pluprf – плюсквамперфект (хонда будам)
- pluprf.evid – гузаштаи дури мутлақи нақлӣ гузоришёфта / мутлақи эвиденсиалӣ (хонда будаааст)
- pluprf.evid.pass – гузаштаи дури мутлақи ғайрифаъол / плюсквамперфекти эвиденсиалии ғайрифаъол (фиристода шуда будааст)
- pluprf.pass – плюсквамперфекти ғайрифаъол (гирифта шуда буд)
- poss – ҷонишини соҳибӣ
- poss.sg – ҷонишини соҳибии шумораи танҳо
- poss.pl – ҷонишини соҳибиии шумораи ҷамъ
- poss.1 – ҷонишини соҳибии шахси якум
- poss.2 – ҷонишини соҳибии шахси дувум
- poss.3 – ҷонишини соҳибии шахси сеюм
- POST – пасоянд
- PREP – пешоянд
- prf – шакли мутлақ
- prf.pass – мутлақи ғайрифаъол (дида шудааст)
- prog – ҳама гуна шаклҳои тасрифии феъл (прогрессив)
- PRON – ҷонишин
- prop – исми хос
- prox – ҷонишинҳои дараҷаи наздик
- prs – замони ҳозира
- prs.pass – ҳозираи ғайрифаъол (дида мешавам)
- prs.prog – ҳозираи муайян / ҳозираи давомдор (хонда истодаам)
- prs.prog.pass – ҳозираи муайяни ғайрифаъол/ прогрессиви замони ҳозира дар шакли ғайрифаъол (дида шуда истодаам)
- PRTCL – ҳиссача
- pst – замони гузашта
- pst.pass – гузаштаи ғайрифаъол (дида шуд)
- pst.prog – гузаштаи муайян / гузаштаи давомдор (хонда истода будам)
- pst.prog.pass – гузаштаи муайяни ғайрифаъол / прогрессиви замони гузашта дар шакли ғайрифаъол (хонда шуда истода буд)
- rel – ифодагари нисбият -е
- sbjv – сиғаи шартӣ-хоҳишмандӣ
- sbjv.hab – сиғаи шартӣ-хоҳишмандии замони оянда(давомдор) (мехонда бошам)
- sbjv.hab.pass – сиғаи шартӣ-хоҳишмандии давомдори ғайрифаъол (дида мешуда бошам)
- sbjv.pass – шартӣ-хоҳишмандии ғайрифаъол (дида шавам)
- sbjv.pst – замони гузаштаи сиғаи шартӣ-хоҳишмандӣ (дида бошам)
- sbjv.pst.pass – замони гузаштаи сиғаи шартӣ-хоҳишмандии ғайрифаъол (гирифта шуда бошад)
- sg – шумораи танҳо
- similar – пасванди сифатсози -гун
- similar2 – пасванди сифатсози -монанд
- suf.adj – ҳар гуна пасванди калимасоз, сифатсоз
- suf.n – ҳар гуна пасванди калимасоз, исмсоз
- super – дараҷаи олӣ -тарин
- V – феъл
- v.adv – сифати феълии замони ҳозира бо -он
- 1 – шахси якум
- 2 – шахси дуюм
- 3 – шахси сеюм
Созандагони пайкара
Пайкара дар натиҷаи кори муштараки мутахассисони тоҷик ва рус таҳия шудааст. Ҷамъоварӣ, рақамикунонӣ ва коркарди матнҳо ба забони тоҷикӣ аз ҷониби як гурӯҳ олимони кафедраи забоншиносии назариявӣ ва амалӣ (Д.М. Искандарова, Х.Д. Шамбезода, М.Б. Давлатмирова, О.Л. Козлова) ва кафедраи информатика ва системаҳои иттилоотии (З.Д. Усмонов, М.А. Умаров) Донишгоҳи (Славянии) Россия ва Тоҷикистон, инчунин олимони Донишгоҳи давлатии ҳуқуқ, тиҷорат ва сиёсати Тоҷикистон дар Хуҷанд (Г. Довудов, А. Қосимов) иҷро карда шуданд.
Шакли ниҳоии матнҳо пеш аз ба пайкара илова кардани онҳо аз ҷониби A.П Видрин коркард мешавад.
Луғати забони тоҷикиро A.П Видрин, А.Д.Егорова ва И.В. Егоров коркард ва танзим кардаанд. Таҳлилгари морфологии тоҷикӣ аз ҷониби A.P. Видрин танзим шудааст. Системаи вижагиҳои грамматикӣ (майдони Грамматика барои ҷустуҷӯ) ва глосс (майдони Gloss дар ҷустуҷӯ)- ро низ А.П. Видрин таҳия кардааст.
Аз соли 2021 инҷониб дар пайкара тарзи коркарди қариб ҳамаи шаклҳои таҳлилии феълҳои забони тоҷикӣ аз ҷониби А.П. Видрин, Т.А. Архангелский ва А.В. Панасюк ба анҷом расонда шуд.
Ҳифзи дарсади тақсимоти автоматӣ аз ҷониби A.P. Видрин роҳандозӣ мешавад.
Аз соли 2020 инҷониб барои дастгирии техникӣ, инчунин зеркашӣ ва коркарди ниҳоии матнҳои рӯзномаҳо дар пайкара А.В.Панасюк саҳм мегирад.
Миннатдорӣ
Миннатдории худро ба A.A. Меликов, ки матнҳои муаллифони муосири тоҷикзабонро (тақрибан 200 китоб) аз нашрияҳои шаҳрҳои Душанбе, Самарқанд ва Тошканд ҷамъ овардааст ва Б. Олимов (130 китоб) барои пешкаш намудани маҷмӯаҳо баён мекунем. Инчунин аз магистрантҳои шуъбаи забоншиносии назариявӣ ва амалӣ ва донишҷӯёни Донишгоҳи (Славянии) Россия ва Тоҷикистон, ки шумораи зиёди матнҳоро кор карда баромаданд (хусусан Манижа Сохибова ва Ҳаммод Муборакшо) миннатдорем. Мо инчунин аз T.A. Архангелский, ки оиди хусусиятҳои таҳлилгарҳои худ машварат гузаронид ва пайкараи тоҷикро дар интернет ҷойгир кард, сипосгузорем.
Маълумот барои тамос
Лутфан ҳар гуна эрод ва пешниҳоди худро ба Арсений Павлович Видрин ба суроғаи электронии senjacom@gmail.com фиристед.
Дурнамои рушди пайкара
Дар соли 2022 таҳияи пайкараи адабиёти классикии тоҷику форси асрҳои IX-XIX ба нақша гирифта шудааст. Васеъ кардани пайкараи мавҷудаи матнҳои муосир тавассути ворид кардани матнҳои нав, инчунин мукаммалгардонии сифат ва зиёд кардани теъдоди калимаҳои автоматӣ таҳлилшаванда низ дар назар аст. Таҳиягарони пайкара аз омода ва пешкаш кардани матнҳои нав ба забони тоҷикӣ барои дохил кардан ба пайкара миннатдор хоҳанд буд.
Матнҳо ба суроғаҳои: lingvistik.rtsu@gmail.com ва senjacom@gmail.com дар ҳама гуна формати матн қабул карда мешаванд (doc, docx, rtf, txt, odt).
Мо кафолат медиҳем, ки ҳуқуқи муаллифон риоя ва матнҳои ирсолшуда танҳо барои таҳия ва рушди Пайкараи миллии забони тоҷикӣ истифода хоҳанд шуд.