Национальный корпус таджикского языка (НКТЯ)

На настоящем ресурсе находится письменный корпус литературного таджикского языка объемом 58,4 млн словоупотреблений. Доля автоматического разбора составляет 96%. Каждая разобранная словоформа включает грамматическую информацию и перевод на русский и английский язык.

К поиску

Финансирование

Создание и развитие корпуса финансируется из следующих источников:

Госбюджет Республики Таджикистан (2019-2021 гг.); руководитель – д.ф.н., профессор Д.М. Искандарова, научный консультант – д.ф.н., профессор, академик РАН В.А. Плунгян;
Программа развития Российско-Таджикского (Славянского) университета (2019 г.), руководитель – д.ф.н., профессор Д.М. Искандарова;
Грант РФФИ № 19-012-00637 (2019-2021 гг.); руководитель – к.ф.н. А.П. Выдрин.

Состав корпуса

В настоящее время в корпус входят произведения на литературном таджикском языке современного периода, изданные в XX и XXI вв. В корпусе представлены следующие жанры: проза, поэзия, драма, публицистика, научная и учебная литература, мемуарно-библиографическая литература, религиозная литература, политическая литература, юридическая литература и газетная публицистика. Процентное соотношение по жанрам выглядит следующим образом:

проза — 13,5%
поэзия — 3%
научная/учебная литература — 6%
мемуарно-библиографическая литература — 2%
публицистика — 0,65%
религиозная литература — 1,8%
юридическая литература — 0,7%
политическая литература — 0,14%
сказки — 0,1%
драма — 0,03%
газеты — 72%

Полный список произведений, вошедших в Национальный корпус таджикского языка, доступен во второй вкладке окна, появляющегося при нажатии на кнопку «Выбор подкорпуса».

Характеристики корпуса

При создании корпуса использован метод автоматического разбора с помощью программы морфологического анализатора. Анализатор разработан Т.А. Архангельским в качестве универсального программного инструмента для создания лингвистических корпусов и успешно реализован в целом ряде корпусов, созданных с середины 2000-х гг. и находящихся в открытом доступе. Из корпусов других иранских языков следует отметить Осетинский национальный корпус (http://corpus.ossetic-studies.org/) и письменный корпус дигорского диалекта осетинского языка (http://corpus-digor.ossetic-studies.org/).

Система автоматического разбора включает в себя лемматизацию и морфологическую разметку. При лемматизации каждой словоформе приписывается ее лемма, то есть словарная форма на русском и английском языках. Для перевода таджикского на русский использовались словари «М.В. Рахими и Л.В. Успенской. Таджикско-русский словарь. М.: Государственное издательство иностранных и национальных словарей, 1954» и «Д.Саймиддинов, С.Д.Холматова, С.Каримов (ред). Таджикско-русский словарь. Издание второе, дополненное и исправленное. Душанбе: «Пайванд», 2006.». Лемматизация предполагает ручную обработку таджикско-русского словаря. Под морфологической разметкой подразумевается добавление каждой словоформе грамматической и синтаксической информации (часть речи, наклонение, время, число, лицо и т.д.). Правила и настройки морфологической разметки таджикского корпуса были разработаны вручную.

На данный момент доля автоматически разобранного материала составляет 96%.

Для корпуса адаптирована универсальная поисковая система, разработанная Т.А. Архангельским. В 2021 г. Т.А. Архангельским было произведено обновление платформы. Поиск возможен по лексеме, словоформе, словарному полексемному переводу, а также по грамматическим характеристикам (полный список глосс с расшифровкой см. ниже). Для более точного поиска возможна комбинация поисковых запросов по разным параметрам. Система поиска позволяет искать несколько языковых элементов с заданным расстоянием между ними, а также искать в подкорпусе, то есть в выбранных пользователем текстах (например, только в текстах определенного жанра или времени, в текстах конкретного автора или авторов). Возможны также настройки выдачи материала. Чтобы узнать другие возможности поиска, нужно нажать на знак вопроса в верхней части страницы поиска.

Во избежание нарушения авторских прав доступ к целым текстам не предоставляется. Возможности выдачи ограничены контекстом из 7 предложений.

Ввод специальных символов

При включённом «обычном» способе ввода символов (включён по умолчанию) можно пользоваться следующими комбинациями для ввода таджикских букв, отсутствующих на русской клавиатуре:

и1 = ӣ
х1 = ҳ
к1 = қ
ч1 = ҷ
у1 = ӯ
г1 = ғ
* = любая буква (буквы)
| – любое из (например запрос "prox|dist" в графе Grammar найдет местоимения ближней или дальней степени)

В 2021 г. была также добавлена виртуальная клавиатура для введения таджикского языкового материала. Чтобы включить виртуальную клавиатуру, на странице поиска слева нажмите на значок клавиатуры и войдите в поле Word или Lemma, внизу должна появиться виртуальная клавиатура.

Транслитерация

В 2021 г. создана транслитерация таджикской кириллицы в латиницу. Для перевода выдачи из кириллицы в латиницу нажмите на главной странице Поиска в левом верхнем углу Настройки, Transliteration, latin.

Для ввода латиницы в поиске на главной странице Поиска в левом верхнем углу нажмите Настройки, Character input method, inputmethod_latin.

Ниже приводится таблица соответствий латиницы кириллице, используемая в поисковом запросе:

g1 = ғ
s1 = ш
z1 = ж
h1 = х
ch = ч
a1 = я
o1 = ё
y1 = ю
i1 = ī
u1 = ū
c1 = щ
y2 = ы
a = а
b = б
v = в
g = г
d = д
z = з
i = и
ī = ӣ
y = й
k = к
q = қ
l = л
m = м
n = н
o = о
p = п
r = р
s = с
t = т
u = у
ū = ӯ
f = ф
h = ҳ
j = ҷ
' = ъ
ė = э
c = ц
` = ь

Список грамматических признаков

(поле Грамматика/Grammar в поиске)

ВНИМАНИЕ! При поиске соблюдайте регистр признаков

abs – суффикс -ӣ / -вӣ / -гӣ, образующий абстрактные существительные
ADJ – прилагательное (часть речи)
adj1 – суффикс -ӣ / -вӣ / -гӣ, образующий прилагательные
adj2 – суффикс -нок, образующий прилагательные
adj3 – суффикс -она / -гона, образующий прилагательные
adj4 – суффикс -онӣ, образующий прилагательные
adj5 – суффикс -ангӣ, образующий прилагательные
adj6 – суффикс -ин / -гин, образующий прилагательные
ADV – наречие
ag – суффикс, образующий имя деятеля
ag1 – суффикс -чӣ, образующий имя деятеля
ag2 – суффикс -гар, образующий имя деятеля
ag3 – суффикс -бон, образующий имя деятеля
ag4 – суффикс -ор, образующий имя деятеля
ag5 – суффикс -гор, образующий имя деятеля
ag6 – суффикс -вар, образующий имя деятеля
ag7 – суффикс -кор, образующий имя деятеля
and – союз у / ю / ва
anim – одушевленность
bi – глагольный префикс би- в императиве или сослагательном наклонении
bodypart – часть тела
caus – морфологически каузативный глагол
cnject – предположительное наклонение
cnject,prs – предположительное наклонение настоящего времени
cnject,pst – предположительное наклонение прошедшего времени
cnject.prs.pass – предположительное наклонение настоящего времени в пассиве (дида мешудагистам)
cnject.prs.pass – предположительное наклонение настоящего времени в пассиве (дида мешудагистам)
cnject.pst.pass – предположительное наклонение прошедшего времени в пассиве (дида шудагистам)
cnject.pst.pass – предположительное наклонение прошедшего времени в пассиве (дида шудагистам)
cnject2 – предположительное наклонение с краткой формой связки
cnject2,prs – предположительное наклонение настоящего времени с краткой формой связки
cnject2,pst – предположительное наклонение прошедшего времени с краткой формой связки
cnject2.prs.pass – предположительное наклонение (с краткой формой связки)
cnject2.prs.pass – предположительное наклонение (с краткой формой связки)
cnject2.pst.pass – предположительное наклонение (с краткой формой связки)
cnject2.pst.pass – предположительное наклонение (с краткой формой связки)
color – цвет
compar – сравнительная степень -тар
CONJ – союз
conv.prs.prog – деепричастие настоящего определенного времени (хонда истода)
cop – глагольная связка
cop.encl – краткая форма глагольной связки
cop.v – полная форма глагольной связки
DEM – указательное местоимение
dimin – деминутивный суффикс
dimin1 – деминутивный суффикс -ҷон
dimin2 – деминутивный суффикс -ак / -аккак
dimin3 – деминутивный суффикс -ча / -чек / -ичек
dimin4 – деминутивный суффикс -ина
dist – местоимение дальней степени
ezf – изафет
f – женское имя собственное
fract – дробное числительное
fut – литературное будущее время
fut.pass – будущее в пассиве (сохта хоҳад шуд)
hab – хабитуальность (префикс ме- в прошедших временах и перфекте)
hab,prf – длительная форма перфекта / эвиденциальный дуратив (мегуфтаанд)
hab,pst – прошедшее длительное (мехобид)
hab.part.pst – имперфективное причастие прошедшего времени на -та / -да
hab.prf.pass – длительная форма перфекта в пассиве / эвиденциальный дуратив в пассиве (дида мешудааст)
have – суффикс -манд, обозначающий обладание предметом или качеством
hon – вежливость (глагольное окончание 2pl)
house – сложные имена, имеющие в своем составе -хона ‘дом’
hum – человек
imp – императив
impf.pass – прошедшее длительное в пассиве (дида мешуд)
indef – показатель неопределенности -е
indir – любое косвенное наклонение
inf – инфинитив
int – намерение (формы с причастием будущего времени и краткой формой связки, например, рафтаниам)
INTJ – междометие
kinship – термин родства
m – мужское имя собственное
mod – модальное слово
N – существительное
neg – префикс отрицания на
neg2 – префикс отрицания ма
nonhuman – нечеловек
NUM – числительное
obj.def – показатель определенного прямого объекта -ро
ord – порядковое числительное
part – любое причастие
part.fut – причастие будущего времени на -анӣ
part.mod – модальное причастие на -агӣ
part.mod.prs – модальное причастие настоящего времени на ме-...-агӣ
part.mod.prs.pass – пассивная форма модального причастия настоящего времени на ме-...-агӣ (кашида мешудагӣ)
part.mod.pst – модальное причастие прошедшего времени на -агӣ
part.mod.pst.pass – пассивная форма модального причастия на -агӣ (хонда шудагӣ)
part.prs – причастие настоящего времени на -анда
part.prs.prog – причастие прошедшего определенного времени (хонда истодагӣ)
part.pst – причастие прошедшего времени на -та / -да
pass – все финитные пассивные формы
pass.part – любое пассивное причастие
pass.part.pst – пассивное причастие прошедшего времени на -ташуда / -дашуда
pers – личное местоимение
pl – множественное число
pl.anim – множественное число для одушевленных имен (-он / -гон / -вон / -ён)
pl.ar – арабское множественное число на -от / -ҷот / -вот
pl.ar.m – арабское множественное число на -ин
place – суффикс, обозначающий место
place1 – суффикс -(и)стон, обозначающий место
place2 – суффикс -зор, обозначающий место
place3 – суффикс -сор, обозначающий место
place4 – суффикс -гоҳ, обозначающий место
place5 – суффикс -дон, обозначающий место
pluprf – плюсквамперфект (хонда будам)
pluprf.evid – преждепрошедший перфект / эвиденциальный перфект (хонда будаааст)
pluprf.evid.pass – Преждепрошедший перфект в пассиве / эвиденциальный плюсквамперфект в пассиве (фиристода шуда будааст)
pluprf.pass – плюсквамперфект в пассиве (гирифта шуда буд)
poss – посессивное местоимение
poss.1 – посессивное местоимение первого лица
poss.2 – посессивное местоимение второго лица
poss.3 – посессивное местоимение третьего лица
poss.pl – посессивное местоимение множественного числа
poss.sg – посессивное местоимение единственного числа
POST – послелог
PREP – предлог
prf – перфект
prf.pass – перфект в пассиве (дида шудааст)
prog – любая из глагольных форм прогрессива
PRON – местоимение
prop – имя собственное
prox – местоимение ближней степени
prs – настоящее время
prs.pass – настоящее в пассиве (дида мешавам)
prs.prog – настоящее определенное / прогрессив настоящего (хонда истодаам)
prs.prog.pass – настоящее определенное в пассиве / прогрессив настоящего в пассиве (дида шуда истодаам)
PRTCL – частица
pst – прошедшее время
pst.pass – прошедшее в пассиве (дида шуд)
pst.prog – прошедшее определенное / прогрессив прошедшего (хонда истода будам)
pst.prog.pass – прошедшее определенное в пассиве / прогрессив прошедшего в пассиве (хонда шуда истода буд)
rel – релятивизатор -е
sbjv – сослагательное наклонение
sbjv.hab – длительная форма сослагательного наклонения (мехонда бошам)
sbjv.hab.pass – длительная форма сослагательного наклонения в пассиве (дида мешуда бошам)
sbjv.pass – сослагательное наклонение в пассиве (дида шавам)
sbjv.pst – прошедшее время сослагательного наклонения (дида бошам)
sbjv.pst.pass – прошедшее время сослагательного наклонения в пассиве (гирифта шуда бошад)
sg – единственное число
similar – суффикс -гун, образующий прилагательные
similar2 – суффикс -монанд, образующий прилагательные
suf.adj – любой деривационный суффикс, образующий прилагательные
suf.n – любой деривационный суффикс, образующий существительные
super – превосходная степень -тарин
V – глагол
v.adv – причастие настоящего времени на -он
1 – первое лицо
2 – второе лицо
3 – третье лицо

Создатели корпуса

Корпус создан в результате совместной работы таджикских и российских специалистов. Сбор, оцифровка и обработка текстов на таджикском языке осуществлялась группой исследователей кафедры теоретического и прикладного языкознания (Д.М. Искандарова, Х.Д. Шамбезода, М.Б. Давлатмирова, О.Л. Козлова) и кафедры информатики и информационных систем Российско-Таджикского (Славянского) университета (З.Д. Усманов, М.А. Умаров), а также исследователей из Таджикского государственного университета права, бизнеса и политики г. Худжанд (Г. Довудов, А. Косимов). Финальная обработка текстов перед их добавлением в корпус осуществлялась А.П. Выдриным.

Словарь таджикского языка был обработан и настроен А.П. Выдриным, А.Д. Егоровой и И.В. Егоровым. Таджикский морфологический анализатор настроен А.П. Выдриным. Система грамматических признаков (поле Грамматика в поиске) и глосс (поле Глоссы в поиске) разработаны А.П. Выдриным.

С 2021 г. в корпусе появился разбор практически всех существующих в таджикском глагольных аналитических форм. Над этим работали А.П. Выдрин, Т.А. Архангельский и А. В. Панасюк.

Поддержание процента автоматического разбора обеспечивает А.П. Выдрин.

С 2020 г. технической поддержкой корпуса, а также скачиванием и финальной обработкой газетных текстов занимается А.В.Панасюк.

Благодарности

Выражаем благодарность А.А. Меликову, предоставившему коллекцию текстов современных таджикоязычных авторов (около 200 книг), собранных в издательствах городов Душанбе, Самарканд и Ташкент; Б. Олимову, поделившемуся частной коллекцией в 130 книг; магистрантам отделения «Теоретическая и прикладная лингвистика» Российско-Таджикского (Славянского) университета, обработавшим большое количество текстов (особая благодарность Маниже Сохибовой и Хаммоду Муборакшо). Мы также признательны Т.А. Архангельскому, проводившему консультации по особенностям работы автоматического анализатора и выложившему таджикский корпус онлайн.

Контакты

Любые замечания и предложения по корпусу просьба посылать по адресу senjacom@gmail.com, Выдрин Арсений Павлович

Перспективы развития корпуса

В 2022 г. планируется создать корпус классической персидско-таджикской литературы IX–XIX вв. Существующий корпус современных текстов планируется расширить за счет включения новых текстов, а также усовершенствовать качество и количество автоматически разобранных слов.

Создатели корпуса будут рады включить в корпус новые тексты, опубликованные на таджикском языке. Тексты принимаются по адресам: lingvistik.rtsu@gmail.com и senjacom@gmail.com в любом текстовом формате (doc, docx, rtf, txt, odt). Мы гарантируем соблюдение авторских прав и использование присланных текстов только для пополнения и развития Национального корпуса таджикского языка.