Национальный корпус таджикского языка (НКТЯ)
На настоящем ресурсе находится письменный корпус литературного таджикского языка объемом 58,4 млн словоупотреблений. Доля автоматического разбора составляет 96%. Каждая разобранная словоформа включает грамматическую информацию и перевод на русский и английский язык.
Финансирование
Создание и развитие корпуса финансируется из следующих источников:
- Госбюджет Республики Таджикистан (2019-2021 гг.); руководитель – д.ф.н., профессор Д.М. Искандарова, научный консультант – д.ф.н., профессор, академик РАН В.А. Плунгян;
- Программа развития Российско-Таджикского (Славянского) университета (2019 г.), руководитель – д.ф.н., профессор Д.М. Искандарова;
- Грант РФФИ № 19-012-00637 (2019-2021 гг.); руководитель – к.ф.н. А.П. Выдрин.
Состав корпуса
В настоящее время в корпус входят произведения на литературном таджикском языке современного периода, изданные в XX и XXI вв. В корпусе представлены следующие жанры: проза, поэзия, драма, публицистика, научная и учебная литература, мемуарно-библиографическая литература, религиозная литература, политическая литература, юридическая литература и газетная публицистика. Процентное соотношение по жанрам выглядит следующим образом:
- проза — 13,5%
- поэзия — 3%
- научная/учебная литература — 6%
- мемуарно-библиографическая литература — 2%
- публицистика — 0,65%
- религиозная литература — 1,8%
- юридическая литература — 0,7%
- политическая литература — 0,14%
- сказки — 0,1%
- драма — 0,03%
- газеты — 72%
Полный список произведений, вошедших в Национальный корпус таджикского языка, доступен во второй вкладке окна, появляющегося при нажатии на кнопку «Выбор подкорпуса».
Характеристики корпуса
При создании корпуса использован метод автоматического разбора с помощью программы морфологического анализатора. Анализатор разработан Т.А. Архангельским в качестве универсального программного инструмента для создания лингвистических корпусов и успешно реализован в целом ряде корпусов, созданных с середины 2000-х гг. и находящихся в открытом доступе. Из корпусов других иранских языков следует отметить Осетинский национальный корпус (http://corpus.ossetic-studies.org/) и письменный корпус дигорского диалекта осетинского языка (http://corpus-digor.ossetic-studies.org/).
Система автоматического разбора включает в себя лемматизацию и морфологическую разметку. При лемматизации каждой словоформе приписывается ее лемма, то есть словарная форма на русском и английском языках. Для перевода таджикского на русский использовались словари «М.В. Рахими и Л.В. Успенской. Таджикско-русский словарь. М.: Государственное издательство иностранных и национальных словарей, 1954» и «Д.Саймиддинов, С.Д.Холматова, С.Каримов (ред). Таджикско-русский словарь. Издание второе, дополненное и исправленное. Душанбе: «Пайванд», 2006.». Лемматизация предполагает ручную обработку таджикско-русского словаря. Под морфологической разметкой подразумевается добавление каждой словоформе грамматической и синтаксической информации (часть речи, наклонение, время, число, лицо и т.д.). Правила и настройки морфологической разметки таджикского корпуса были разработаны вручную.
На данный момент доля автоматически разобранного материала составляет 96%.
Для корпуса адаптирована универсальная поисковая система, разработанная Т.А. Архангельским. В 2021 г. Т.А. Архангельским было произведено обновление платформы. Поиск возможен по лексеме, словоформе, словарному полексемному переводу, а также по грамматическим характеристикам (полный список глосс с расшифровкой см. ниже). Для более точного поиска возможна комбинация поисковых запросов по разным параметрам. Система поиска позволяет искать несколько языковых элементов с заданным расстоянием между ними, а также искать в подкорпусе, то есть в выбранных пользователем текстах (например, только в текстах определенного жанра или времени, в текстах конкретного автора или авторов). Возможны также настройки выдачи материала. Чтобы узнать другие возможности поиска, нужно нажать на знак вопроса в верхней части страницы поиска.
Во избежание нарушения авторских прав доступ к целым текстам не предоставляется. Возможности выдачи ограничены контекстом из 7 предложений.
Ввод специальных символов
При включённом «обычном» способе ввода символов (включён по умолчанию) можно пользоваться следующими комбинациями для ввода таджикских букв, отсутствующих на русской клавиатуре:
- и1 = ӣ
- х1 = ҳ
- к1 = қ
- ч1 = ҷ
- у1 = ӯ
- г1 = ғ
- * = любая буква (буквы)
- | – любое из (например запрос "prox|dist" в графе Grammar найдет местоимения ближней или дальней степени)
В 2021 г. была также добавлена виртуальная клавиатура для введения таджикского языкового материала. Чтобы включить виртуальную клавиатуру, на странице поиска слева нажмите на значок клавиатуры и войдите в поле Word или Lemma, внизу должна появиться виртуальная клавиатура.
Транслитерация
В 2021 г. создана транслитерация таджикской кириллицы в латиницу. Для перевода выдачи из кириллицы в латиницу нажмите на главной странице Поиска в левом верхнем углу Настройки, Transliteration, latin.
Для ввода латиницы в поиске на главной странице Поиска в левом верхнем углу нажмите Настройки, Character input method, inputmethod_latin.
Ниже приводится таблица соответствий латиницы кириллице, используемая в поисковом запросе:
- g1 = ғ
- s1 = ш
- z1 = ж
- h1 = х
- ch = ч
- a1 = я
- o1 = ё
- y1 = ю
- i1 = ī
- u1 = ū
- c1 = щ
- y2 = ы
- a = а
- b = б
- v = в
- g = г
- d = д
- z = з
- i = и
- ī = ӣ
- y = й
- k = к
- q = қ
- l = л
- m = м
- n = н
- o = о
- p = п
- r = р
- s = с
- t = т
- u = у
- ū = ӯ
- f = ф
- h = ҳ
- j = ҷ
- ' = ъ
- ė = э
- c = ц
- ` = ь
Список грамматических признаков
(поле Грамматика/Grammar в поиске)
ВНИМАНИЕ! При поиске соблюдайте регистр признаков
- abs – суффикс -ӣ / -вӣ / -гӣ, образующий абстрактные существительные
- ADJ – прилагательное (часть речи)
- adj1 – суффикс -ӣ / -вӣ / -гӣ, образующий прилагательные
- adj2 – суффикс -нок, образующий прилагательные
- adj3 – суффикс -она / -гона, образующий прилагательные
- adj4 – суффикс -онӣ, образующий прилагательные
- adj5 – суффикс -ангӣ, образующий прилагательные
- adj6 – суффикс -ин / -гин, образующий прилагательные
- ADV – наречие
- ag – суффикс, образующий имя деятеля
- ag1 – суффикс -чӣ, образующий имя деятеля
- ag2 – суффикс -гар, образующий имя деятеля
- ag3 – суффикс -бон, образующий имя деятеля
- ag4 – суффикс -ор, образующий имя деятеля
- ag5 – суффикс -гор, образующий имя деятеля
- ag6 – суффикс -вар, образующий имя деятеля
- ag7 – суффикс -кор, образующий имя деятеля
- and – союз у / ю / ва
- anim – одушевленность
- bi – глагольный префикс би- в императиве или сослагательном наклонении
- bodypart – часть тела
- caus – морфологически каузативный глагол
- cnject – предположительное наклонение
- cnject,prs – предположительное наклонение настоящего времени
- cnject,pst – предположительное наклонение прошедшего времени
- cnject.prs.pass – предположительное наклонение настоящего времени в пассиве (дида мешудагистам)
- cnject.prs.pass – предположительное наклонение настоящего времени в пассиве (дида мешудагистам)
- cnject.pst.pass – предположительное наклонение прошедшего времени в пассиве (дида шудагистам)
- cnject.pst.pass – предположительное наклонение прошедшего времени в пассиве (дида шудагистам)
- cnject2 – предположительное наклонение с краткой формой связки
- cnject2,prs – предположительное наклонение настоящего времени с краткой формой связки
- cnject2,pst – предположительное наклонение прошедшего времени с краткой формой связки
- cnject2.prs.pass – предположительное наклонение (с краткой формой связки)
- cnject2.prs.pass – предположительное наклонение (с краткой формой связки)
- cnject2.pst.pass – предположительное наклонение (с краткой формой связки)
- cnject2.pst.pass – предположительное наклонение (с краткой формой связки)
- color – цвет
- compar – сравнительная степень -тар
- CONJ – союз
- conv.prs.prog – деепричастие настоящего определенного времени (хонда истода)
- cop – глагольная связка
- cop.encl – краткая форма глагольной связки
- cop.v – полная форма глагольной связки
- DEM – указательное местоимение
- dimin – деминутивный суффикс
- dimin1 – деминутивный суффикс -ҷон
- dimin2 – деминутивный суффикс -ак / -аккак
- dimin3 – деминутивный суффикс -ча / -чек / -ичек
- dimin4 – деминутивный суффикс -ина
- dist – местоимение дальней степени
- ezf – изафет
- f – женское имя собственное
- fract – дробное числительное
- fut – литературное будущее время
- fut.pass – будущее в пассиве (сохта хоҳад шуд)
- hab – хабитуальность (префикс ме- в прошедших временах и перфекте)
- hab,prf – длительная форма перфекта / эвиденциальный дуратив (мегуфтаанд)
- hab,pst – прошедшее длительное (мехобид)
- hab.part.pst – имперфективное причастие прошедшего времени на -та / -да
- hab.prf.pass – длительная форма перфекта в пассиве / эвиденциальный дуратив в пассиве (дида мешудааст)
- have – суффикс -манд, обозначающий обладание предметом или качеством
- hon – вежливость (глагольное окончание 2pl)
- house – сложные имена, имеющие в своем составе -хона ‘дом’
- hum – человек
- imp – императив
- impf.pass – прошедшее длительное в пассиве (дида мешуд)
- indef – показатель неопределенности -е
- indir – любое косвенное наклонение
- inf – инфинитив
- int – намерение (формы с причастием будущего времени и краткой формой связки, например, рафтаниам)
- INTJ – междометие
- kinship – термин родства
- m – мужское имя собственное
- mod – модальное слово
- N – существительное
- neg – префикс отрицания на
- neg2 – префикс отрицания ма
- nonhuman – нечеловек
- NUM – числительное
- obj.def – показатель определенного прямого объекта -ро
- ord – порядковое числительное
- part – любое причастие
- part.fut – причастие будущего времени на -анӣ
- part.mod – модальное причастие на -агӣ
- part.mod.prs – модальное причастие настоящего времени на ме-...-агӣ
- part.mod.prs.pass – пассивная форма модального причастия настоящего времени на ме-...-агӣ (кашида мешудагӣ)
- part.mod.pst – модальное причастие прошедшего времени на -агӣ
- part.mod.pst.pass – пассивная форма модального причастия на -агӣ (хонда шудагӣ)
- part.prs – причастие настоящего времени на -анда
- part.prs.prog – причастие прошедшего определенного времени (хонда истодагӣ)
- part.pst – причастие прошедшего времени на -та / -да
- pass – все финитные пассивные формы
- pass.part – любое пассивное причастие
- pass.part.pst – пассивное причастие прошедшего времени на -ташуда / -дашуда
- pers – личное местоимение
- pl – множественное число
- pl.anim – множественное число для одушевленных имен (-он / -гон / -вон / -ён)
- pl.ar – арабское множественное число на -от / -ҷот / -вот
- pl.ar.m – арабское множественное число на -ин
- place – суффикс, обозначающий место
- place1 – суффикс -(и)стон, обозначающий место
- place2 – суффикс -зор, обозначающий место
- place3 – суффикс -сор, обозначающий место
- place4 – суффикс -гоҳ, обозначающий место
- place5 – суффикс -дон, обозначающий место
- pluprf – плюсквамперфект (хонда будам)
- pluprf.evid – преждепрошедший перфект / эвиденциальный перфект (хонда будаааст)
- pluprf.evid.pass – Преждепрошедший перфект в пассиве / эвиденциальный плюсквамперфект в пассиве (фиристода шуда будааст)
- pluprf.pass – плюсквамперфект в пассиве (гирифта шуда буд)
- poss – посессивное местоимение
- poss.1 – посессивное местоимение первого лица
- poss.2 – посессивное местоимение второго лица
- poss.3 – посессивное местоимение третьего лица
- poss.pl – посессивное местоимение множественного числа
- poss.sg – посессивное местоимение единственного числа
- POST – послелог
- PREP – предлог
- prf – перфект
- prf.pass – перфект в пассиве (дида шудааст)
- prog – любая из глагольных форм прогрессива
- PRON – местоимение
- prop – имя собственное
- prox – местоимение ближней степени
- prs – настоящее время
- prs.pass – настоящее в пассиве (дида мешавам)
- prs.prog – настоящее определенное / прогрессив настоящего (хонда истодаам)
- prs.prog.pass – настоящее определенное в пассиве / прогрессив настоящего в пассиве (дида шуда истодаам)
- PRTCL – частица
- pst – прошедшее время
- pst.pass – прошедшее в пассиве (дида шуд)
- pst.prog – прошедшее определенное / прогрессив прошедшего (хонда истода будам)
- pst.prog.pass – прошедшее определенное в пассиве / прогрессив прошедшего в пассиве (хонда шуда истода буд)
- rel – релятивизатор -е
- sbjv – сослагательное наклонение
- sbjv.hab – длительная форма сослагательного наклонения (мехонда бошам)
- sbjv.hab.pass – длительная форма сослагательного наклонения в пассиве (дида мешуда бошам)
- sbjv.pass – сослагательное наклонение в пассиве (дида шавам)
- sbjv.pst – прошедшее время сослагательного наклонения (дида бошам)
- sbjv.pst.pass – прошедшее время сослагательного наклонения в пассиве (гирифта шуда бошад)
- sg – единственное число
- similar – суффикс -гун, образующий прилагательные
- similar2 – суффикс -монанд, образующий прилагательные
- suf.adj – любой деривационный суффикс, образующий прилагательные
- suf.n – любой деривационный суффикс, образующий существительные
- super – превосходная степень -тарин
- V – глагол
- v.adv – причастие настоящего времени на -он
- 1 – первое лицо
- 2 – второе лицо
- 3 – третье лицо
Создатели корпуса
Корпус создан в результате совместной работы таджикских и российских специалистов. Сбор, оцифровка и обработка текстов на таджикском языке осуществлялась группой исследователей кафедры теоретического и прикладного языкознания (Д.М. Искандарова, Х.Д. Шамбезода, М.Б. Давлатмирова, О.Л. Козлова) и кафедры информатики и информационных систем Российско-Таджикского (Славянского) университета (З.Д. Усманов, М.А. Умаров), а также исследователей из Таджикского государственного университета права, бизнеса и политики г. Худжанд (Г. Довудов, А. Косимов). Финальная обработка текстов перед их добавлением в корпус осуществлялась А.П. Выдриным.
Словарь таджикского языка был обработан и настроен А.П. Выдриным, А.Д. Егоровой и И.В. Егоровым. Таджикский морфологический анализатор настроен А.П. Выдриным. Система грамматических признаков (поле Грамматика в поиске) и глосс (поле Глоссы в поиске) разработаны А.П. Выдриным.
С 2021 г. в корпусе появился разбор практически всех существующих в таджикском глагольных аналитических форм. Над этим работали А.П. Выдрин, Т.А. Архангельский и А. В. Панасюк.
Поддержание процента автоматического разбора обеспечивает А.П. Выдрин.
С 2020 г. технической поддержкой корпуса, а также скачиванием и финальной обработкой газетных текстов занимается А.В.Панасюк.
Благодарности
Выражаем благодарность А.А. Меликову, предоставившему коллекцию текстов современных таджикоязычных авторов (около 200 книг), собранных в издательствах городов Душанбе, Самарканд и Ташкент; Б. Олимову, поделившемуся частной коллекцией в 130 книг; магистрантам отделения «Теоретическая и прикладная лингвистика» Российско-Таджикского (Славянского) университета, обработавшим большое количество текстов (особая благодарность Маниже Сохибовой и Хаммоду Муборакшо). Мы также признательны Т.А. Архангельскому, проводившему консультации по особенностям работы автоматического анализатора и выложившему таджикский корпус онлайн.
Контакты
Любые замечания и предложения по корпусу просьба посылать по адресу senjacom@gmail.com, Выдрин Арсений Павлович
Перспективы развития корпуса
В 2022 г. планируется создать корпус классической персидско-таджикской литературы IX–XIX вв. Существующий корпус современных текстов планируется расширить за счет включения новых текстов, а также усовершенствовать качество и количество автоматически разобранных слов.
Создатели корпуса будут рады включить в корпус новые тексты, опубликованные на таджикском языке. Тексты принимаются по адресам: lingvistik.rtsu@gmail.com и senjacom@gmail.com в любом текстовом формате (doc, docx, rtf, txt, odt). Мы гарантируем соблюдение авторских прав и использование присланных текстов только для пополнения и развития Национального корпуса таджикского языка.