Национальный корпус таджикского языка (НКТЯ)

На настоящем ресурсе находится письменный корпус литературного таджикского языка объемом 58,4 млн словоупотреблений. Доля автоматического разбора составляет 96%. Каждая разобранная словоформа включает грамматическую информацию и перевод на русский и английский язык.

Финансирование

Создание и развитие корпуса финансируется из следующих источников:

Состав корпуса

В настоящее время в корпус входят произведения на литературном таджикском языке современного периода, изданные в XX и XXI вв. В корпусе представлены следующие жанры: проза, поэзия, драма, публицистика, научная и учебная литература, мемуарно-библиографическая литература, религиозная литература, политическая литература, юридическая литература и газетная публицистика. Процентное соотношение по жанрам выглядит следующим образом:

Полный список произведений, вошедших в Национальный корпус таджикского языка, доступен во второй вкладке окна, появляющегося при нажатии на кнопку «Выбор подкорпуса».

Характеристики корпуса

При создании корпуса использован метод автоматического разбора с помощью программы морфологического анализатора. Анализатор разработан Т.А. Архангельским в качестве универсального программного инструмента для создания лингвистических корпусов и успешно реализован в целом ряде корпусов, созданных с середины 2000-х гг. и находящихся в открытом доступе. Из корпусов других иранских языков следует отметить Осетинский национальный корпус (http://corpus.ossetic-studies.org/) и письменный корпус дигорского диалекта осетинского языка (http://corpus-digor.ossetic-studies.org/).

Система автоматического разбора включает в себя лемматизацию и морфологическую разметку. При лемматизации каждой словоформе приписывается ее лемма, то есть словарная форма на русском и английском языках. Для перевода таджикского на русский использовались словари «М.В. Рахими и Л.В. Успенской. Таджикско-русский словарь. М.: Государственное издательство иностранных и национальных словарей, 1954» и «Д.Саймиддинов, С.Д.Холматова, С.Каримов (ред). Таджикско-русский словарь. Издание второе, дополненное и исправленное. Душанбе: «Пайванд», 2006.». Лемматизация предполагает ручную обработку таджикско-русского словаря. Под морфологической разметкой подразумевается добавление каждой словоформе грамматической и синтаксической информации (часть речи, наклонение, время, число, лицо и т.д.). Правила и настройки морфологической разметки таджикского корпуса были разработаны вручную.

На данный момент доля автоматически разобранного материала составляет 96%.

Для корпуса адаптирована универсальная поисковая система, разработанная Т.А. Архангельским. В 2021 г. Т.А. Архангельским было произведено обновление платформы. Поиск возможен по лексеме, словоформе, словарному полексемному переводу, а также по грамматическим характеристикам (полный список глосс с расшифровкой см. ниже). Для более точного поиска возможна комбинация поисковых запросов по разным параметрам. Система поиска позволяет искать несколько языковых элементов с заданным расстоянием между ними, а также искать в подкорпусе, то есть в выбранных пользователем текстах (например, только в текстах определенного жанра или времени, в текстах конкретного автора или авторов). Возможны также настройки выдачи материала. Чтобы узнать другие возможности поиска, нужно нажать на знак вопроса в верхней части страницы поиска.

Во избежание нарушения авторских прав доступ к целым текстам не предоставляется. Возможности выдачи ограничены контекстом из 7 предложений.

Ввод специальных символов

При включённом «обычном» способе ввода символов (включён по умолчанию) можно пользоваться следующими комбинациями для ввода таджикских букв, отсутствующих на русской клавиатуре:

В 2021 г. была также добавлена виртуальная клавиатура для введения таджикского языкового материала. Чтобы включить виртуальную клавиатуру, на странице поиска слева нажмите на значок клавиатуры и войдите в поле Word или Lemma, внизу должна появиться виртуальная клавиатура.

Транслитерация

В 2021 г. создана транслитерация таджикской кириллицы в латиницу. Для перевода выдачи из кириллицы в латиницу нажмите на главной странице Поиска в левом верхнем углу Настройки, Transliteration, latin.

Для ввода латиницы в поиске на главной странице Поиска в левом верхнем углу нажмите Настройки, Character input method, inputmethod_latin.

Ниже приводится таблица соответствий латиницы кириллице, используемая в поисковом запросе:

Список грамматических признаков

(поле Грамматика/Grammar в поиске)

ВНИМАНИЕ! При поиске соблюдайте регистр признаков

Создатели корпуса

Корпус создан в результате совместной работы таджикских и российских специалистов. Сбор, оцифровка и обработка текстов на таджикском языке осуществлялась группой исследователей кафедры теоретического и прикладного языкознания (Д.М. Искандарова, Х.Д. Шамбезода, М.Б. Давлатмирова, О.Л. Козлова) и кафедры информатики и информационных систем Российско-Таджикского (Славянского) университета (З.Д. Усманов, М.А. Умаров), а также исследователей из Таджикского государственного университета права, бизнеса и политики г. Худжанд (Г. Довудов, А. Косимов). Финальная обработка текстов перед их добавлением в корпус осуществлялась А.П. Выдриным.

Словарь таджикского языка был обработан и настроен А.П. Выдриным, А.Д. Егоровой и И.В. Егоровым. Таджикский морфологический анализатор настроен А.П. Выдриным. Система грамматических признаков (поле Грамматика в поиске) и глосс (поле Глоссы в поиске) разработаны А.П. Выдриным.

С 2021 г. в корпусе появился разбор практически всех существующих в таджикском глагольных аналитических форм. Над этим работали А.П. Выдрин, Т.А. Архангельский и А. В. Панасюк.

Поддержание процента автоматического разбора обеспечивает А.П. Выдрин.

С 2020 г. технической поддержкой корпуса, а также скачиванием и финальной обработкой газетных текстов занимается А.В.Панасюк.

Благодарности

Выражаем благодарность А.А. Меликову, предоставившему коллекцию текстов современных таджикоязычных авторов (около 200 книг), собранных в издательствах городов Душанбе, Самарканд и Ташкент; Б. Олимову, поделившемуся частной коллекцией в 130 книг; магистрантам отделения «Теоретическая и прикладная лингвистика» Российско-Таджикского (Славянского) университета, обработавшим большое количество текстов (особая благодарность Маниже Сохибовой и Хаммоду Муборакшо). Мы также признательны Т.А. Архангельскому, проводившему консультации по особенностям работы автоматического анализатора и выложившему таджикский корпус онлайн.

Контакты

Любые замечания и предложения по корпусу просьба посылать по адресу senjacom@gmail.com, Выдрин Арсений Павлович

Перспективы развития корпуса

В 2022 г. планируется создать корпус классической персидско-таджикской литературы IX–XIX вв. Существующий корпус современных текстов планируется расширить за счет включения новых текстов, а также усовершенствовать качество и количество автоматически разобранных слов.

Создатели корпуса будут рады включить в корпус новые тексты, опубликованные на таджикском языке. Тексты принимаются по адресам: lingvistik.rtsu@gmail.com и senjacom@gmail.com в любом текстовом формате (doc, docx, rtf, txt, odt). Мы гарантируем соблюдение авторских прав и использование присланных текстов только для пополнения и развития Национального корпуса таджикского языка.