Национальный корпус таджикского языка (НКТЯ)

На настоящем ресурсе находится письменный корпус литературного таджикского языка объемом 9 млн. словоупотреблений. Доля автоматического разбора составляет 90,8%. Каждая разобранная словоформа включает грамматическую информацию и перевод на русский язык.

Финансирование

Создание и развитие корпуса финансируется из следующих источников:

Состав корпуса

В настоящее время в корпус входят произведения на литературном таджикском языке современного периода, изданные в XX и XXI вв. В корпусе представлены следующие жанры: проза, поэзия, драма, публицистика, научная и учебная литература, мемуарно-библиографическая литература, религиозная литература, политическая литература, юридическая литература и газетная публицистика. Процентное соотношение по жанрам выглядит следующим образом:

Полный список произведений, вошедших в Национальный корпус таджикского языка, доступен во второй вкладке окна, появляющегося при нажатии на кнопку «Выбор подкорпуса».

Характеристики корпуса

При создании корпуса использован метод автоматического разбора с помощью программы морфологического анализатора. Анализатор разработан Т.А. Архангельским в качестве универсального программного инструмента для создания лингвистических корпусов и успешно реализован в целом ряде корпусов, созданных с середины 2000 гг. и находящихся в открытом доступе. Из корпусов других иранских языков следует отметить Осетинский национальный корпус (http://corpus.ossetic-studies.org/) и письменный корпус дигорского диалекта осетинского языка (http://corpus-digor.ossetic-studies.org/).

Система автоматического разбора включает в себя лемматизацию и морфологическую разметку. При лемматизации каждой словоформе приписывается ее лемма, то есть словарная форма. В корпусе таджикского языка для каждой словоформы, помимо ее словарной формы, указывается также ее основные значения на русском языке (по словарю под редакцией М.В. Рахими и Л.В. Успенской Таджикско-русский словарь. М.: Государственное издательство иностранных и национальных словарей, 1954). Лемматизация предполагает ручную обработку таджикско-русского словаря.Под морфологической разметкой подразумевается добавление каждой словоформе грамматической и синтаксической информации (часть речи, наклонение, время, число, лицо и т.д.). Правила и настройки морфологической разметки таджикского корпуса были разработаны вручную.

На данный момент доля автоматически разобранного материала составляет 90,8%.

Для корпуса адаптирована универсальная поисковая система, разработанная Т.А. Архангельским. Поиск возможен по лексеме, словоформе, словарному полексемному переводу, а также по грамматическим характеристикам (полный список глосс с расшифровкой см. ниже). Для более точного поиска возможна комбинация поисковых запросов по разным параметрам. Система поиска позволяет искать несколько языковых элементов с заданным расстоянием между ними, а также искать в подкорпусе, то есть в выбранных пользователем текстах (например, только в текстах определенного жанра или времени, в текстах конкретного автора или авторов). Возможны также настройки выдачи материала.

Во избежание нарушения авторских прав доступ к целым текстам не предоставляется. Возможности выдачи ограничены контекстом из 7 предложений.

Ввод специальных символов

При включённом «обычном» способе ввода символов (включён по умолчанию) можно пользоваться следующими комбинациями для ввода таджикских букв, отсутствующих на русской клавиатуре:

Список грамматических признаков

(поле Грамматика/Grammar в поиске)

ВНИМАНИЕ! При поиске соблюдайте регистр признаков

Создатели корпуса

Корпус создан в результате совместной работы таджикских и российских специалистов. Сбор, оцифровка и обработка текстов на таджикском языке осуществлялась группой исследователей кафедры теоретического и прикладного языкознания (Д.М. Искандарова, Х.Д. Шамбезода, М.Б. Давлатмирова, О.Л. Козлова) и кафедры информатики и информационных систем Российско-Таджикского (Славянского) университета (З.Д. Усманов, М.А. Умаров), а также исследователей из Таджикского государственного университета права, бизнеса и политики г. Худжанд (Г. Довудов, А. Косимов).

Универсальная система автоматического морфологического анализа, использованная в корпусе, разработана Т. А. Архангельским. Словарь таджикского языка был обработан и настроен А.П. Выдриным и И.В. Егоровым. Таджикский морфологический анализатор настроен А.П. Выдриным.

Благодарности

Выражаем благодарность А.А. Меликову, предоставившему коллекцию текстов современных таджикоязычных авторов (около 200 книг), собранных в издательствах городов Душанбе, Самарканд и Ташкент; Б. Олимову, поделившемуся частной коллекцией в 130 книг; магистрантам отделения «Теоретическая и прикладная лингвистика» Российско-Таджикского (Славянского) университета, обработавшим большое количество текстов (особая благодарность Маниже Сохибовой и Хаммоду Муборакшо). Мы также признательны Т.А. Архангельскому, проводившему консультации по особенностям работы автоматического анализатора и выложившему таджикский корпус онлайн.

Контакты

Технической поддержкой корпуса занимается Арсений Павлович Выдрин. Любые замечания и предложения просьба посылать по адресу senjacom@gmail.com.

Перспективы развития корпуса

В 2020-2021 гг. планируется создать корпус классической персидско-таджикской литературы IX-XIX вв. Существующий корпус современных текстов планируется расширить за счет включения новых текстов, а также усовершенствовать качество и количество автоматически разобранных слов.

Создатели корпуса будут рады включить в корпус новые тексты, опубликованные на таджикском языке. Тексты принимаются по адресам: lingvistik.rtsu@gmail.com и senjacom@gmail.com в любом текстовом формате (doc, docx, rtf, txt, odt). Мы гарантируем соблюдение авторских прав и использование присланных текстов только для пополнения и развития Национального корпуса таджикского языка.