Направление 3. Создание и развитие корпусных ресурсов по языкам народов России


Координаторы: чл.-корр. РАН А. В. Дыбо,
к. филол. н. В. Ю. Гусев

Третье направление объединяет проекты, связанные с созданием корпусов на языках народов России. Практически все корпуса создаются впервые (исключая корпус вепсского языка, пилотный вариант которого был создан ранее специалистами в Петрозаводске). Это направление имеет важное социально-лингвистическое измерение, так как создание соответствующих ресурсов, с одной стороны, повышает жизнеспособность и способствует модернизации относительно крупных языков субъектов Российской Федерации (калмыцкий, башкирский, осетинский, бурятский, лезгинский проекты) и, с другой стороны, фиксирует уходящие или находящиеся под угрозой исчезновения малые языки, которых в России гораздо больше (языки народов Дальнего Востока, Западной Сибири, малые финно-угорские, тунгусо-манчжурские, тюркские языки, малые языки Дагестана). Создаваемые в рамках Программы ресурсы не только закладывают фундамент для лингвистических исследований будущего, но и содействуют – по мере возможности – сохранению уходящего культурного многообразия: для решения последней задачи корпусная лингвистика давно доказала свою особую эффективность.

Корпуса, создаваемые в рамках данного направления, неоднородны по своему объему, используемым технологиям и характеру представления данных. Это объясняется неоднородностью самого языкового материала и разной степени предварительной проработанности корпусной тематики по отношению к разным языкам. В тех случаях, когда такая проработанность существенно меньше по сравнению с «передовыми» областями корпусной лингвистики, разработчики Программы предпочитают использовать такие методики, которые позволяют получить максимальный результат в течение первого года реализации программы и в то же время использовать уже существующий полезный потенциал (полевые записи, аудио- и видеоматериалы, собственные технологии авторов участников отдельных проектов). В дальнейшем эти ростки «корпусной цивилизации» в России можно будет объединить на основе специально разработанных платформ и универсальных технологий. Впрочем, это представляется задачей более отдаленного будущего.

Название проекта Ин-т Руководитель
проекта
Ожидаемые результаты (тезисно, кол-ные показатели, с разбивкой по годам)
3.1. Создание корпусов миноритарных тюркских языков России ИЯз РАН чл.-корр. РАН
А.В. Дыбо

2012 г. — 1. Усовершенствование морфологического анализатора для тюркских языков
2. Создание грамматического словаря шорского языка (20000 слов)
3. Корпуса текстов на тюркских языков России:
— хакасский (50000 словоупотреблений);
— чулымско-тюркский (12000 словоупотреблений);
— телеутский (12000 словоупотреблений);
— тувинский (100000 словоупотреблений);
— шорский (30000 словоупотреблений).
2013 г. — Корпуса текстов на тюркских языков России:
— хакасский (50000 словоупотреблений);
— чулымско-тюркский (12000 словоупотреблений);
— телеутский (12000 словоупотреблений);
— тувинский (100000 словоупотреблений);
— шорский (30000 словоупотреблений).
2014 г. — Корпуса текстов на тюркских языков России:
— хакасский (50000 словоупотреблений);
— чулымско-тюркский (12000 словоупотреблений);
— телеутский (12000 словоупотреблений);
— тувинский (100000 словоупотреблений);
— шорский (30000 словоупотреблений).

3.2. Создание корпусов на диалектах языков Поволжья ИЯз РАН к.ф.н.
Н.Л. Шибасова

2012 г. — Звуковой корпус северо-западного диалекта чувашского языка (20000 слов)
Звуковой корпус восточного наречия башкирского языка (20000 слов)
— удмуртский (8000 слов)
— марийский (5000 слов)
— эрзя-мордовский (6000 слов)
2013 г. — Корпуса текстов на тюркских языков России:
— башкирский (20000 слов);
— татарский (25000 слов);
— удмуртский (10000 слов);
— коми (7000 слов)
— марийский (5000 слов)
— звуковой корпус эрзя мордовского языка (5 часов записи)
2014 г. — звуковой корпус эрзя мордовского языка (5 часов записи)
— башкирский корпус (10000 слов)
— татарский (25000 слов)

3.3. Корпуса литературных языков Дагестана: лакский и табасаранский языки ИЯз РАН д.ф.н
С.Р. Мерданова

2012 г. — корпус лакского литературного языка (объем 500000 словоупотреблений)

2013 г. — корпус табасаранского литературного языка (объем 500000 словоупотреблений)

2014 г. — пополнение корпусов лакского и табасаранского литературных языков (до 1 млн. словоупотреблений каждый)

3.4. Корпуса литературных языков Дагестана: аварский и даргинский языки ИЯз РАН к.ф.н
Д.С. Ганенков

2012 г. — корпус даргинского литературного языка (объем 500000 словоупотреблений)
2013 г. — корпус аварского литературного языка (объем 500000 словоупотреблений)
2014 г. — пополнение корпусов аварского и даргинского литературных языков (до 1 млн. словоупотреблений каждый)

3.5. Создание корпусов на языках народов Северной Сибири ИЯз РАН,
ИГИиПМНС СО РАН
к.ф.н.
В.Ю. Гусев

Cоздание корпусов следующего примерного объема (в словоупотреблениях)
2012 год: эвенский (6000), эвенкийский (6000), юкагирский (9000), якутский (10000), ительменский (3000), энецкий (7000), говорка (10000)
2013 год: эвенский (5000), эвенкийский (5000) , юкагирский (10000), якутский (10000), ительменский (3000), энецкий (9000), говорка (10000)
2014 год: эвенский (5000), эвенкийский (5000) , юкагирский (10000), якутский (10000), ительменский (4000), энецкий (9000), говорка (10000)

3.6. Электронный корпус
древнетюркских текстов
ИЯз РАН д.ф.н.
И.В. Кормушин

2012 г. — 1. Заполнение первичной базы данных текстовыми данными. Сверка более ранних изданий с оригиналом, уточнение орфографических особенностей каждого памятника и их фиксирование в транслитерации, уточнение состава и вариативности грамматических и лексических единиц, исследование особенностей передачи в древнетюркском языке заимствований из других языков.
2. Импортирование первичной базы данных в формат ACCESS и настройка параметров поиска информации по базе данных.
3. Аннотированный корпус древнетюркских текстов:
— рунические орхонские (10000 словоупотреблений);
— рунические Хакасии, Тувы и Горного Алтая  (5000 словоупотреблений);
— древнеуйгурские в уйгурице (60000 словоупотреблений);
— древнеуйгурские в брахми (30000 словоупотреблений);
— древнеуйгурские манихейские (30000 словоупотреблений);
— древнеуйгурские тибетские (30000 словоупотреблений).
2013 г. — Аннотированный корпус древнетюркских текстов:
— рунические орхонские (+ 10000 словоупотреблений);
— рунические Хакасии, Тувы и Горного Алтая  (+ 5000 словоупотреблений);
— древнеуйгурские в уйгурице (+ 70000 словоупотреблений);
— древнеуйгурские в брахми (+ 40000 словоупотреблений);
— древнеуйгурские манихейские (+ 70000 словоупотреблений);
— древнеуйгурские тибетские (+ 40000 словоупотреблений).
2014 г. — Аннотированный корпус древнетюркских текстов:
— рунические орхонские (+ 10000 словоупотреблений);
— древнеуйгурские в уйгурице (+ 70000 словоупотреблений);
— древнеуйгурские в брахми (+ 40000 словоупотреблений);
— древнеуйгурские манихейские (+ 70000 словоупотреблений);
— древнеуйгурские тибетские (+ 40000 словоупотреблений).

3.7. Устный корпус основных диалектов современного осетинского языка ИЯз РАН к.ф.н.
Ю.В. Мазурова

2012 г. — Разбор и публикация иронских текстов объёмом 15 тыс. словоупотреблений, завершение работы над корпусом устных текстов на иронском диалекте. Разбор и публикация текстов на дигорском диалекте и уаллагкомском говоре объёмом 7 тыс. словоупотреблений.
2013 г. — Разбор и публикация текстов на дигорском диалекте и уаллагкомском говоре объёмом 9 тыс. словоупотреблений.
2014 г. — Разбор и публикация текстов на дигорском диалекте и уаллагкомском говоре объёмом 9 тыс. словоупотреблений.

3.8. Национальный корпус осетинского языка: расширение и развитие ИЛИ РАН к.ф.н.
А. П. Выдрин

2012 г. — Сканирование, распознание и автоматическая разметка печатных текстов на осетинском языке. Улучшение качества текстов, входящих в настоящий момент в корпус. Разметка наиболее частотных в текстах имен собственных. Развитие системы автоматической разметки и доведение процента разобранного материала после автоматической разметки всего корпуса до 85%. Усовершенствование системы поиска. Размещение результатов работы на ресурсе www.corpus.ossetic-studies.org
2013 г. — Расширение национального корпуса осетинского языка до 10 млн. словоупотреблений. Развитие системы автоматической разметки и доведение процента разобранного материала после автоматической разметки всего корпуса до 90%. Расширение системы поиска. Размещение результатов работы на ресурсе www.corpus.ossetic-studies.org
2014 г. — создание размеченного корпуса текстов дигорского диалекта осетинского языка объемом 1–3 млн. словоупотреблений. Каждая словоформа в корпусе будет снабжена грамматической информацией о части речи, значениях словоизменительных грамматических категорий, а также переводом на русский и английский языки. Разработка системы поиска для диалектного корпуса. Размещение результатов работы на ресурсе www.corpus.ossetic-studies.org

3.9. Создание корпуса текстов республиканских газет на башкирском языке ИИЯЛ УНЦ РАН д.ф.н.
Ф.Г. Хисамидинова

2012 г.
1. Создание экстралингвистических помет для газетного корпуса.
2. Оцифровка газетных текстов объемом в 6 миллионов словоупотреблений.
3. Увеличение объема базового словаря на 10 тыс единиц.
4. Функционирование корпуса в сети Интернет.
2013 г.
1. Увеличение объема корпуса на 6 миллионов словупотреблений
2. Увеличение объема базового словаря морфоанализатора на 10 тыс. Единиц.
3. Разработка теоретических положений автоматического снятия морфологической неоднозначности.
4. Функционирование корпуса в сети Интернет.
2014 г.
1. Увеличение объема корпуса на 6 миллионов словупотреблений
2. Увеличение объема базового словаря морфоанализатора на 10 тыс. Единиц.
3. Реализация  теоретических положений автоматического снятия морфологической неоднозначности на практике.
4. Функционирование корпуса в сети Интернет.

3.10. Корпус вепсского языка:
пополнение и развитие
электронного ресурса
ИЯЛИ КарНЦ РАН

к.ф.н.
Н.Г. Зайцева

2012г.: 1) Пополнение корпуса новыми текстами: 100 текстов различного характера; расшифровка текстов нового для корпуса жанра внеобрядовых причитаний с маг. записей и снабжение текстов причитаний параллельными переводами на русский язык (10 текстов);
2) Лемматизация:: 800 лемм и 1000 словоформ; переводы  лемм на русский и английский языки;
3) Решение проблем грамматической разметки; составление подробного перечня всех грамматических форм и их сокращений.
2013 г.:  1) Пополнение корпуса  новыми текстами: 150 текстов различного характера;
2) Лемматизация:: 1000 лемм и 1000 словоформ; переводы  лемм на русский и английский языки;
3) Структурирование электронного ресурса в отдельные подкорпусы; урегулирование систем поиска;
4) популяризация полученных данных.
2014г:  1) Пополнение корпуса новыми текстами: 200 текстов различного характера;
2) Лемматизация:: 1000 лемм и 1000 словоформ;
переводы  лемм на русский и английский языки;
3) Популяризация полученных данных;
4) Заключительный отчет по выполнению проекта.

3.11. Корпуса новописьменных лезгинских языков: агульский и удинский ИЯз РАН к.ф.н.
Т. А. Майсак

2012 г. — подготовка удинских текстов для анализа (60 тыс. слов), написание основы удинского парсера, подготовка и анализ дополнения к агульскому корпусу (20 тыс. слов)
2013 г. — подготовка удинских текстов для анализа (40 тыс. слов), доработка удинского парсера, подготовка и анализ дополнения к агульскому корпусу (20 тыс. слов), конвертация агульских диалектных текстов (45 тыс. слов)
2014 г. — окончательная отладка парсеров, исправление возникших ошибок, подключение поиска, оформление интерфейса, выкладка в интернет (100 тыс. удинский, 70+90 тыс. агульский)

3.12. Корпуса языков
Дальнего Востока
ИЛИ РАН д.ф.н.
Е.В. Перехвальская

2012 г. — Удэгейский язык: Набор и глоссирование текстов из Сборника удэгейского фольклора — 35000 слов; пополнение вспомогательного словаря
Башкирский язык. Отработка глоссирования с помощью программы Toolbox, создание вспомогательного словаря (1000 вхождений),  набор и глоссирование текстов 10000 слов.
оцифровка, обработка, глоссирование и перевод 3000 предложений (около 70 текстов). Будут оцифрованы и выложены тексты из опубликованных материалов В.А. Аврорина и М.А. Каплан, а также из полевых материалов, собранных в 2011 году.
создание системы глоссирования для чукотсого языка в среде fieldworks, глоссирование, перевод 1700 предложений (около 30 текстов), в т.ч. текстов из уже собранных полевых материалов. Сканирование и выверка корякских и чукотских текстов, всего около миллиона словоупотреблений
2013 г. — Удэгейский язык: Набор и глоссирование Автобиографической повести А. Канчуга  — 30000 слов; пополнение вспомогательного словаря.
Башкирский язык. сбор в ходе экспедиции,  набор и глоссирование текстов объёмом 20000 слов.
расшифровка, глоссирование, перевод 2000 предложений из текстов различных источников: радиопередач, текстов, записанных в ходе полевой работы. Тестирование корпуса. Сканирование и выверка чукотских текстов, всего около пятисот тысяч словоупотреблений.
оцифровка, обработка, глоссирование и перевод 4000 предложений. Будут обработаны тексты из собственных полевых материалов, которые будут собраны в 2012 г., а также из архивов В.А. Аврорина и А.В. Столярова.
2014 г. Удэгейский язык: Набор и глоссирование текстов переводной литературы, учебных текстов, тестов, собранных в ходе лингвистических экспедиций прошлых лет — 35000 слов; пополнение вспомогательного словаря до 6000 вхождений.
расшифровка, глоссирование, перевод 2500 предложений текстов, записанных в ходе полевой работы 2012-2013 гг.
оцифровка, обработка, глоссирование и перевод 4000 предложений. Будут обработаны тексты из собственных полевых материалов, которые будут собраны в 2013 г., а также из архива Л.И. и Ю.А. Семов.

3.13. Развитие и пополнение электронного корпуса фольклорных текстов на языках малочисленных народов Сибири (на материалах ненецкого, телеутского, шорского и эвенкийского языков) ИЭА
РАН
к. и. н. К.Г. Шаховцов

2012 г. — модификация структуры БД корпуса под планируемый новый функционал; адаптация интерфейса к системе локализации; ввод текстов: на ненецком языке 90 тыс. словоупотреблений; на телеутском 30 тыс., на шорском 110 тыс., на эвенкийском 20 тыс.; начало работы над грамматическими словниками и словарями основ и аффиксов; перевод интерфейса на английский и шорский языки.
2013 г. — ввод текстов: на ненецком языке 90 тыс. словоупотреблений; на телеутском 40 тыс., на шорском 160 тыс., на эвенкийском 37 тыс.; завершение основной работы над словарем основ и аффиксов для эвенкийского языка; перевод интерфейса на ненецкий язык.
2014 г. — окончательная отладка пользовательского интерфейса и поисковых функций; завершение ввода текстов: на ненецком языке 70 тыс. словоупотреблений; на телеутском 30 тыс., на шорском 110 тыс., на эвенкийском 37 тыс.; выверка словарей и переводов.
Презентация результатов работы.