Направление 4. Создание и развитие корпусных ресурсов по языкам мира


Координаторы: чл.-корр. РАН В. М. Алпатов,
к. филол. н. Т. А. Майсак

Четвертое направление Программы объединяет проекты по созданию корпусов языков народов мира, изучаемых отечественными лингвистами. Как и в третьем направлении, эти проекты могут быть поделены на корпуса "средних" (монгольский, албанский, армянский) и малых (языки Западной Африки, языки майя, иранский язык гавруни) языков. Представлены в первую очередь проекты по языкам, корпусные ресурсы по которым пока отсутствуют и в развитие которых российские лингвисты могут внести существенный вклад, укрепив свой приоритет в этой области (заметим, что в таких направлениях, как, например, монголистика, арменистика или майянистика приоритет российских школ является традиционным).

Особое место в этой группе проектов занимает дальнейшее развитие разработанного российскими лингвистами Восточноармянского национального корпуса, инновационные технологии которого могут быть положены в основу других корпусов литературных языков (как в России, так и за ее пределами). Как уже отмечалось, часть проектов как третьего, так и четвертого направлений – корпуса литературных языков России (калмыцкий, бурятский, осетинский, лезгинский) или мира (албанский, восточноармянский) – представляют собой реализацию идеологии национальных корпусов на языках «среднего масштаба». Примером успешного проекта такого рода является Восточноармянский национальный корпус (www.eanc.net), стартовавший в 2007 г. Используя идеологию и архитектуру НКРЯ, за два года группе российских исследователей удалось создать один из крупнейших корпусов в мире. Если сразу после открытия корпуса количество посетителей ограничивалось несколькими десятками, то сейчас ежедневное количество визитов колеблется от 400 до 500, что для арменистики с ее герметичной традицией является неожиданно высоким показателем и, возможно, говорит о вызванном появлением этого ресурса росте исследовательского интереса к армянскому языку. Появление корпусов других «средних» языков будет так же стимулировать их исследование. Не следует забывать и о социальной (просветительской) функции корпуса, которая для титульных языков регионов России (Калмыкия, Бурятия) имеет еще большое значение, чем для русского или армянского, так как косвенно может способствовать сохранению этих языков в условиях интенсивного двуязычия их носителей.

Кроме идеологического единства, эти проекты сгруппированы также технологически: для них необходим единый поисковый движок на универсальной платформе, который может использоваться для разноструктурных языков. Иными словами, эти проекты тесно связаны между собой использованием одного и того же программного обеспечения и в этом смысле зависят друг от друга: программные наработки одного проекта могут быть использованы в другом и наоборот.

Несколько особняком стоят корпуса малых языков России и зарубежья. Их объектом являются бесписьменные или младописьменные языки, счет носителей которых зачастую идет не на миллионы и даже не на тысячи, а на сотни или на десятки человек. Приоритеты таких проектов не могут не быть устроены иначе: изучение диахронических сдвигов на таких корпусах невозможно в связи как с малым объемом корпусов, так и с недоступностью текстов, представляющих другие временные срезы. Различие между нормой и узусом в отсутствие нормативных словарей и письменности практически не имеет смысла и пр. Использовать для корпусов таких языков то же программное обеспечение, что и для крупных корпусов – например, разрабатывать морфологические анализаторы – нерационально. Впрочем, не во всех случаях провести границу просто – корпуса размером в один миллион словоупотреблений находятся между корпусами малых языков (среды языкового документирования в принципе могут работать с корпусами таких объемов) и корпусами больших языков (источником корпуса такого размера чаще всего служат не записанные исследователем, а нормализованные письменные тексты).

Обладает своей спецификой и аннотация текстов на малых языках. Абсолютное большинство международных лингвистических изданий использует так называемое поморфемное глоссирование (interlinear glossing), при котором каждая словоформа разделена на морфемы, а каждая морфема, как лексическая, так и грамматическая, снабжена переводом. Такой формат существенно облегчает работу с материалом для неспециалистов по данному языку или группе языков.

Для работы с малыми языками существует целый арсенал открытых лингвистических сред для работы с текстами (xml-ориентированные системы морфологического глоссирования ToolBox и FieldWorks; система онлайного поиска по мультимедийным данным ELAN; а также, например, пилотная версия разрабатываемой в Институте языкознания РАН офлайновой оболочки поиска по глоссированным корпусам Search Tool). Все проекты программы предполагают использование для работы с текстами одного из стандартных xml-форматов либо миграцию данных из старых форматов (MSWord) в xml (ср. агульский проект и проект по другим малым языкам Дагестана), использование одной из указанных сред и оболочек, а также централизованное хранение и доступ к создаваемым корпусам.

Название проекта Ин-т Руководитель
проекта
Ожидаемые результаты (тезисно, кол-ные показатели,
с разбивкой по годам)
4.1.
Корпуса древних индоевропейских языков
ИЯз РАН

акад. РАН
Вяч. Вс. Иванов

к.ф.н.
И. С. Якубович

2012 г. — Сбор материалов для корпуса: полевые сборы и введение в электронный вид (кол-во текстов – 5, объем словоупотреблений 1000, часов звучания 3 (за 1 год);расширение базы данных 2011 года (кол-во текстов – 5, объем словоупотреблений 2000).
2013 г. — Сбор материалов для корпуса: полевые сборы и введение в электронный вид (кол-во текстов – 5-10, объем словоупотреблений 1000, часов звучания 3 (за 1 год). Разметка(кол-во текстов – 5, объем словоупотреблений 500, часов звучания 3 (за 1 год).
2014 г. — Сбор материалов для корпуса: полевые сборы и введение в электронный вид (кол-во текстов – 5, объем словоупотреблений 500, часов звучания 2 (за 1 год). Подготовка корпуса по языку зороастрийцев Ирана (гавруни и его говоры (говоры Кермана и окрестностей, Йезда и окрестностей, Тегерана, Исфахана, Кашана) (кол-во текстов – 15, объем словоупотреблений 4000 (вместе с базой данных 2011 – 1500 словоупотреблений), часов звучания 4.

2012 г. — сбор текстов, недостающих в лувийском электронном файле. Разработка системы лексической маркировки лувийских иероглифических текстов, и распределение словоупотреблений корпуса по лексемам
2013 г. — Грамматическая маркировка лувийских иероглифических текстов. Редактирование лексических гнезд.
2014 г. — Интеграция корпуса и словаря лувийских клинописных текстов.

4.2.
Создание корпусов языков майя, полинезийских и фула
ИВ РАН
чл.-корр. РАН
В. М. Алпатов

2012 г. — Создание сайта; разработка пользовательского интерфейса, поискового механизма.
Создание и размещение на сайте корпусов языков цоциль (60 тыс. слов) и киче (40 тыс. слов).
корпус текстов языка рапануи (40000 словоупотреблений)
2013 г. — Тестирование и отладка работы сайта; отладка поиска по корпусам.
Создание и размещение на сайте корпусов языков юкатекский майя (80 тыс. слов), и чоль (40 тыс. слов).
Дополнение корпуса языка цоциль до 100 тыс. слов.
корпус текстов языка рапануи (40000 словоупотреблений)
2014 г. — Создание и размещение на сайте корпусов языков цельталь (60 тыс. слов), уастек (40 тыс. слов), мам (20 тыс. слов) и канхобаль (20 тыс. слов).
корпус текстов языка рапануи (20000 словоупотреблений)
создание словаря рапануи на основе корпуса текстов

2012—2014 гг Теоретическое обеспечение корпусной разметки, модификация программы Light Parser. Модификация программы Light Parser , работа над разметкой текстов ~8-14 текстов. Работа над разметкой текстов, обеспечение публичного доступа. ~10-20 текстов.

4.3.
Генеральный корпус монгольского языка (версии 2а-2в)
ИВ РАН
д.ф.н.
С.А. Крылов

2012 г. — создание версии ГКМЯ-2а (синтетическая и аналитическая морфология; 2 тыс. текстов на 2 млн. словоупотреблений; 100 параллельных текстов; 10 текстов со снятой омонимией)
2013 г. — создание версии ГКМЯ-2б (синтетическая и аналитическая морфология, грамматикализованные сочетания; 3 тыс. текстов на 3 млн. словоупотреблений; 200 параллельных текстов; 20 текстов со снятой омонимией)

2014 г. — создание версии ГКМЯ-2в (синтетическая и аналитическая морфология, грамматикализованные сочетания, фразеологизмы; 4 тыс. текстов на 4 млн. словоупотреблений; 300 параллельных текстов; 30 текстов со снятой омонимией)

4.4.
Албанский национальный корпус
ИЛИ РАН
к.ф.н.
А.Ю. Русаков

2012 г. — сбор текстов для корпуса, увеличение объема корпуса до 5 млн. словоупотреблений, завершение работы над системой грамматической разметки, увеличение грамматического словаря до 10000 слов, начало работы по снятию омонимии
2013 г. — увеличение объема корпуса до 10 млн. словоупотреблений, увеличение грамматического словаря до 20000 слов.
2014 г. — увеличение объема корпуса до 15 млн. словоупотреблений, увеличение грамматического словаря до 25000 слов. Разработка корпусов диалектных текстов и текстов старых письменных памятников.

4.5.
Корпус новогреческого языка
ИЛИ РАН
чл.-корр. РАН
Е.В. Головко

2012 г. — составление списка текстов для корпуса и сбор их первоначального объёма; доработка системы грамматической разметки; решение теоретических вопросов, связанных с описанием грамматики; создание грамматического словаря димотики объёмом 7000 лексем, запуск тестовой версии корпуса (димотика, не менее 5 млн. словоупотреблений).
2013 г. — увеличение объёма корпуса до 15 млн. словоупотреблений (в т. ч. тексты на кафаревусе), увеличение грамматического словаря димотики не менее чем до 12 000 лексем, создание словаря кафаревусы.
2014 г. — увеличение объёма корпуса до 30 млн. словоупотреблений; увеличение грамматического словаря, описывающего и димотику, и кафаревусу, до размера, позволяющего иметь > 80% разобранных словоформ в текстах на каждом из вариантов, но не менее 20 000 лексем. Возможно, дополнение корпуса текстами на диалектах.

4.6.
Корпус языка идиш
ИЛИ РАН
к.ф.н.
М.Л. Кисилиер

2012 г. — сбор текстов для корпуса, увеличение объема корпуса до 5 млн. словоупотреблений, завершение работы над системой грамматической разметки, увеличение грамматического словаря до 15000 слов
2013 г. — увеличение объема корпуса до 7,5 млн. словоупотреблений, увеличение грамматического словаря до 25000 слов
2014 г. — увеличение объема корпуса до 9 млн. словоупотреблений, увеличение грамматического словаря до 30000 слов. Разработка корпуса устной речи

4.7.  Создание электронного корпуса фольклорных текстов диалекта тували языка ифугао.
Ифугао, Филиппины.
МАЭ РАН (Кунсткамера)
к.ф.н.
М. В. Станюкович

2013 г. — Сбор материалов для корпуса: полевые сборы и создание электронного корпуса текстов (4000 словоупотреблений).
2014 г. — обработка собранных материалов, организация экспедиции на Филиппины, пополнение электронного корпуса текстов (5000 словоупотреблений).
Увеличение грамматического словаря до 30000 слов. Разработка корпуса устной речи.