Направление 1. Создание и развитие корпусных ресурсов по cовременному русскому языку


Координаторы: чл.-корр. РАН В. А. Плунгян,
к. филол. н. С. О. Савчук

Первое направление предполагает развитие корпусов современного русского языка – основной части портала НКРЯ. Оно содержит наибольшее число проектов и наиболее разнообразно по своим исследовательских задачам. Внутри направления можно выделить несколько групп проектов. Во-первых, ряд проектов предполагают развитие, пополнение и модернизацию уже существующих подкорпусов в составе НКРЯ – это подкорпус современного русского языка, который необходимо пополнить прежде всего текстами XXI века, а также инновационного мультимедийного и крайне важных для исследований русского языка и литературы поэтического подкорпуса, подкорпуса устной речи и акцентологического подкорпуса (позволяющего вести масштабные исследования русского ударения). К этой же группе относятся проекты по развитию экспериментального синтаксического подкорпуса НКРЯ.

Реализация Программы позволит в текущем году завершить формирование корпуса классической русской поэзии XVIII — середины XX вв., по сложности и детальности стиховедческой разметки не имеющего мировых аналогов. Создание корпуса русской поэзии позволит придать новый импульс очень плодотворным исследованиям русской поэзии в рамках отечественной школы точных методов исследования стиха, опирающейся на сделанные сто лет назад открытия Андрея Белого и продолженной в классических трудах Р. О. Якобсона, А. Н. Колмогорова, М. Л. Гаспарова и других стиховедов.

Особое внимание будет уделено развитию параллельных корпусов для германских и славянских языков – будут существенно расширены русско-английский, русско-немецкий и русско-славянские корпуса (с открытием русско-украинского, русско-белорусского и русско-польского корпусов), а также созданы пилотные русско-романские корпуса и требующий применения специальных технологий русско-японский и японско-русский параллельный корпус (такая работа проводится впервые).

Будет создан ряд новых корпусов, фиксирующих особые разновидности русского языка – в их числе корпус региональных вариантов, отражающий интерференцию русского языка с речью носителей других языков народов России, а также с речью потомков русских, живущих в иноязычном окружении (на материале жителей Финляндии и США). К этой группе примыкает и проект по созданию корпуса русского устного дискурса с особой углубленной разметкой, учитывающей особенности строения устного текста. Этот проект имеет во многом экспериментальный характер и важен для развития исследований по структуре дискурса, особенно тесно связанных с корпусной лингвистикой во всем мире.

Особое внимание будет уделено совершенствованию программного обеспечения НКРЯ, улучшению его функциональных и поисковых возможностей и созданию целого ряда необходимых вспомогательных ресурсов (словарей на основе корпуса, систем семантической и словообразовательной разметки нового поколения). В эту же группу проектов входит поддержка и развитие обучающего корпуса на основе НКРЯ в рамках особого портала Studiorum, объединяющих студентов и преподавателей, изучающих русский язык.

В рамках Программы особую поддержку получат два проекта, нацеленные на создание электронного справочного ресурса по русской морфологии и русскому синтаксису. Фактически, это центральные фрагменты грамматики русского языка, выполненные в рамках современной «корпусной» идеологии.

Название проекта Ин-т Руководитель проекта Ожидаемые результаты (тезисно, кол-ные показатели, с разбивкой по годам)
1.1. Системное пополнение основного корпуса современных текстов НКРЯ ИРЯ РАН к.ф.н.
С.О. Савчук

2012 г . — Системное пополнение основного корпуса: тексты 2-й пол. XX в. в объеме 4 млн словоупотреблений. Пополнение основного корпуса текс­тами новейшего периода (художественная и научная проза) в объеме 2 млн словоупотреблений. Пополнение основного корпуса текстами современной публицистики в объеме 2 млн словоупотр. Системное пополнение корпуса текстов электронной коммуникации в объеме 0,7 млн словоупотреблений.

2013 г . — Системное пополнение основного корпуса: тексты 2-й пол. XX в. в объеме 3 млн словоупотреблений. Пополнение основного корпуса текстами новейшего периода (художественная и научная проза, публицистика) в объеме 4 млн словоупотреблений. Системное пополнение корпуса текстов электронной коммуникации в объеме до 0,7 млн словоупотреблений.

2014 г . — Системное пополнение основного корпуса: тексты 2-й пол. XX в. в объеме 3 млн словоупотреблений. Пополнение основного корпуса текстами новейшего периода (художественная и научная проза, публицистика) в объеме 4 млн словоупотреблений. Системное пополнение корпуса текстов электронной коммуникации в объеме 0,7 млн словоупотреблений.

1.2. Системное пополнение и совершенствование организации корпусов НКРЯ с базовой разметкой (диахронического, газетного) ИРЯ РАН д.ф.н. А.Я. Шайкевич

2012 г . — Анализ текстового состава корпуса текстов 1-ой пол. ХХ в. по социологическим и жанрово-стилистическим параметрам, выявление участков, требующих коррекции баланса. Системное пополнение корпуса в объеме не менее 4 млн словоупотреблений. Анализ несловарных форм, составление базы вариантов по текстам 1-ой пол. ХХ в. в объеме до 1 тыс. единиц. Организация базы данных, содержащей сведения об авторах текстов 1-ой пол. ХХ в. Коррекция баланса, метатекстовой и морфологической аннотации корпуса современной русской прессы.

2013 г . — Системное пополнение корпуса 1-ой пол. ХХ в. в объеме не менее 4 млн словоупотреблений. Анализ несловарных форм, пополнение базы вариантов по текстам 1-ой пол. ХХ в. в объеме до 1 тыс. единиц. Пополнение словника морфологического словаря и коррекция опечаток и ошибок аннотации. Пополнение базы данных авторов на основе текстов корпуса. Системное пополнение корпуса современной русской прессы в объеме до 20 млн словоупотреблений.

2014 г . — Системное пополнение корпуса текстов 1-ой пол. ХХ в. в объеме не менее 4 млн словоупотреблений. Пополнение базы несловарных словоформ в объеме 2 тыс. единиц, реализация усовершенствования морфологического анализатора в разметке НКРЯ. Коррекция опечаток и ошибок аннотации. Совершенствование метатекстовой аннотации и системы поиска по корпусу. Пополнение корпуса современной русской прессы в объеме до 20 млн словоупотреблений.

1.3. ФреймБанк: разметка семантических ролей и морфосинтаксического оформления участников фреймов (на базе НКРЯ) ИРЯ РАН д.ф.н.
Е.В. Падучева

2012 - разметка представительных выборок из 100 примеров для 1500 глаголов, предикатных имен, прилагательных и наречий
2013 - словарь моделей управления русских предикатов (с учетом корпусных данных)
2014 - составление иерархии глобальных и периферийных семантических ролей для 2500 лексических единиц русского языка; составление базы данных фреймов для 2500 лексических единиц: наследование и другие типы связей между фреймами, стоящими за разными предикатами и разными значениями предикатов

1.4. Разработка системы морфологического и синтаксического анализа русских текстов на основе корпуса СинТагРус. ИППИ РАН д.ф.н.
И.М. Богуславский

2012 г . — Разработка токенизатора. Оптимизация и модернизация программной части правилового синтаксического анализатора. Разработка прототипа гибридного парсера.

2013 г . — Эксперименты с гибридным парсером на материале корпуса СинТагРус, на материале части Национального корпуса русского языка со снятой омонимией. Развитие гибридного парсера. Разработка модуля разрешения неоднозначностей на основе SVM .

2014 г . — Широкие эксперименты с гибридным парсером на новом языковом материале. Завершение разработки гибридного парсера.

1.5. Развитие глубоко аннотированного корпуса текстов «СинТагРус» с созданием подкорпуса эллиптических конструкций русского языка ИППИ РАН к.ф.н.
Л.Л. Иомдин

2012 г . — увеличение объема основного корпуса до 53 тыс. предложений. Создание подкорпуса эллптических конструкций объемом в 1600 предложений.

2013 г . — увеличение объема корпуса до 56,5 тыс. предложений. Расширение подкорпуса эллптических конструкций до объема в 2300 предложений

2014 г . — увеличение объема корпуса до 60 тыс. предложений. Расширение подкорпуса эллптических конструкций до объема в 3000 предложений

1.6. Развитие мультимедийного модуля Национального корпуса русского языка ИРЯ РАН к.ф.н.
Е.А. Гришина

2012
1. Пополнение Мультимедийного русского корпуса (МУРКО)

1.1. Пополнение зоны «Речь кино» 0,5 млн словоупотреблений (50 часов звучания)

1.2. Пополнение зоны «Публичная и непубличная устная речь» 50 тыс. словоупотреблений (3 часа звучания)

2013
2. Пополнение Мультимедийного русского корпуса (МУРКО)

2.1. Пополнение зоны «Речь кино» 0,5 млн словоупотреблений (50 часов звучания)

2.2. Пополнение зоны «Публичная и непубличная устная речь» 30 тыс. словоупотреблений (2 часа звучания)

2014
3. Пополнение Мультимедийного русского корпуса (МУРКО)

3.1. Пополнение зоны «Речь кино» 0,5 млн словоупотреблений (50 часов звучания)

3.2. Пополнение зоны «Публичная и непубличная устная речь» 30 тыс. словоупотреблений (2 часа звучания)

1.7. Пополнение и развитие акцентологического корпуса русского языка ИРЯ РАН д.ф.н.
М.Л. Каленчук

2012 г . - Пополнение акцентологического корпуса новыми текстами, общим объемом около 1,4 млн словоупотреблений. Из них прозаических текстов – около 0,4 млн словоупотреблений, поэтических текстов – 1 млн словоупотреблений.

Создание программ для совершенствования акцентологической разметки корпуса.

2013 г . - Пополнение корпуса новыми текстами, общим объемом около 1,3 млн словоупотреблений. Прозаических текстов – около 0,3 млн словоупотреблений, включая записи театральных постановок, поэтических текстов – 1 млн словоупотреблений. Совершенствование социологической аннотации

2014 г . - Пополнение корпуса новыми текстами, общим объемом около 1,3 млн словоупотреблений. Прозаических текстов, включая чтение в авторском и актерском исполнении, - 0,3 млн, поэтических текстов – 1 млн словоупотреблений. Системное тестирование корпуса, выявление наиболее типичных ошибок и их исправление с помощью специальных программ.

1.8. Рассказы о сновидениях и другие корпуса звучащей речи: продвинутый этап ИЯз РАН, РГГУ, МГУ д.ф.н.
А.А. Кибрик

2012 г . — выполнение полной транскрипции корпуса «Рассказы сибиряков о жизни»; выполнение упрощенной транскрипции корпуса «Весёлые истории о жизни»; сбор корпусов «Истории о подарках» и «Истории о катании на лыжах»; временная разметка корпусов; разработка принципов представления лингвистической разметки рассказов в формате ELAN , реализация этих принципов на экспериментальных образцах.

2013 г . — выполнение полной транскрипции корпуса «Весёлые истории о жизни» (начало работы); выполнение упрощенной транскрипции корпусов «Истории о подарках» и «Истории о катании на лыжах»; временная разметка корпусов; создание готовых файлов ELAN для выбранных рассказов; разработка общих принципов поисковой системы.

2014 г . — выполнение полной транскрипции корпусов «Весёлые истории о жизни» (завершение работы), «Истории о подарках» и «Истории о катании на лыжах»; создание готовых файлов ELAN для всех рассказов всех корпусов; реализация системы поиска и пользовательской настройки отобр-мых транскриптов.

1.9. Мультимодальные корпуса: жестикуляция и жестовый язык ИЯз РАН,

МГУ

д.ф.н.
Т.Е. Янко

2012 г . — собрать материал корпуса русского жестового языка, «рассказов о грушах» и детского корпуса и произвести их черновую расшифровку и разметку в ELAN.

2013 г . — закончить расшифровку и анализ вербальной составляющей и выложить результаты в свободный доступ. Выложить в свободный доступ фрагменты собранного корпуса с жестовой составляющей. Собрать и расшифровать тестовый корпус по комплексной разметке бытового диалога, совмещающей вербальную, просодическую и визуальную информацию.

2014 г . — закончить расшифровку и анализ жестовой составляющей и подготовить корпус русского жестового языка, «рассказов о грушах» и детского корпуса к публикации в интернете. Подготовить к публикации в интернете тестового корпус по комплексной разметке бытового диалога, совмещающей вербальную, просодическую и визуальную информацию.

1.10. Поэтический корпус: 1940—1960 гг. ИРЯ РАН к.ф.н.
Л.Л. Шестакова

2012 г . — Разработанный корпус русской поэзии 1940-х гг., снабженный стиховедческой, грамматической и семантической разметкой. Планируется разметить поэтов, относящихся к старшему и младшему поколению «фронтовой» поэзии. Около 0,5 млн. словоупотреблений.

2013 г . — Продолжение разработки аннотированного корпуса русской поэзии: разметка поэтических текстов 1940—1950-х гг. (прежде всего, представителей лианозовской школы). Около 0,5 млн. словоупотреблений.

2014 г . — Окончание разработки аннотированного корпуса русской поэзии 1940—1960-х гг.: разметка поэтических текстов 1950—1960-х гг. («неофициальные» поэты). Около 0,5 млн. словоупотреблений. Разработка программного обеспечения, позволяющего ввести статистическое представление неклассических размеров.

1.11 Поэтический корпус: 1960–1980 гг. ИРЯ РАН к.ф.н.
Д.В. Сичинава

2012 г . — Аннотированный корпус русской поэзии 1960-х гг., снабженный стиховедческой, грамматической и семантической разметкой. Планируется разметить «официальных» поэтов-шестидесятников, а также ряд «неофициальных» поэтов (в том числе И. Бродского). Около 0,5 млн. словоупотреблений.

2013 г . — Продолжение разработки аннотированного корпуса русской поэзии: разметка поэтических текстов 1960—1970-х гг. (группа «СМОГ», «Московское время» и т.д.). Около 0,5 млн. словоупотреблений.

2014 г . — Окончание разработки аннотированного корпуса русской поэзии: разметка поэтических текстов 1970—1980 гг. (метареализм, московский концептуализм). Около 0,5 млн. словоупотреблений.

1.12 Создание и развитие параллельных русско-иноязычных корпусов в Национальном корпусе русского языка ИРЯ РАН д.ф.н.
Д.О. Добровольский

2012 г . — Пополнение английского (до 15 млн), немецкого (до 3 млн), украинского (до 10 млн), белорусского (до 5 млн), польского (до 2 млн) корпусов. Создание итальянского, испанского, армянского и латышского корпусов – по 1 млн каждый

2013 г . — Пополнение английского (до 20 млн), немецкого (до 5 млн), украинского (до 15 млн), белорусского (до 10 млн), польского (до 4 млн), итальянского (до 3 млн), испанского (до 3 млн), армянского (до 2 млн), латышского (до 2 млн) корпусов. Создание французского и литовского корпусов по 2 млн каждый.

2014 г . — Пополнение итальянского, испанского, французского, армянского, латышского, литовского параллельных корпусов (до 3 млн каждый)

1.13 Развитие японско-русского русско-японского параллельного корпуса ИВ РАН к.ф.н.
А.В. Костыркин

2012 г . — пополнение корпуса текстами объемом 500 тыс. словоформ (в терминах японской грамматики). Пополнение японской разметки. Публикация статьи с описанием принципов построения корпуса.

2013 г . — пополнение корпуса текстами объемом 500 тыс. словоформ.

Выступление на российской конференции с докладом о промежуточных результатах работы.

Выступление в Японии на профильной конференции с докладом о промежуточных результатах работы.

2014 г . — пополнение корпуса текстами объемом 500 тыс. словоформ. Выступление на международной конференции с докладом о результатах работы. Публикация статьи о результатах выполнения проекта.

1.14 Создание словарного модуля Национального корпуса русского языка ИРЯ РАН чл.-корр. В.А. Плунгян

2012 г . – создание пилотной версии словника на базе трех словарей XVIII века (~30 тыс. лексем); анализ словника и приписывание грамматической информации и парадигм; анализ  частотного списка словоформ; выделение орфографических, фонетических и морфологических вариантов, характерных для текстов XVIII века.

Обработка базы данных новых слов на 20 тыс. лексем.

2013 г . – расширение словника (до ~50 тыс. лексем); создание базы несловарных словоформ XVIII в.; пополнение словника грамматического словаря вариантами XVIII в; создание пилотной версии морфологического анализатора; сбор данных для коррекции текстов и морфологической разметки диахронического корпуса.

Обработка базы данных новых слов на 20 тыс. лексем.

2014 г . – завершение формирования грамматического словаря XVIII в.; создание рабочей версии морфологического анализатора для разметки текстов XVIII – XIX вв. и его тестирование на материале пилотного корпуса объемом 3-4 млн. словоупотреблений. Реализация морфологического словаря новых слов в разметке корпуса; подготовка и публикация словаря неологизмов.

1.15 Создание корпусной справочной системы по морфологии русского языка ИРЯ РАН д.ф.н.
Е.В. Рахилина
2012 г . — (1) Сбор корпусных данных по темам создаваемых статей, статистическая обработка корпусных данных, выделение и описание зон вариативности, формирование корпуса иллюстративных примеров, формирование библиографической зоны ресурса и ее систематизация.

(2) Подготовка, обсуждение, рецензирование, редактирование не менее 10 статей (примерная тематика «Родительный падеж», «Второй родительный», «Сравнительная форма», «Семантические разряды прилагательных», «Одушевленность», «Модальность», «Междометия», «Диминутив», «Циркумфиксы», «Словообразование глагола» ).

2013 г . — (1) Сбор корпусных данных по темам создаваемых статей, статистическая обработка корпусных данных, выделение и описание зон вариативности, формирование корпуса иллюстративных примеров, формирование библиографической зоны ресурса и ее систематизация.

(2) Подготовка, обсуждение, рецензирование, редактирование не менее 10 статей (примерная тематика «Инфинитив», «Предложный падеж», «Второй родительный», «Частицы», «Именные приставки», «Превосходная степень», «Склонение притяжательных прилагательных», «Предлоги», «Глагольные приставки», «Аугментатив» ).

2014 г . — (1) Сбор корпусных данных по темам создаваемых статей, статистическая обработка корпусных данных, выделение и описание зон вариативности, формирование корпуса иллюстративных примеров, формирование библиографической зоны ресурса и ее систематизация.

(2) Подготовка, обсуждение, рецензирование, редактирование не менее 10 статей (примерная тематика «Притяжательность» «Прикрытые формы местоимений 3-го лица», «Краткая форма прилагательного», «Вводные слова», «Сложное слово», «Способы словообразования», «Именные приставки», «Референция», «Счётная форма», «Словообразование существительного») .

(3) Публикация сб. научных статей по русской корпусной грамматике

1.16 Создание корпусной справочной системы по синтаксису русского языка ИЛИ РАН д.ф.н.
Д. Воейкова
2012 г . — (1) Сбор корпусных данных по темам создаваемых статей, статистическая обработка корпусных данных, выделение и описание зон вариативности, формирование корпуса иллюстративных примеров, формирование библиографической зоны ресурса и ее систематизация.

(2) Подготовка, обсуждение, рецензирование, редактирование не менее 10 статей, (примерная тематика: «Безличное предложение», «Подлежащее», «Сказуемое», «Дополнение», «Режим интерпретации», «Определенно-личное предложение» ) общим объемом 10 а.л.

2013 г . — (1) Сбор корпусных данных по темам создаваемых статей, статистическая обработка корпусных данных, выделение и описание зон вариативности, формирование корпуса иллюстративных примеров, формирование библиографической зоны ресурса и ее систематизация.

(2) Подготовка, обсуждение, рецензирование, редактирование не менее 10 статей (примерная тематика: «Определение», «Обобщенно-личное предложение», «Словосочетание – традиционный подход», «Управление в словосочетании (современный подход)», «Обстоятельство», «Сравнительный оборот», «Глаголы с дативным актантом, демонстрирующим подлежащные свойства», ) общим объемом не менее 10 а.л.

2014 г . — (1) Сбор корпусных данных по темам создаваемых статей, статистическая обработка корпусных данных, выделение и описание зон вариативности, формирование корпуса иллюстративных примеров, формирование библиографической зоны ресурса и ее систематизация.

(2) Подготовка, обсуждение, рецензирование, редактирование не менее 5 статей (примерная тематика: «Обращение», «Выражение повторяемости действия», «Согласование в словосочетании (современный подход)», «Порядок слов», «Вариативность глагольного управления», «Валентностная классификация глаголов (0-местные, 1-местные, 2-местные и т.д.)»,) общим объемом не менее 10 а.л.

(3) Публикация научных статей по русской корпусной грамматике в открытой печати