Направление 2. Создание и развитие корпусных ресурсов по истории русского языка


Координаторы: акад. А. М. Молдован,
д. филол. н. А. А. Пичхадзе

Второе направление связано с диахроническим расширением Национального корпуса за счет включения текстов более древних временных срезов, от текстов XVIII – начала XIX вв. до памятников среднерусского периода и корпуса берестяных грамот, летописей и иных древнерусских текстов. К ним примыкает и проект по созданию первого в славистике корпуса ранних и современных церковнославянских текстов (русского извода), имеющих, как хорошо известно, огромное значение для изучения истории и современного состояния русского и других славянских языков. Таким образом, проект закладывает фундамент для первого в мире панхронического языкового корпуса – интернет-ресурса, позволяющего в рамках одного портала при помощи унифицированных поисковых инструментов осуществлять исследования в различных исторических срезах русского языка и прослеживать эволюцию слов и грамматических явлений на протяжении всей его письменной истории. Эта группа проектов отличается значительной трудоемкостью и предполагает решение целого ряда принципиально новых задач – как чисто технических, так и исследовательских и описательных. Можно надеяться, что реализация этих проектов будет способствовать существенному прогрессу исторических исследований языка.

Название проекта Ин-т Руководитель
проекта
Ожидаемые результаты (тезисно, кол-ные
показатели, с разбивкой по годам)
2.1 Электронный корпус древненовгородских письменных источников:  летописи, деловые и юридические памятники ИнСлав РАН чл.-корр. РАН
А. А. Гиппиус

2012 — электронный текст Новгородской первой летописи старшего извода (Синодальный список), с морфологической разметкой; размещение ресурса в сети Интернет;
- электронные тексты Новгородской 1-й летописи младшего извода и Новгородской 4-й летописи;
2013 — электронный текст «Грамот Великого Новгорода и Пскова»;
- электронный текст «Вопрошания Кирика» по списку Новгородской Кормчей 1282 г., с морфологической разметкой; размещение в сети Интернет;
- электронная версия Новгородской 1-й летописи младшего извода, с морфологической разметкой; размещение ресурса в сети Интернет;
- обновленная версия электронного корпуса берестяных грамот;
2014 — морфологическая разметка «Грамот Великого Новгорода и Пскова», размещение ресурса в сети Интернет;
- электронный текст Русской правды по списку Новгородской Кормчей 1282 г., с морфологической разметкой, размещение в сети Интернет;

2.2

Подкорпус древнерусских текстов XI-XIII вв.

ИРЯ РАН д.ф.н.
А.А. Пичхадзе

2012 г. — Добавление в подкорпус Повести временных лет по Ипатьевскому списку (ок. 54500 словоупотреблений), Галицкого евангелия 1144 г. (ок. 40000 словоупотреблений), нарративных произведений Кирилла Туровского (12000 словоупотреблений), «Истории Иудейской войны» (более 83000 словоупотреблений). Доработка среды грамматической разметки текстов.
2013 г. — Добавление в подкорпус «Жития Андрея Юродивого» (ок. 45000 словоупотреблений), «Повести об Акире» (более 8000 словоупотреблений) и некоторых других текстов.
2014 г. — Добавление в подкорпус Софийского сборника XV в. (более 120000 словоупотреблений), ктиторской части «Студийского устава» (22000 словоупотреблений). Разработка формата для хранения, обработки и поиска информации о синтаксисе, создание среды для синтаксической разметки текстов.

2.3. Корпус срарорусских текстов XV—XVII вв. ИРЯ РАН акад.
А.М. Молдован

2012 г. — Пополнение корпуса электронных старорусских текстов (750 000 словоупотреблений)
2013 г. — Разработка компьютерной морфологии и словаря старорусских текстов; пополнение корпуса текстов (250 000 словоупотреблений)
2014 г. — Создание размеченного корпуса текстов.

2.4 Развитие корпуса церковнославянских текстов ИРЯ РАН к.ф.н.
А.А. Плетнева

2012 г. — 1. Разработка справочной информации к корпусу и создание терминологического словаря.
2. Совершенствование морфологического модуля корпуса (от 30 тыс. словоформ).
3. Коррекция ошибок в текстах (не менее 300 текстов).
2013 г. —  1. Совершенствование морфологического модуля корпуса (от 30 тыс. словоформ).
2. Коррекция ошибок в текстах (не менее 300 текстов).
2014 г. —  1. Семантическая разметка имен собственных (от 1 000 лемм).
2. Создание словаря лемм с возможностью перехода к их поиску (от 30 000 лемм).
3. Коррекция морфологического модуля (от 30 тыс. словоформ).
4.  Коррекция текстов (не менее 400 текстов).

2.5

Пополнение базы текстов XVIII и XIX веков в Национальном корпусе русского языка

ИЛИ РАН к.ф.н
С.Ю. Дмитренко

2012 г. — подготовка текстов XVIII—XIX вв.
для Национального корпуса русского языка.
Объем подготовленного материала: 4 млн. словоупотреблений.
2013 г. — подготовка текстов XVIII—XIX вв.
для Национального корпуса русского языка.
Объем подготовленного материала: 4 млн. словоупотреблений.
2014 г. — подготовка текстов XVIII—XIX вв.
для Национального корпуса русского языка.
Объем подготовленного материала: 4 млн. словоупотреблений.

2.6

Создание Подкорпуса фольклорных текстов в составе Национального корпуса русского языка

ИМЛИ РАН

д.ф.н.
В.Л. Кляус

2012—2014 гг.
— Разработка концепции корпуса фольклорных текстов.
— Сбор текстов, организация архива корпуса.