О Программе


«Корпусная лингвистика»Программа фундаментальных исследований Президиума РАН

Настоящая Программа предполагает комплексное интенсивное развитие одного из наиболее перспективных направлений в современной теоретической и прикладной лингвистике, основанного на использовании языковых электронных корпусов и корпусных технологий. Это направление принято называть корпусной лингвистикой .

Корпусом языка называется собрание текстов на данном языке в электронной форме, специальным образом обработанное («аннотированное»), так, чтобы исследователь языка мог быстро и в полном объеме найти в корпусе интересующую его информацию о языке. В зависимости от характера аннотации, возможен поиск по грамматическим характеристикам слов и предложений языка (морфологическим, синтаксическим, семантическим параметрам), а также по разнообразным характеристикам самих текстов, входящих в корпус: по автору, дате создания текста, жанру, тематике и т.п.

Чем богаче и разнообразнее аннотация – и чем больше число текстов, входящих в корпус, – тем более ценным инструментом для лингвистических исследований становится корпус. Наиболее ценным и наиболее часто используемым типом корпуса является так называемый «национальный корпус», под которым понимается максимально представительное собрание всех типов текстов, имеющихся на данном языке в определенную эпоху – как литературно-художественных, так и научно-публицистических, как письменных, так и устных, как нормативных (стандартных), так и представляющих различные диалектные и социальные варианты языка, и т.п. Объем такого корпуса достигает сотен миллионов словоупотреблений, а в последнее время не редкостью становятся и корпуса, объем которых превышает миллиард словоупотреблений. В то же время для малоизученного (и в особенности бесписьменного) языка крайне ценным может являться и корпус в несколько сотен или даже десятков тысяч словоупотреблений – при условии, что он снабжен лингвистически корректной аннотацией.

В мировой науке первые корпуса стали возникать практически одновременно с внедрением компьютерных технологий в гуманитарные исследования, однако массовый рост корпусных исследований и создания новых корпусов приходится на период конца 1980-середины 1990 гг. Именно в это время появляются крупные национальные корпуса английского, итальянского, финского, чешского и ряда других языков (преимущественно, европейских). И именно в это время в теоретическую лингвистику приходит осознание того, что представительный корпус не просто является очень мощным средством поиска примеров в текстах – он должен рассматриваться как принципиально новый инструмент, применение которого приводит к революционным (и не до конца еще осознанным) результатам в исследовании языка.

Дело в том, что только корпус позволяет в реальном времени получать результаты, требующие обработки таких массивов текстов, с которыми обычный исследователь справиться просто не в состоянии: для получение тех же данных вручную (например, путем простого просмотра текстов и выписывания примеров на карточки, как это происходило в докомпьютерную эпоху) могут потребоваться месяцы и даже годы. Таким образом, корпус не просто позволяет ускорить исследования языка и многократно повысить их эффективность, достоверность и проверяемость – он позволяет решать такие задачи, которые лингвистика предыдущих эпох практически не ставила в силу их трудоемкости или невыполнимости. К таким задачам относятся, например, многие виды статистических и других квантитативных исследований языка (частично делавшиеся и в докорпусную эпоху, но бурно развивающиеся именно в последнее время) или задачи, связанные с мониторингом языковых изменений и описанием их механизмов: как известно, любой язык находится в процессе постоянного, но медленного изменения, результаты которого обычно становятся заметны лишь в масштабе нескольких столетий.

Понимание механизмов таких изменений (плохо изученных в настоящее время), по мнению многих специалистов, могут дать принципиально новые знания о природе естественного языка в целом – а исследования в этой области наиболее эффективны с использованием так называемых исторических, или диахронических, корпусов, в которых собраны тексты на данном языке, созданные за большой промежуток времени (не менее, чем пять-семь столетий).

С точки зрения современной теоретической и описательной лингвистики корпус в настоящее время является не только необходимым инструментом исследования языка, но и необходимым компонентом его интегрального описания – к классической паре «словарь – грамматика» современная наука добавила третий элемент – корпус, понимая полное описание языка как такое, которое включает словарь, грамматику и корпус, на основе которого построены данный словарь и данная грамматика. Тем самым, правомерно говорить о «корпусных словарях» и «корпусных грамматиках» нового поколения, выполненных – и верифицированных – именно по отношению к конкретному фиксированному корпусу. Корпусный характер словарей и грамматики повышает их надежность и проверяемость, позволяет избегать той субъективности и неполноты, которыми часто страдают традиционные описания.

Не менее революционную роль, чем для теоретической лингвистики, электронные корпуса играют и для развития прикладных исследований, служа для них основным проводником инновационных технологий и средством ускоренной модернизации. Как известно, прикладные лингвистические технологии в современном мире используются везде, где требуется извлечь информацию из большого массива данных на естественном языке. В этой очень обширной области корпуса оказываются незаменимы – именно на основе корпусов создаются практически все современные системы информационного поиска – прежде всего, в интернете – и автоматического извлечения информации, автоматического анализа структуры текста, автоматического перевода (с использованием так называемых параллельных корпусов на нескольких языках), автоматического распознавания речи (с использованием корпусов звучащей речи) и решается множество других задач.

Открытые корпусные порталы, посвященные крупным национальным языкам, имеют еще один важный потенциал, который можно определить как социально-педагогический. Интернет-ресурсы, основанные на национальных корпусах, позволяют людям, не являющимися профессиональными лингвистами, с помощью простых и доступных программных средств самостоятельно найти ответы на многие возникающие у них вопросы по поводу прошлого и настоящего их родного языка. В этом – важная просветительская функция корпуса, выражающаяся в повышении языкового сознания неспециалистов, сокращения дистанции между языком (языковым узусом, историей языка) и его носителями. Если ранее в своем интересе к родному языку носители были ограничены, главным образом, материалами словарей – не все из которых равно доступны, равно детальны и равно хороши – то создание национальных корпусов позволило им обратиться непосредственно к текстам. Кроме того, появление корпусов делает возможным применение корпусных методов в преподавании языка (этому направлению применительно к русскому языку посвящен и один из проектов Программы).

Таким образом, не будет ни малейшим преувеличением сказать, что создание, развитие и использование электронных корпусов – это одно из наиболее передовых направлений современной лингвистики; именно в рамках этого направления наиболее вероятны инновационные результаты как в области теоретической лингвистики (получение новых знаний об устройстве языка), так и в области прикладной лингвистики (получение технологий нового поколения для автоматической обработки текстов и ускоренная модернизация методов лингвистических исследований).

Из сказанного естественно вытекает, что масштабной научно-практичес­кой задачей для российской науки должно стать целенаправленное развитие корпусных методов описания языка в целом с особым упором на описание русского языка и других языков Российской Федерации . Это позволит в ближайшем будущем осуществить создание интегрированной системы электронных корпусов русского языка и языков народов России, а также ускоренное развитие передовых лингвистических технологий.

Особо следует отметить исключительное значение создания корпусного представления всех 120 языков Российской Федерации, из которых многие (в особенности языки Севера, Сибири, Дальнего Востока и Кавказа) находятся на грани исчезновения. Задача описания всех без исключения языков России ставилась как одна из главных целей Российской академии наук еще во время ее создания в ходе переписки Петра Первого с Лейбницем, и наша Академия много для этого сделала на протяжении двух с половиной веков своего существования. Однако современные реалии диктуют необходимость ускоренной модернизации в данной области.

Для осуществления всех этих задач имеется хорошая основа – в первую очередь, это общедоступный Национальный корпус русского языка (портал ruscorpora.ru), созданный в 2003-2005 гг. в рамках целевой программы ОИФН РАН «Филология и информатика» (продолженной программой 2006-2008 гг.) специалистами ряда институтов РАН и ведущих вузов России; в дальнейшем отдельные направления работы над расширением и совершенствованием НКРЯ получали поддержку в виде грантов РГНФ и РФФИ и частично – других программ ОИФН РАН. Национальный корпус русского языка (НКРЯ) был разработан и открыт для свободного доступа примерно на десятилетие позже, чем большинство других крупных корпусов европейских языков, однако при его создании был учтен предшествующий опыт – как зарубежный, так и отечественный (в частности, проект создания Машинного фонда русского языка, разрабатывавшийся еще в конце 1970-х гг., но по разным причинам не доведенный до практического воплощения). При создании НКРЯ были реализованы некоторые принципиально новые решения и типы аннотации, которые не имеют аналогов в мире; по ряду параметров НКРЯ превосходит наиболее известные корпуса (например, такие, как считающиеся образцовыми Британский национальный корпус английского языка или – среди славянских языков, из-за своей грамматической структуры более сложных для автоматической обработки, чем английский – Чешский национальный корпус).

В дальнейшем на базе технологий, разработанных для НКРЯ, были созданы ряд других корпусов и усовершенствованы технологии корпусной обработки языков разных типов – как крупных литературных языков с давней письменной традицией, так и малых языков (включая бесписьменные) с низким уровнем стандартизации. Одним из примеров крупного корпуса, созданного в рамках этой идеологии, может служить Восточноармянский национальный корпус, открытый для свободного доступа в 2007 г . С другой стороны, исследовательскими группами ряда академических и вузовских центров Москвы и Санкт-Петербурга был накоплен уникальный опыт полевых исследований малых и исчезающих языков России и ближнего зарубежья, на базе которого сейчас ведется интенсивная работа по документации таких языков, в том числе корпусными методами: ср. в особенности проект по документации малых языков, отраженный на сайте Института мировой культуры МГУ им. М. В. Ломоносова. На этом направлении особое значение приобретают аудио- и мультимедийные корпуса, в которых фиксируется (и соответствующим образом аннотируется) не только записанный текст, но и непосредственно звуковой и визуальный ряд. Мультимедийные корпуса, крайне важные для многих теоретических и прикладных задач (в том числе и выходящих за рамки чистой лингвистики и относящихся к области семиотики), разрабатываются и для русского языка в рамках развития НКРЯ.

Несмотря на некоторую специфику, связанную с созданием корпусов малых языков, корпусная лингвистика малых и крупных языков имеет общие методологические основания и родственные исследовательские установки. Параллельно тому, как в лингвистике в целом происходил постепенный сдвиг в сторону исследования языковой вариативности, от языка к речи, от нормы к узусу, в практике исследования малых языков постепенно усиливался акцент на языковом документировании. Хотя в целом полевые лингвисты с самого начала уделяли большое внимание записи текстов – в отличие от ситуации изучения крупных языков, они в принципе не могут полагаться исключительно на собственную языковую интуицию, – смещение акцентов от грамматического описания к языковой документации здесь особенно очевидно. Оно отчетливо видно в истории российской и особенно московской школы полевой лингвистики. Прямые преемники тех научных коллективов, которые во второй половине прошлого века работали в основном путем грамматического анкетирования, сейчас активно занимаются записью и обработкой текстов. Исследователи неоднократно отмечали, что многие грамматические конструкции и явления обнаруживаются только при работе с текстами, но не с грамматическими анкетами – в том числе это и сложные, дискурсивно и прагматически ориентированные грамматические категории, такие как вид или залог. Аналогичный опыт имеется в филологической традиции изучения древних языков, которая практически вся была корпусной задолго до появления и широкого признания корпусных методов в теоретической лингвистике.

Укажем в заключение и еще один важный аспект корпусных исследований. На рост интереса к корпусам (в особенности корпусам русского языка) среди тех, кто не занимается языком профессионально (в том числе преподавателей, студентов и школьников, а также «обычных» носителей языка) указывает рост числа ссылок на корпусные порталы с лингвистических и методических ресурсов, имеющих принципиально иную природу и аудиторию (порталы грамота.ру, Яндекс.Словари и др.). В этом состоит важный потенциал для внедрения корпусов в преподавание языка и пропаганду научных лингвистических знаний.

В процессе решения этих задач в последние годы сложилось успешно взаимодействующее научное сообщество, состоящее из мобильных коллективов высококвалифицированных специалистов, с большой долей молодых исследователей, обладающих всеми нужными знаниями и навыками как в области современной теоретической лингвистики, так и в области ее приложений. Однако организационные и финансовые возможности всех этих коллективов в настоящее время невелики – они явным образом не соответствуют масштабу задач, стоящих перед современной корпусной лингвистикой. В частности, ни один из языков народов России, кроме русского, до сих пор не имеет своего полноценного электронного корпуса, что существенно затрудняет как научное исследование этих языков, так и создание единых государственных информационных систем, работающих со всеми языками народов России. Нуждается в дальнейшем развитии и корпус русского языка – в частности, требуется постоянное пополнение его новыми текстами, улучшение его инфраструктуры, совершенствование программного обеспечения и развитие новых информационных технологий на базе этого корпуса, а также создание корпусов нового типа (прежде всего, мультимедийных).

Основные достижения российских коллективов – участников программы «Корпусная лингвистика» отражены в следующих публикациях:

  • В. А. Плунгян (ред.). Национальный корпус русского языка: 2003—2005 . М., 2005.
  • Н. Р. Добрушина (ред.). Национальный корпус русского языка и проблемы гуманитарного образования . М., 2007.
  • В. А. Плунгян. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении , 2008, № 16 (2).
  • А. В. Архипов, М. А. Даниэль, А. Е. Кибрик (ред.). Малые языки и традиции: существование на грани . М., 2008.
  • М. А. Даниэль, Д. В. Левонян, В. А. Плунгян, А. Е. Поляков, С. А. Рубаков, В. Г. Хуршудян. Восточноармянский национальный корпус // Армянский гуманитарный вестник , 2009, 2.
  • В. А. Плунгян, Е. В. Рахилина, Т. И. Резникова (ред.). Национальный корпус русского языка: 2006—2008. Новые результаты и перспективы . СПб., 2009.
  • К. Л. Киселева, В. А. Плунгян, Е. В. Рахилина, С. Г. Татевосов (ред.) Корпусные исследования по русской грамматике . М., 2009.
  • В. И. Подлесская, А. А. Кибрик (ред.). Рассказы о сновидениях. Корпусное исследование устного русского дискурса . М., 2009.

Таким образом, выполнение поставленной задачи программно-целевым методом позволяет наиболее эффективно осуществлять координацию научной деятельности в области комплексного развития корпусных методов исследования и создания новых корпусов на уровне лучших мировых достижений.

2. Основные цели и задачи программы

Основной целью программы является создание теоретико-методологи­ческой и экспериментальной базы для ускоренного развития инновационных исследований по теоретической и прикладной лингвистике на основе современных корпусных технологий – и в первую очередь создание новых корпусов . В этой области предполагается осуществить масштабный технологический прорыв, разместив для свободного доступа корпуса более чем 20 языков (большинство из них создаются впервые, некоторые – на основе предварительных заделов на основе полевых исследований и пилотных образцов корпусов различного типа). Существенная часть проектов программы посвящена дальнейшему развитию Национального корпуса русского языка и созданию на его основе новых типов корпусов русского языка, в том числе мультимедийных, параллельных и диахронических, дающих доступ к данным древнерусского и среднерусского периодов.

В соответствии с этими задачами, программа подразделяется на четыре основных направления:

  • Создание и развитие корпусных ресурсов по современному русскому языку .
  • Создание и развитие корпусных ресурсов по истории русского языка .
  • Создание и развитие корпусных ресурсов по языкам народов России .
  • Создание и развитие корпусных ресурсов по языкам мира .

Тематически, эти четыре направления можно объединить в два более крупных блока: проекты, так или иначе нацеленные на развитие НКРЯ (направления 1 и 2), и проекты, предполагающие развитие корпусных ресурсов других языков (направления 3 и 4). Все проекты, однако, тесно связаны друг с другом как организационно, так и идеологически и технологически.

Первое направление предполагает развитие корпусов современного русского языка – основной части портала НКРЯ. Оно содержит наибольшее число проектов и наиболее разнообразно по своим исследовательских задачам. Внутри направления можно выделить несколько групп проектов. Во-первых, ряд проектов предполагают развитие, пополнение и модернизацию уже существующих подкорпусов в составе НКРЯ – это подкорпус современного русского языка, который необходимо пополнить прежде всего текстами XXI века, а также инновационного мультимедийного и крайне важных для исследований русского языка поэтического подкорпуса, подкорпуса устной речи и акцентологического подкорпуса (позволяющего вести масштабные исследования русского ударения). К этой же группе относятся проекты по развитию экспериментального синтаксического подкорпуса НКРЯ.

Следует специально отметить, что реализация Программы позволит завершить формирование корпуса русской поэзии XVIII – середины XX вв. (включая основных представителей поэзии русского зарубежья), по сложности и детальности стиховедческой разметки не имеющего мировых аналогов. Создание корпуса русской поэзии позволит придать новый импульс очень плодотворным исследованиям русской поэзии в рамках отечественной школы точных методов исследования стиха, опирающейся на сделанные сто лет назад открытия Андрея Белого и продолженной в классических трудах Р. О. Якобсона, А. Н. Колмогорова, М. Л. Гаспарова и других стиховедов.

Во-вторых, особое внимание будет уделено развитию параллельных корпусов – будут существенно расширены русско-германские и русско-славянские корпуса (с открытием русско-украинского, русско-белорусского и русско-польского корпусов), а также созданы многоязычный параллельный славянский корпус, пилотные русско-романские корпуса и требующий применения специальных технологий русско-японский и японско-русский параллельный корпус.

В-третьих, будет создан ряд новых корпусов, фиксирующих особые разновидности русского языка – в их числе корпус региональных вариантов, отражающий интерференцию русского языка с речью носителей других языков народов России, а также с речью потомков русских, живущих в иноязычном окружении (на материале жителей Финляндии и США). К этой группе примыкает и проект по созданию корпуса русского устного дискурса с особой углубленной разметкой, учитывающей особенности строения устного текста. Этот проект имеет во многом экспериментальный характер и важен для развития дискурсивных исследований, особенно тесно связанных с корпусной лингвистикой во всем мире.

В-четвертых, будет уделено особое внимание совершенствованию программного обеспечения НКРЯ, улучшению его функциональных и поисковых возможностей и созданию целого ряда необходимых вспомогательных ресурсов (словарей на основе корпуса, систем семантической и словообразовательной разметки нового поколения). В эту же группу проектов входит поддержка и развитие обучающего корпуса на основе НКРЯ в рамках особого портала Studiorum, объединяющих студентов и преподавателей, изучающих русский язык.

Как уже указывалось выше, современная корпусная лингвистика не сводится только к созданию корпусов – она предполагает и масштабные исследования языков на базе корпуса. Существование такого мощного ресурса, как НКРЯ, естественно, не может не вызывать к жизни целый ряд проектов по корпусному исследованию русской грамматики и лексики. В рамках Программы особую поддержку получают два из них, нацеленные на создание электронного справочного ресурса по русской морфологии и русскому синтаксису. Фактически, это центральные фрагменты грамматики русского языка, выполненные в рамках современной «корпусной» идеологии.

Второе направление связано с диахроническим расширением Национального корпуса за счет включения текстов более древних временных срезов, от текстов XVIII – начала XIX вв. до памятников среднерусского периода и корпуса берестяных грамот, летописей и иных древнерусских текстов. К ним примыкает и проект по созданию первого в славистике корпуса ранних и современных церковнославянских текстов (русского извода), имеющих, как хорошо известно, огромное значение для изучения истории и современного состояния русского и других славянских языков. Таким образом, проект закладывает фундамент для первого в мире панхронического языкового корпуса – интернет-ресурса, позволяющего в рамках одного портала при помощи унифицированных поисковых инструментов осуществлять исследования в различных исторических срезах русского языка и прослеживать эволюцию слов и грамматических явлений на протяжении всей его письменной истории. Эта группа проектов отличается значительной трудоемкостью и предполагает решение целого ряда принципиально новых задач – как чисто технических, так и исследовательских и описательных. Можно надеяться, что реализация этих проектов будет способствовать существенному прогрессу исторических исследований языка.

Третье направление объединяет проекты, связанные с созданием корпусов на языках народов России. Практически все корпуса создаются впервые (исключая корпус вепсского языка, пилотный вариант которого был создан ранее специалистами в Петрозаводске). Это направление имеет важное социально-лингвистическое измерение, так как создание соответствующих ресурсов, с одной стороны, повышает жизнеспособность и способствует модернизации относительно крупных языков субъектов Российской Федерации (калмыцкий, башкирский, осетинский, бурятский, лезгинский, аварский, даргинский проекты) и, с другой стороны, фиксирует уходящие или находящиеся под угрозой исчезновения малые языки, которых в России гораздо больше (языки народов Дальнего Востока, Западной Сибири, малые финно-угорские, тунгусо-манчжурские, тюркские языки, малые языки Дагестана). Создаваемые в рамках Программы ресурсы не только закладывают фундамент для лингвистических исследований будущего, но и содействуют – по мере возможности – сохранению уходящего культурного многообразия, на которое способна лишь корпусная лингвистика.

Следует отметить, что создаваемые в рамках данного направления корпуса неоднородны по своему объему, используемым технологиям и характеру представления данных. Это объясняется неоднородностью самого языкового материала и разной степени предварительной проработанности корпусной тематики по отношению к разным языкам. В тех случаях, когда такая проработанность существенно меньше по сравнению с «передовыми» областями корпусной лингвистики, разработчики Программы предпочитали использовать такие методики, которые позволяют получить максимальный результат в течение первого года реализации программы и в то же время использовать уже существующий полезный потенциал (полевые записи, аудио- и видеоматериалы, собственные технологии авторов участников отдельных проектов). В дальнейшем эти ростки «корпусной цивилизации» в России можно будет объединить на основе специально разработанных платформ и универсальных технологий, однако это представляется задачей более отдаленного будущего.

Четвертое направление Программы объединяет проекты по созданию корпусов языков народов мира, изучаемых отечественными лингвистами. Как и в третьем направлении, эти проекты могут быть поделены на создание и развитие корпусов «средних» и «малых» языков. К первой группе относятся проекты корпусов монгольского, албанского, армянского языков; ко второй – проекты корпусов языков Западной Африки и языков майя. Представлены в первую очередь проекты по языкам, корпусные ресурсы по которым пока отсутствуют и в развитие которых российские лингвисты могут внести существенный вклад, укрепив свой приоритет в этой области (заметим, что в таких направлениях, как, например, монголистика, арменистика или майянистика приоритет российских школ является традиционным).

Особое место в этой группе проектов занимает дальнейшее развития разработанного российскими лингвистами Восточноармянского национального корпуса, инновационные технологии которого могут быть положены в основу других корпусов литературных языков (как в России, так и за ее пределами). Как уже отмечалось, что часть проектов как третьего, так и четвертого направлений – корпуса литературных языков России (калмыцкий, бурятский, осетинский, лезгинский) или мира (албанский, восточноармянский) – представляют собой реализацию идеологии национальных корпусов на языках «среднего масштаба». Примером успешного проекта такого рода является Восточноармянский национальный корпус, стартовавший в 2007 г . Используя идеологию и архитектуру НКРЯ, за два года группе российских исследователей удалось создать один из крупнейших корпусов в мире. Если сразу после открытия корпуса количество посетителей ограничивалось несколькими десятками, то сейчас ежедневное количество визитов колеблется от 400 до 500, что для арменистики с ее герметичной традицией является неожиданно высоким показателем и, возможно, говорит о вызванном появлением этого ресурса росте исследовательского интереса к армянскому языку. Мы надеемся, что появление корпусов других «средних» языков будет так же стимулировать их исследование; не следует забывать и о социальной (просветительской) функции корпуса, которая для титульных языков регионов России (Калмыкия, Бурятия) имеет еще большое значение, чем для русского или армянского, так как косвенно может способствовать сохранению этих языков в условиях интенсивного двуязычия их носителей. Кроме идеологического единства, эти проекты сгруппированы также технологически: для них необходим единый поисковый движок на кросс-языковой платформе, который может использоваться для разноструктурных языков. Иными словами, эти проекты тесно связаны между собой использованием одного и того же программного обеспечения и в этом смысле зависят друг от друга: программные наработки одного проекта могут быть использованы в другом, и наоборот.

Несколько особняком стоят корпуса малых языков России и зарубежья (часть проектов третьего и четвертого направлений). Их объектом являются бесписьменные или младописьменные языки, счет носителей которых зачастую идет не на миллионы и даже не на тысячи, а на сотни или на десятки человек. Приоритеты таких проектов не могут не быть устроены иначе: изучение диахронических сдвигов на таких корпусах невозможно в связи как с малым объемом корпусов, так и с недоступностью текстов, представляющих другие временные срезы; различие между нормой и узусом в отсутствие нормативных словарей и письменности практически не имеет смысла и пр. Использовать для корпусов таких языков то же программное обеспечение, что и для крупных корпусов – например, разрабатывать морфологические анализаторы – нерационально. Впрочем, не во всех случаях провести границу просто – корпуса размером в один миллион словоупотреблений находятся между корпусами малых языков (среды языкового документирования в принципе могут работать с корпусами таких объемов) и корпусами больших языков (источником корпуса такого размера чаще всего служат не записанные исследователем, а нормализованные письменные тексты).

Обладает своей спецификой и аннотация текстов на малых языках. Абсолютное большинство международных лингвистических изданий использует так называемое поморфемное глоссирование (interlinear glossing), при котором каждая словоформа разделена на морфемы, а каждая морфема, как лексическая, так и грамматическая, снабжена переводом. Такой формат существенно облегчает работу с грамматическим материалом для неспециалистов по данному языку или группе языков.

При этом сложившаяся практика документирования малых языков такова, что для каждого языка создается отдельный корпус, не связанный с корпусами других языков. Создание корпуса – дело трудоемкое и затратное, и если «большие» языки в принципе могут мобилизовать исследовательские и финансовые ресурсы, чтобы позволить себе собственный корпусной инструментарий, малые языки остаются на обочине этого процесса. Каждым из них по отдельности занимается небольшое число исследователей, и это делает создание полноценного, репрезентативного корпуса в объеме аналогичном корпусам крупных языков невозможным: чаще всего объем корпуса колеблется от нескольких тысяч до нескольких десятков тысяч предложений (т.е. остается в пределах ста тысяч словоупотреблений). Создание корпуса требует программистской работы, для которой лингвисты часто не обладают нужной квалификацией. Между тем, нужность и актуальность корпусных исследований для «малых» языков ничуть не меньше, чем для «больших» – только корпус глоссированных текстов делает языковой материал доступным для типологов и, шире, теоретических лингвистов, то есть делает материал соответствующего языка доступным для академического сообщества. Естественный выход из этой ситуации – это, во-первых, укрупнение корпусных ресурсов по малым языкам (то есть создание многоязычных порталов и депозитариев), позволяющее сэкономить необходимые IT-ресурсы, и, во-вторых, унификация форм представления текста, позволяющая использовать стандартные поисковые оболочки. Для работы с малыми языками существует целый арсенал открытых лингвистических сред для работы с текстами (xml-ориентированные системы морфологического глоссирования ToolBox и FieldWorks; система онлайнового поиска по мультимедийным данным ELAN; а также, например, пилотная версия разрабатываемой в Институте языкознания РАН оффлайновой оболочки поиска по глоссированным корпусам Search.Too). Все проекты программы предполагают использование для работы с текстами одного из стандартных xml-форматов либо миграцию данных из старых форматов (MSWord) в xml (проект по малым языкам Дагестана), использование одной из указанных сред и оболочек, а также централизованное хранение и доступ к создаваемым корпусам: на специализированном сервере-репозитарии МГУ им. М. В. Ломоносова и на сайте Института языкознания РАН.

3. Сроки и этапы реализации программы

Программа в настоящем виде рассчитана на три года. Ее реализация в 2011 году была ориентирована на максимальную эффективность проектов и возможность получить осязаемые результаты (открытые для свободного доступа корпуса, созданные и работающие программные ресурсы и т.п.) уже к концу 2011 года. В каждом проекте указывались количественные параметры, которые планируется достичь; на протяжении всего года осуществлялся жесткий контроль над ходом работ по проектам.

Успешная в целом реализации этапа 2011 года позволила создать задел для развития корпусной лингвистики в России, которое, как представляется, не должно останавливаться из-за отсутствия материальных и человеческих ресурсов.

Этап 2012 года можно рассматривать как развитие достигнутых в 2011 результатов, поддержка наиболее жизнеспособных проектов и расширение и улучшение функциональности созданных корпусов русского языка, языков народов России и языков мира. В перспективе предполагается переход к качественно новому этапу корпусных исследований, в которых целенаправленные усилия по созданию новых корпусов будут сочетаться с исследованиями, проводимыми уже на основе действующих корпусов.

По сравнению с этапом 2011 года, на этапе 2012 года основное внимание будет уделяться пополнению и совершенствованию уже созданных корпусов, как крупных, так и средних и малых. В то же время в рамках направления 3 планируется создание нескольких новых корпусов (в частности – двух литературных языков Дагестана, аварского и даргинского).

4. Механизм реализации программы

Сложность и масштабность задач Программы предполагает постоянный контроль за ходом работ и, так сказать, проверку жизнеспособности различных методик и технологий. Как уже указывалось выше, Программа отличается высокой степенью внутреннего единства, как организационного, так и идейно-методологического. Это позволяет корректировать ход выполнения работы, постоянно обмениваться опытом и, в случае необходимости, оказывать многообразную помощь коллективам, участвующим в Программе (в том числе работающим в разных городах и научных центрах РАН).

Таким образом, интенсивная координация работ и регулярная отчетность по проектам (а также единая методологическая база) в рамках данной программы будет играть ключевую роль в обеспечении ее успешной реализации.