Мордовские ученые восстанавливают генетические связи мокшанского и эрзянского языков

Репортер

В МГУ им. Н.П. Огарева ученые провели глоссирование более 10 тысяч словоформ мордовских языков в рамках работы по созданию электронного научно-информационно образовательного ресурса «Национальный корпус мордовских языков». Этот ресурс позволит представить язык на определенном этапе его существования во всем многообразии стилей, жанров и выявить пути развития языка.

По данным переписи 2010 года в России проживает около 745 тысяч жителей мордовской национальности. В последнее время среди них стало отмечаться сокращение носителей родственных для этой национальности языков – мокшанского и эрзянского. Поэтому ученые МГУ им. Н.П. Огарева приступили к работе, направленной на цифровое описание языков.

Фиксация и сохранение многообразия исчезающих языков и проведение объективного описания языковой системы на основе собранных данных – одни из важнейших направлений языкознания.

«До настоящего времени в мордовском языкознании нет единого цифрового решения, позволяющего накапливать и публиковать языковые данные – аудиословари и глоссированные корпуса текстов, а также проводить их анализ с помощью специальных компьютерных программ с точки зрения особенностей лексики, фонетики и морфологии. Подписанное в 2021 году соглашение о консорциуме с Институтом системного программирования РАН о совместной работе на платформе «ЛингвоДок» позволило объединить усилия ученых-лингвистов в сборе и оцифровке диалектного материала и художественных текстов мордовских языков. Использование единой цифровой платформы создало условия для размещения данных разных пользователей с сохранением всех прав создателей словарей и корпусов», отметил и.о. декана филологического факультета МГУ им. Н.П. Огарева Иван Рябов.

Мордовские исследователи проводят оцифровку и лингвистическую разметку мокшанского и эрзянского языкового материала. Выполнение работ проводится в два этапа. На подготовительном этапе был определен перечень источников для оцифровки. В качестве них были выбраны тексты художественных произведений, написанные на мокшанском и эрзянском языках в разные периоды. В ходе второго этапа происходит   перевод подготовленных текстов в структуру морфологического анализатора, представленного на цифровой платформе «ЛингвоДок» Института системного программирования РАН имени В.П. Иванникова.

Перед размещением на ней ученые вносят информацию о слове. К примеру, указывают его начальную форму, перевод и грамматические характеристики – часть речи, число, падеж, время и т.п.

Таким образом, морфологическая разметка закрепляется автоматически, при помощи специальной программы морфологического анализатора. После чего ученые вносят корректировки в сложных моментах, связанных с омонимией и уточняют список используемых грамматических тэгов – специальных пометок.

«Цифровое описание мокшанского и эрзянского языка выводит работы ученых МГУ им. Н.П. Огарева на новый уровень. Поскольку анализ размещенного на платформе материала позволит получить исследователям важнейшие сведения для ретроспективного изучения мордовских языков, поможет установить их генетические связи, выявить хронологию в развитии некоторых явлений и восстановить пути развития языков»,прокомментировал ректор МГУ им. Н.П. Огарева Дмитрий Глушко.

Для финно-угорских языков – венгерского, финского, эстонского – созданы корпуса, отличающиеся содержанием, типами имеющейся разметки, способом доступа. По некоторым финно-угорским языкам России создаются отдельные электронные текстовые коллекции и небольшие устные корпуса, собранные в экспедициях. В настоящее время созданы первые версии письменных корпусов коми, удмуртского и марийских языков.

Однако, основное отличие работы финских исследователей, в сравнении с учеными МГУ им. Н.П. Огарева в том, что она не имеет лингвистической разметки: тексты не размечены, не глоссированы. Что является существенным недостатком при создании системы автоматического перевода, поскольку программе нужно показывать все грамматические значения, которые аккумулированы в грамматической форме, смотреть на структуру языка.

Всего ученые проведут анализ и оцифровку не менее 200 тысяч словоформ. В дальнейшем глоссированные тексты станут основой для разработки программы автоматического перевода, системы распознавания орфографии, синтезаторов речи.

Поделиться в соц. сетях:

Случайные новости