Ученые МГУ им. Н.П. Огарева проводят оцифровку и лингвистическую разметку мокшанского и эрзянского языкового материала

Культура 2022 / 21 Ноября / 22:21

В рамках работы по созданию электронного научно-информационно образовательного ресурса «Национальный корпус мордовских языков» уже глоссировано 10 тысяч словоформ, которые станут основой для разработки программы автоматического перевода, системы распознавания орфографии и синтезаторов речи.

Ученые МГУ имени Огарева взялись за колоссальную работу — они составляют корпус мокшанского и эрзянского языков. Это впечатляющий по своим размерам перечень текстов, в котором каждое слово имеет сопроводительную аннотацию — лингвистическую разметку. Она нужна для фиксирования и изучения совокупности всех слов языка и всех их форм, а также для нахождения лингвистических связей между родственными языками. Собрать и описать такое колоссальное количество слов — огромный и кропотливый труд. Помимо большого объема работы необходимы глубокие знания мокшанского и эрзянского. Благодаря корпусу станет возможно создание крупных словарей, в которых будут десятки тысяч слов и словоформ, тогда как раньше они состояли лишь из нескольких тысяч слов и при этом только в начальной форме.

Но даже такое расширение не предел возможностей. На базе текущего исследования планируется создание онлайн-переводчика, аудиословаря, синтезатора речи и даже виртуального ассистента. В перспективе также планируется тщательно описать все мордовские диалекты. Создание национального корпуса — это уверенный шаг в будущее, который лингвисты Мордовии уже сделали.

Поделиться в соц. сетях:

Ученые МГУ им. Н.П. Огарева проводят оцифровку и лингвистическую разметку мокшанского и эрзянского языкового материала

Случайные новости

«Это самый большой вклад в наше будущее!»

«Очень нужная и важная программа»

«Важно, чтобы вы создавали большие и крепкие семьи»

«Передадим наши традиции потомкам»

«Берегите свои семьи, берегите друг друга!»

«Этот проект интересный и затрагивает всех»