Ученые МГУ им. Н.П. Огарева проводят оцифровку и лингвистическую разметку мокшанского и эрзянского языкового материала

Культура

В рамках работы по созданию электронного научно-информационно образовательного ресурса «Национальный корпус мордовских языков» уже глоссировано 10 тысяч словоформ, которые станут основой для разработки программы автоматического перевода, системы распознавания орфографии и синтезаторов речи.

Ученые МГУ имени Огарева взялись за колоссальную работу — они составляют корпус мокшанского и эрзянского языков. Это впечатляющий по своим размерам перечень текстов, в котором каждое слово имеет сопроводительную аннотацию — лингвистическую разметку. Она нужна для фиксирования и изучения совокупности всех слов языка и всех их форм, а также для нахождения лингвистических связей между родственными языками. Собрать и описать такое колоссальное количество слов — огромный и кропотливый труд. Помимо большого объема работы необходимы глубокие знания мокшанского и эрзянского. Благодаря корпусу станет возможно создание крупных словарей, в которых будут десятки тысяч слов и словоформ, тогда как раньше они состояли лишь из нескольких тысяч слов и при этом только в начальной форме.

Но даже такое расширение не предел возможностей. На базе текущего исследования планируется создание онлайн-переводчика, аудиословаря, синтезатора речи и даже виртуального ассистента.   В перспективе также планируется тщательно описать все мордовские диалекты. Создание национального корпуса — это уверенный шаг в будущее, который лингвисты Мордовии уже сделали.

Поделиться в соц. сетях:

Случайные новости