Компьютер открывает рот и глаголет устами

Новости

По данным статистики, среди всех СМИ больше всего россияне доверяют телевидению: около 50% зрителей верят своим глазам. Вскоре количество «доверчивых» может заметно уменьшиться, ведь с помощью изобретения исследователей из легендарного Массачусетского технологического института (Massachusetts Institute of Technology - MIT) в уста говорящих с телеэкрана можно вложить всё, что угодно.

Пресса уже заговорила об опасности разработки, ведь теперь можно фальсифицировать теленовости, рекламные ролики, политические заявления и тому подобное.

Если вдуматься, то так и есть: допустим, вышеупомянутые 50% увидят по телевизору своего президента, который несёт полнейшую околесицу или объявляет войну - последствия могут быть серьёзней, чем от радиопостановки «Войны миров».

А произошло вот что. Томасо Поггио Tomaso Poggio) и его помощник, аспирант Тони Эззат (Tony F. Ezzat), разработали программное обеспечение, с помощью которого можно весьма реалистично анимировать видеоизображение человеческих лиц, то есть человек на экране будет артикулировать в соответствии со словами, которые он мог никогда и не произносить. Всё, что нужно для полноты эффекта - пригласить талантливого пародиста-звукоимитатора.

Вот здесь читатели, скорее всего, и скажут: «ну и что», «ничего нового», «никакое это не изобретение», «да такому ПО сто лет в обед» и подобное тому. Ошибаетесь, дамы и господа: согласно данным всё того же MIT, «до сих пор искусственно оживляемые человеческие лица выглядели судорожными и нереалистичными», а все, кто видел работу ПО Поггио и Эззата, не смогли отличить «поделку» от настоящего видео.

У изобретения MIT'овцев пока нет внятного названия. Для демонстрации плодов своего труда они использовали лицо реальной девушки, которую, судя по всему, зовут Мэри. Может, её зовут и по-другому, но то, что у изобретателей получилось, называется Mary 101.

Восемь минут речи этой девушки исследователи отсняли на видео, получив тем самым 15 тысяч цифровых снимков движений её лица. Затем всё это было загружено в компьютер, обработано, артикуляция сопоставлена с произносимыми словами и готово. Кстати, текст, который должна произнести говорящая голова, просто-напросто набирается на клавиатуре. Понятное дело, изложено несколько упрощённо, но смысл именно такой.

По поводу озвучивания изобретатели уже сотрудничают с коллегами из «языковой» группы лаборатории MIT (Spoken Language Systems Group in the MIT Laboratory). Как идут дела, пока не сообщается.

 

У разработчиков, разумеется, исключительно благие цели - ещё бы, их работа финансируется не только MIT'ом, но и National Science Foundation.

По словам Поггио, их изобретение может помочь в будущем «очеловечить» компьютерный интерфейс и установка домофона или видеофона, будет полезно в речевой терапии, в обучении иностранным языкам и не только, найдётся применение в анимации и кино, в индустрии развлечений и так далее.

Одно из возможных применений - это и дубляж фильмов. Например, снялась бы проблема, известная, как «синдром японского фильма» (Japanese film syndrome), когда губы японских актёров всё ещё двигаются, хотя перевод в кратких английских фразах уже завершился.

Теперь пора сообщить, что работа, на самом деле, находится в начальной стадии, поэтому Поггио и Эззат просят не смотреть на Mary 101 слишком долго: когда лицо произносит более двух предложений, становится ясно, что дело здесь нечисто - движения рта выглядят весьма реалистично, но вот глаза и лоб остаются неподвижными. Работы над этим вовсю ведутся, разработчики говорят, что это вопрос времени.

Довольно занятно описывается значение этого изобретения. Так, сами MIT'овцы фантазируют по-американски: «вообразите себе будущее, в котором знаменитость, например, Майкл Джордан, сможет продать свой образ и право на создание своей виртуальной видеоверсии для рекламы или других целей».

Немецкий Spiegel смотрит на это дело несколько иначе, примеряя изобретение на Гельмута Коля и Герхарда Шрёдера, вспоминая скандальную видеоплёнку с Усамой бен Ладеном, и вообще называет статью «Как изображения учатся лгать» («Wie Bilder lugen lernen»).

Spiegel предупреждает: если мы сможем делать так, что люди будут говорить то, чего они на самом деле не говорили - последствия могут быть катастрофическими. В ненадёжных руках такая техника может стать чрезвычайно опасным инструментом.

Всё это так, мы согласны, но с другой стороны, сказав что-нибудь не то, можно будет и оправдаться, дескать, это не я, это всё компьютер.

 

Подробнее на http://www.membrana.ru/particle/2464

Поделиться в соц. сетях:

Случайные новости