Искусственный интеллект Google научился говорить человеческим голосом

1658
2 минуты
Искусственный интеллект Google научился говорить человеческим голосом

Подразделение компании сообщило, что искусственный интеллект Google достиг большого прогресса в программном синтезе человеческого голоса. Новая технология, которая приближает устную речь, произносимую компьютером, к естественному звучанию человеческого голоса называется WaveNet. Над её разработкой трудится подразделение Google DeepMind.

Дело в том, что большинство современных компьютерных синтезаторов используют базу, где человеческим голосом записано много различных небольших фрагментов речи. Они умеют составлять новые слова из урывков — по такому принципу работают, в частности, голосовые помощники Siri или Alexa. Однако эти способы не позволяют изменить на выходе звучание голоса и приблизить его к естественному. Другие синтезаторы генерируют речь сразу на компьютере, правда возникает ощущение, что текст произносит робот, а не человек.

Используя технологию WaveNet, искусственный интеллект обучается на отдельных звуковых частотах, что делает имитацию голоса на 50% лучше используемых сегодня технологий. По словам представителей фокус-группы, синтезированная WaveNet речь на английском и китайском языках произносится естественнее, чем любых других программах Google для превращения текста в речь.

DeepMind также обучили искусственный интеллект Google читать по губам. Так, система показала результат на 35% лучше, чем у профессионального «считывателя по губам».

Это стало возможно после того, как систему ИИ обучили на шести телешоу, выпускавшихся на телевидении в период с 2010 по 2015 гг. Программой было проанализировано порядка 5 тысяч часов видео. Проверить возможности обученной системы разработчики решили с помощью телепрограмм, которые транслировались с марта по сентябрь 2016 года. Из 200 видеофрагментов человек безошибочно распознал только 12,4% произнесенных слов, в то время как компьютерные алгоритмы – 46,8%. Итоговый результат мог быть значительно лучше, если бы аудио и видео в некоторых эпизодах не отставали друг от друга.

Как отмечают IT-эксперты, в будущем речь станет главной связующей взаимодействий человека с техникой: начиная от смартфонов и заканчивая автомобилями. По данным директора онлайн-магазина приложений Google Play Марка Беннетта, пятая часть поисковых запросов к Google на смартфонах и планшетах вводятся при помощи голоса, а не текста.

WaveNet — развивающаяся, однако еще очень молодая, технология для коммерческого применения на Android-устройствах, поскольку ей нужно большое количество вычислительных ресурсов для синтеза речи. Правда, за будущим WaveNet и не прекратят пристально следить Amazon (Alexa), Microsoft (Cortana), Apple (Siri) и другие разработчики голосовых помощников.

Британская DeepMind, приобретенная интернет-гигантом Google в 2014 году за $533 миллиона, набрала огласки после обыгрыша корейского чемпиона в го (настольная игра, возникшая в Древнем Китае).

Материалы по теме "Технологии и устройства"

Рекомендуем

Загрузка...