vk_logo twitter_logo facebook_logo youtube_logo telegram_logo telegram_logo

Искусственный интеллект от Facebook заговорил голосом Билла Гейтса

Дата публикации: 11.06.2019
Количество просмотров: 1200
Автор:

Разработчики сервиса MelNet от Facebook добились вполне правдоподобного синтеза голоса при воспроизведении коротких фраз. Для наглядности фразы озвучены "клонами" известных людей.

Времена, когда искусственный голос был безжизненным и неэмоциональным, похоже, скоро останутся в прошлом. Сразу несколько команд разработчиков добились значительных успехов в синтезе настоящего живого аудио. Это уже не старые системы, которые нарезают звуки и слова, компонуя из них фразы. Программы WaveNet, SampleRNN и подобные продукты используют системы машинного обучения для анализа образцов звуков и последующего "озвучивания" текста.


Воссоздание песни Арианны Гранде с помощью SampleRNN


Пример озвучивания текста с помощью WaveNet


Фейковый репортаж известного комика и спортивного комментатора Джо Рогана, сгенерированный стартапом Dessa

В Facebook, разрабатывающем систему MelNet, пошли другим путем и предложили искусственному интеллекту поработать со спектрограммами. Исследователи утверждают, что их продукт хорошо воспроизводит тонкие последовательности, содержащиеся в голосе спикера, которые, как ни странно, практически невозможно описать словами, но легко уловить человеческим ухом. Для проверки этого утверждения можно прослушать образцы фраз, которые алгоритм произносит голосом известных людей. В частности, разработчики MelNet "синтезировали" Билла Гейтса, Стивена Хокинга, Салмана Хана, Стивена Вольфрама и еще нескольких известных персон (в категории "Selected Speakers" можно выбрать конкретного спикера и прослушать одну и ту же фразу в исполнении разных ораторов).  

Озвучивание текста «that we mother nature thank you» на основании анализа спектрограммы
Озвучивание текста "that we mother nature thank you" на основании анализа спектрограммы

В качестве одного из ресурсов для анализа использовался 452-часовой набор аудио из известной программы TED. Остальные обучающие данные были взяты из аудиокниг, которые выбраны из-за "очень оживленной манеры" докладчиков, и, соответственно, максимальной сложности задачи. Несмотря на то, что короткие фразы звучат вполне правдоподобно, MelNet пока не умеет работать с эмоциональной наполненностью длинных текстов. Например, система не может создать драматический эффект или перепады вербального напряжения на протяжении абзаца или страницы текста. 

От редакции: если у вас есть чем поделиться с коллегами по отрасли, приглашаем к сотрудничеству
Ссылка на материал, для размещения на сторонних ресурсах
/news/newsline/104370/iskusstvennyiy-intellekt-ot-facebook-zagovoril-golosom-billa-geytsa.html

Обсудить на форуме

Оставлять комментарии могут только зарегистрированные пользователи

Зарегистрироваться