Искусственный интеллект от Facebook заговорил голосом Билла Гейтса

Автор: Евгений Штепан

Разработчики сервиса MelNet от Facebook добились вполне правдоподобного синтеза голоса при воспроизведении коротких фраз. Для наглядности фразы озвучены "клонами" известных людей.

Времена, когда искусственный голос был безжизненным и неэмоциональным, похоже, скоро останутся в прошлом. Сразу несколько команд разработчиков добились значительных успехов в синтезе настоящего живого аудио. Это уже не старые системы, которые нарезают звуки и слова, компонуя из них фразы. Программы WaveNet, SampleRNN и подобные продукты используют системы машинного обучения для анализа образцов звуков и последующего "озвучивания" текста.

Воссоздание песни Арианны Гранде с помощью SampleRNN

Пример озвучивания текста с помощью WaveNet

Фейковый репортаж известного комика и спортивного комментатора Джо Рогана, сгенерированный стартапом Dessa

В Facebook, разрабатывающем систему MelNet, пошли другим путем и предложили искусственному интеллекту поработать со спектрограммами. Исследователи утверждают, что их продукт хорошо воспроизводит тонкие последовательности, содержащиеся в голосе спикера, которые, как ни странно, практически невозможно описать словами, но легко уловить человеческим ухом. Для проверки этого утверждения можно прослушать образцы фраз, которые алгоритм произносит голосом известных людей. В частности, разработчики MelNet "синтезировали" Билла Гейтса, Стивена Хокинга, Салмана Хана, Стивена Вольфрама и еще нескольких известных персон (в категории "Selected Speakers" можно выбрать конкретного спикера и прослушать одну и ту же фразу в исполнении разных ораторов).

Озвучивание текста "that we mother nature thank you" на основании анализа спектрограммы

В качестве одного из ресурсов для анализа использовался 452-часовой набор аудио из известной программы TED. Остальные обучающие данные были взяты из аудиокниг, которые выбраны из-за "очень оживленной манеры" докладчиков, и, соответственно, максимальной сложности задачи. Несмотря на то, что короткие фразы звучат вполне правдоподобно, MelNet пока не умеет работать с эмоциональной наполненностью длинных текстов. Например, система не может создать драматический эффект или перепады вербального напряжения на протяжении абзаца или страницы текста.

0 комментариев

Оставлять комментарии могут только авторизованные пользователи