Разработчики сервиса MelNet от Facebook добились вполне правдоподобного синтеза голоса при воспроизведении коротких фраз. Для наглядности фразы озвучены "клонами" известных людей.
Времена, когда искусственный голос был безжизненным и неэмоциональным, похоже, скоро останутся в прошлом. Сразу несколько команд разработчиков добились значительных успехов в синтезе настоящего живого аудио. Это уже не старые системы, которые нарезают звуки и слова, компонуя из них фразы. Программы WaveNet, SampleRNN и подобные продукты используют системы машинного обучения для анализа образцов звуков и последующего "озвучивания" текста.
Воссоздание песни Арианны Гранде с помощью SampleRNN
Пример озвучивания текста с помощью WaveNet
Фейковый репортаж известного комика и спортивного комментатора Джо Рогана, сгенерированный стартапом Dessa
В Facebook, разрабатывающем систему MelNet, пошли другим путем и предложили искусственному интеллекту поработать со спектрограммами. Исследователи утверждают, что их продукт хорошо воспроизводит тонкие последовательности, содержащиеся в голосе спикера, которые, как ни странно, практически невозможно описать словами, но легко уловить человеческим ухом. Для проверки этого утверждения можно прослушать образцы фраз, которые алгоритм произносит голосом известных людей. В частности, разработчики MelNet "синтезировали" Билла Гейтса, Стивена Хокинга, Салмана Хана, Стивена Вольфрама и еще нескольких известных персон (в категории "Selected Speakers" можно выбрать конкретного спикера и прослушать одну и ту же фразу в исполнении разных ораторов).
Озвучивание текста "that we mother nature thank you" на основании анализа спектрограммы
В качестве одного из ресурсов для анализа использовался 452-часовой набор аудио из известной программы TED. Остальные обучающие данные были взяты из аудиокниг, которые выбраны из-за "очень оживленной манеры" докладчиков, и, соответственно, максимальной сложности задачи. Несмотря на то, что короткие фразы звучат вполне правдоподобно, MelNet пока не умеет работать с эмоциональной наполненностью длинных текстов. Например, система не может создать драматический эффект или перепады вербального напряжения на протяжении абзаца или страницы текста.