Искусственный интеллект от Facebook заговорил голосом Билла Гейтса

Разработчики сервиса MelNet от Facebook добились вполне правдоподобного синтеза голоса при воспроизведении коротких фраз. Для наглядности фразы озвучены «клонами» известных людей.

Времена, когда искусственный голос был безжизненным и неэмоциональным, похоже, скоро останутся в прошлом. Сразу несколько команд разработчиков добились значительных успехов в синтезе настоящего живого аудио. Это уже не старые системы, которые нарезают звуки и слова, компонуя из них фразы. Программы WaveNet, SampleRNN и подобные продукты используют системы машинного обучения для анализа образцов звуков и последующего «озвучивания» текста.

[embedded content]

         Воссоздание песни Арианны Гранде с помощью SampleRNN

[embedded content]

              Пример озвучивания текста с помощью WaveNet

[embedded content]

Фейковый репортаж известного комика и спортивного комментатора Джо Рогана, сгенерированный стартапом Dessa

В Facebook, разрабатывающем систему MelNet, пошли другим путем и предложили искусственному интеллекту поработать со спектрограммами. Исследователи утверждают, что их продукт хорошо воспроизводит тонкие последовательности, содержащиеся в голосе спикера, которые, как ни странно, практически невозможно описать словами, но легко уловить человеческим ухом. Для проверки этого утверждения можно прослушать образцы фраз, которые алгоритм произносит голосом известных людей. В частности, разработчики MelNet «синтезировали» Билла Гейтса, Стивена Хокинга, Салмана Хана, Стивена Вольфрама и еще нескольких известных персон (в категории «Selected Speakers» можно выбрать конкретного спикера и прослушать одну и ту же фразу в исполнении разных ораторов).

20190611-0058.jpeg (32 KB)

Озвучивание текста «that we mother nature thank you» на основании анализа спектрограммы

В качестве одного из ресурсов для анализа использовался 452-часовой набор аудио из известной программы TED. Остальные обучающие данные были взяты из аудиокниг, которые выбраны из-за «очень оживленной манеры» докладчиков, и, соответственно, максимальной сложности задачи. Несмотря на то, что короткие фразы звучат вполне правдоподобно, MelNet пока не умеет работать с эмоциональной наполненностью длинных текстов. Например, система не может создать драматический эффект или перепады вербального напряжения на протяжении абзаца или страницы текста.

Источник: nag.ru