18.10.2021

Нейросеть готова поговорить с нами Да так убедительно, что мы ее не узнаем

Текст Павел Иевлев

Исследователи из Чикагского университета оценили качество имитации человеческого голоса. Оказалось, нейросеть синтезирует его так, что обманывает и людей, и алгоритмы

Когда-то тест Тьюринга определял разумность системы по способности обмануть пользователя: «На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой». Увы, теперь бедный пользователь не может определить это даже в режиме общения голосом.

Авторы нового исследования решили выяснить, насколько хороши нейросети в синтезе голосов. Для этого была поставлена задача имитации голоса на основании публично доступных аудио или видеозаписей, а также возможность вживую пообщаться с человеком и записать речь. По условиям исследования можно было использовать публично доступные алгоритмы – SV2TTS и AutoVC, то есть, технология доступна буквально любому человеку.

Современный алгоритм подстраивается под определенный тембр и интонацию, полностью имитируя не просто человеческий голос вообще, а голос конкретного человека, со всеми его речевыми особенностями. Созданный голосовой паттерн так совершенен, при что разговоре с алгоритмом человек не мог отличить настоящий голос от поддельного в 50%. Системы голосовой идентификации обмануть еще проще – в WeChat удалось войти в 9 из 14, а Alexa вообще обманули в 100% случаев.

Ну, а пока ученые экспериментируют, жулики работают: