Нейросеть готова поговорить с нами Да так убедительно, что мы ее не узнаем

Когда-то тест Тьюринга определял разумность системы по способности обмануть пользователя: «На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой». Увы, теперь бедный пользователь не может определить это даже в режиме общения голосом.
Авторы нового исследования решили выяснить, насколько хороши нейросети в синтезе голосов. Для этого была поставлена задача имитации голоса на основании публично доступных аудио или видеозаписей, а также возможность вживую пообщаться с человеком и записать речь. По условиям исследования можно было использовать публично доступные алгоритмы – SV2TTS и AutoVC, то есть, технология доступна буквально любому человеку.
Современный алгоритм подстраивается под определенный тембр и интонацию, полностью имитируя не просто человеческий голос вообще, а голос конкретного человека, со всеми его речевыми особенностями. Созданный голосовой паттерн так совершенен, при что разговоре с алгоритмом человек не мог отличить настоящий голос от поддельного в 50%. Системы голосовой идентификации обмануть еще проще – в WeChat удалось войти в 9 из 14, а Alexa вообще обманули в 100% случаев.
Ну, а пока ученые экспериментируют, жулики работают:
Использованные источники:

