Павел Иевлев

Текст

Исследователи из Чикагского университета оценили качество имитации человеческого голоса. Оказалось, нейросеть синтезирует его так, что обманывает и людей, и алгоритмы

Когда-то тест Тьюринга определял разумность системы по способности обмануть пользователя: «На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой». Увы, теперь бедный пользователь не может определить это даже в режиме общения голосом.

Авторы нового исследования решили выяснить, насколько хороши нейросети в синтезе голосов. Для этого была поставлена задача имитации голоса на основании публично доступных аудио или видеозаписей, а также возможность вживую пообщаться с человеком и записать речь. По условиям исследования можно было использовать публично доступные алгоритмы – SV2TTS и AutoVC, то есть, технология доступна буквально любому человеку.

Современный алгоритм подстраивается под определенный тембр и интонацию, полностью имитируя не просто человеческий голос вообще, а голос конкретного человека, со всеми его речевыми особенностями. Созданный голосовой паттерн так совершенен, при что разговоре с алгоритмом человек не мог отличить настоящий голос от поддельного в 50%. Системы голосовой идентификации обмануть еще проще – в WeChat удалось войти в 9 из 14, а Alexa вообще обманули в 100% случаев.

Ну, а пока ученые экспериментируют, жулики работают:

Читать на ЦО.РФ

Киберпреступники обманули банк на 35 миллионов долларов Подделав голос директора при помощи нейросети

Неизвестные мошенники сумели при помощи нейросети клонировать голос директора банка и в результате разговора завладеть обманным путем суммой в 35 миллионов долларов

Использованные источники: