Александр Пономарёв

Текст

Корпорация Microsoft разработала инструмент для имитации любого человеческого голоса, которому достаточно образца длиной три секунды

Модель разработанного искусственного интеллекта получила название VALL-E. Инструмент способен имитировать любой человеческий голос по отрезку записи длиной всего три секунды. Как утверждают разработчики, модель способна генерировать аудиозапись с разговором человека на заданную тему с высокой точностью — сохраняя даже его эмоциональный тон.

Технология VALL-E представляет собой нейронную языковую модель, в основе которой лежит EnCodec. Алгоритм разделяет при помощи нее голос человека на отдельные компоненты — лексемы. Затем нейросеть сопоставляет их с соответствующими голосами в своих обучающих данных для генерации новых фраз.

Однако несмотря на то, что Microsoft представила эту языковую модель на GitHub, она не опубликовала код VALL-E в открытом доступе. Корпорация уверена, что риск некорректного использования модели довольно высок — к примеру, с ее помощью можно подменять идентификацию голоса или даже выдавать себя за конкретного актера.

Apple начала продавать озвученные искусственным интеллектом книги:

Использованные источники: