ИИ научили имитировать голос любого человека. По трехсекундному отрезку записи

ИИ научили имитировать голос любого человека По трехсекундному отрезку записи

Текст Александр Пономарёв

Корпорация Microsoft разработала инструмент для имитации любого человеческого голоса, которому достаточно образца длиной три секунды

Модель разработанного искусственного интеллекта получила название VALL-E. Инструмент способен имитировать любой человеческий голос по отрезку записи длиной всего три секунды. Как утверждают разработчики, модель способна генерировать аудиозапись с разговором человека на заданную тему с высокой точностью — сохраняя даже его эмоциональный тон.

Технология VALL-E представляет собой нейронную языковую модель, в основе которой лежит EnCodec. Алгоритм разделяет при помощи нее голос человека на отдельные компоненты — лексемы. Затем нейросеть сопоставляет их с соответствующими голосами в своих обучающих данных для генерации новых фраз.

Однако несмотря на то, что Microsoft представила эту языковую модель на GitHub, она не опубликовала код VALL-E в открытом доступе. Корпорация уверена, что риск некорректного использования модели довольно высок — к примеру, с ее помощью можно подменять идентификацию голоса или даже выдавать себя за конкретного актера.

Apple начала продавать озвученные искусственным интеллектом книги: