ИИ научили имитировать голос любого человека По трехсекундному отрезку записи
Модель разработанного искусственного интеллекта получила название VALL-E. Инструмент способен имитировать любой человеческий голос по отрезку записи длиной всего три секунды. Как утверждают разработчики, модель способна генерировать аудиозапись с разговором человека на заданную тему с высокой точностью — сохраняя даже его эмоциональный тон.
Технология VALL-E представляет собой нейронную языковую модель, в основе которой лежит EnCodec. Алгоритм разделяет при помощи нее голос человека на отдельные компоненты — лексемы. Затем нейросеть сопоставляет их с соответствующими голосами в своих обучающих данных для генерации новых фраз.
Однако несмотря на то, что Microsoft представила эту языковую модель на GitHub, она не опубликовала код VALL-E в открытом доступе. Корпорация уверена, что риск некорректного использования модели довольно высок — к примеру, с ее помощью можно подменять идентификацию голоса или даже выдавать себя за конкретного актера.
Apple начала продавать озвученные искусственным интеллектом книги:
Использованные источники: