Нейросеть научили генерировать звуки По изображению или видеоролику
Разработанная исследователями модель машинного обучения не только создает подходящую дорожку, но и расставляет источники звука в пространстве для создания эффекта присутствия. See-2-Sound работает в несколько этапов. Сначала нейросеть получает изображение, анимацию или видеоролик, после чего анализирует источник.
Алгоритм пытается понять, какие объекты могут издавать такие звуки и на основе полученных данных генерирует саундтрек, причем для каждого источника создается собственная дорожка. Сгенерированные аудиодорожки расставляются в виртуальной комнате относительно пользователя, что создает объемное звучание и эффект присутствия в кадре.
На выходе у нейросети получается аудиофайл формата 5.1. Нейросеть можно установить по инструкции в репозитории или запустить в контейнере. Разработчики опубликовали текст работы и исходный код, а на сайте See-2-Sound доступны некоторые примеры. На платформе Hugging Face можно испытать работу нейросети на собственных входных данных.
Здесь мы рассказываем, что такое дипфейки и как они устроены:
Использованные источники: Unsplash