Александр Пономарёв

Текст

Канадские ученые из Университета Торонто представили нейросеть See-2-Sound для генерации звуков окружения по картинке или кадрам видеоролика

Разработанная исследователями модель машинного обучения не только создает подходящую дорожку, но и расставляет источники звука в пространстве для создания эффекта присутствия. See-2-Sound работает в несколько этапов. Сначала нейросеть получает изображение, анимацию или видеоролик, после чего анализирует источник.

Алгоритм пытается понять, какие объекты могут издавать такие звуки и на основе полученных данных генерирует саундтрек, причем для каждого источника создается собственная дорожка. Сгенерированные аудиодорожки расставляются в виртуальной комнате относительно пользователя, что создает объемное звучание и эффект присутствия в кадре.

На выходе у нейросети получается аудиофайл формата 5.1. Нейросеть можно установить по инструкции в репозитории или запустить в контейнере. Разработчики опубликовали текст работы и исходный код, а на сайте See-2-Sound доступны некоторые примеры. На платформе Hugging Face можно испытать работу нейросети на собственных входных данных.

Здесь мы рассказываем, что такое дипфейки и как они устроены:

Читать на ЦО.РФ

Что такое дипфейки И как они устроены

Миллионы лет эволюции приучили людей доверять зрению, и восклицание «глазам своим не верю!» еще недавно воспринималось как ироническое. Однако дипфейки учат нас критически относиться к увиденному. И по темпам обучения человечеству стоит постараться обогнать нейросети

Использованные источники: Unsplash