Нейросеть слушает птиц. И учится различать их по голосам

Нейросеть слушает птиц И учится различать их по голосам

Текст Павел Иевлев

Google Research разработал алгоритм, позволяющий ИИ различать голоса разных птиц

В последние годы автономные записывающие устройства (autonomous recording units, ARU) позволили записать тысячи часов птичьего пения. Но орнитологи все равно недовольны – прослушать их вручную практически невозможно, тем более что «специалист по пению птиц» – не самая массовая специальность. Однако подход, основанный на машинном обучении (ML), может значительно сократить объем экспертной оценки, необходимой для понимания среды обитания.

Задача оказалась сложной даже для продвинутого ИИ, потому что птицы часто поют одновременно, особенно во время «рассветного хора», когда они наиболее активны. При этом на записях всегда присутствуют другие звуки: ветер, насекомые и так далее. Чтобы решить проблему обучения моделей ML автоматическому разделению аудиозаписей без доступа к примерам изолированных звуков, ученые предложили новый неконтролируемый метод, называемый смешанным инвариантным обучением (MixIT). MixIT учится разделять одноканальные записи на несколько отдельных дорожек и может быть полностью обучен работе с шумными записями. Разделение звука с помощью новой модели MixIT улучшило производительность классификатора. Разделение было успешным для идентификации тихих и фоновых птиц, а также во многих случаях помогало при наложении вокализаций.

В общем, использование такой технологии не только для птичек буквально напрашивается.

Использованные источники: