Павел Иевлев

Текст

SberDevices разработали GigaAM, новую акустическую модель с открытым кодом

SberDevices представили GigaAM, новое семейство акустических моделей для распознавания речи и эмоций в русскоязычном контенте. GigaAM Audio Foundation Model — была предварительно обучена на огромной коллекции русскоязычной речи и может быть адаптирована под широкий спектр задач обработки звука.

В состав GigaAM входит несколько моделей, включая GigaAM-CTC для распознавания русскоязычных запросов и GigaAM-Emo для определения эмоций. Оценка качества GigaAM-CTC показала, что модель допускает на 2035% меньше ошибок в словах в коротких запросах по сравнению с другими популярными решениями. GigaAM-Emo, в свою очередь, продемонстрировала лучшие результаты на крупнейшем датасете Dusha среди всех известных моделей.

Модели GigaAM доступны в открытом доступе под некоммерческой лицензией, так что их можно смело использовать в дипломных работах и научных статьях. Для бизнеса улучшенные версии моделей доступны на платформе SaluteSpeech API, а физические лица могут использовать их в приложении SaluteSpeech App.

Как работают нейросети:

Читать на ЦО.РФ

Как работают нейросети Простое объяснение в картинках

Принцип работы нейронной сети пришел в программирование из биологии. Пионерами нейросетей были не столько программисты, сколько нейрофизиологи и психологи. «Цифровой океан» разобрался, как работают нейросети — и в каком-то смысле человеческий мозг.

Использованные источники: