SberDevices представили новый инструмент распознавания речи Его назвали GigaAM
SberDevices представили GigaAM, новое семейство акустических моделей для распознавания речи и эмоций в русскоязычном контенте. GigaAM — Audio Foundation Model — была предварительно обучена на огромной коллекции русскоязычной речи и может быть адаптирована под широкий спектр задач обработки звука.
В состав GigaAM входит несколько моделей, включая GigaAM-CTC для распознавания русскоязычных запросов и GigaAM-Emo для определения эмоций. Оценка качества GigaAM-CTC показала, что модель допускает на 20–35% меньше ошибок в словах в коротких запросах по сравнению с другими популярными решениями. GigaAM-Emo, в свою очередь, продемонстрировала лучшие результаты на крупнейшем датасете Dusha среди всех известных моделей.
Модели GigaAM доступны в открытом доступе под некоммерческой лицензией, так что их можно смело использовать в дипломных работах и научных статьях. Для бизнеса улучшенные версии моделей доступны на платформе SaluteSpeech API, а физические лица могут использовать их в приложении SaluteSpeech App.
Как работают нейросети:
Использованные источники: