Самообучающаяся модель распознает речь на 128 языках Ее код выложен в открытый доступ

Эта мультиязыковая самообучающаяся модель поддерживает 128 языков и показывает результаты, превосходящие все существующие системы. Она обучена более чем на 436 000 часах общедоступных записей речи разного жанра, таких, как записи судебных заседаний и аудиокниги. Анализ речи XLS-R включает более 2-х миллиардов параметров.
Помимо простого распознавания речи, модель также может быть задействована для перевода – XLS-R может переводить с английского на 21 другой язык. Автоматические переводы этой системы в большей степени совпадают с переводами, выполняемыми человеком, выполняющим ту же задачу, чем конкурирующие модели.
В процессе обучения выяснилось, что чем больше языков обучения, тем выше этого обучения эффективность (ранее такое наблюдалось при обучении иностранным языкам у людей).
Код модели доступен на Github.
Использованные источники:
