Павел Иевлев

Текст

FAIR (подразделение Meta AI) выложила в открытый доступ код XLS-R – самообучающейся модели, выполняющей распознавание речи

Эта мультиязыковая самообучающаяся модель поддерживает 128 языков и показывает результаты, превосходящие все существующие системы. Она обучена более чем на 436 000 часах общедоступных записей речи разного жанра, таких, как записи судебных заседаний и аудиокниги. Анализ речи XLS-R включает более 2-х миллиардов параметров.

Помимо простого распознавания речи, модель также может быть задействована для перевода – XLS-R может переводить с английского на 21 другой язык. Автоматические переводы этой системы в большей степени совпадают с переводами, выполняемыми человеком, выполняющим ту же задачу, чем конкурирующие модели.

В процессе обучения выяснилось, что чем больше языков обучения, тем выше этого обучения эффективность (ранее такое наблюдалось при обучении иностранным языкам у людей).

Код модели доступен на Github.

Использованные источники: