Нейросеть научили читать по губам Для повышения точности распознавания

Как сообщает пресс-служба РАН, исследователи разработали приложение для смартфона, которое распознает речь и считывает слова пользователя в буквальном смысле по губам — анализируя видеосигнал с камеры устройства. Программа анализирует информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что это позволяет лучше понимать речь в шумных условиях.
Приложение действует по аналогии с принципом работы когнитивной системы человека, который при разговоре в шумном месте непроизвольно начинает обращать внимание на губы собеседника, пытаясь прочитать по губам информацию, которую он не расслышал. В основе приложения лежит нейросетевая модель, которую научили распознавать по аудиовизуальным сигналам несколько сотен распространенных команд.

Нейросеть способна воспринимать сигнал и автоматически принимать решение о том, какие данные при распознавании дадут максимальную точность. В ходе эксперимента точность распознавания команд только по визуальным эффектам составила 60-80%, в комбинации со звуковым сигналом — более 90%.
Здесь мы рассказываем про генеративно-состязательные нейросети:
Использованные источники: Unsplash
