Александр Пономарёв

Текст

Ученые Санкт-Петербургского Федерального исследовательского центра РАН при помощи ИИ и машинного зрения научились распознавать речь по губам

Как сообщает пресс-служба РАН, исследователи разработали приложение для смартфона, которое распознает речь и считывает слова пользователя в буквальном смысле по губам — анализируя видеосигнал с камеры устройства. Программа анализирует информацию из двух источников для улучшения точности распознавания. Эксперименты показали, что это позволяет лучше понимать речь в шумных условиях.

Приложение действует по аналогии с принципом работы когнитивной системы человека, который при разговоре в шумном месте непроизвольно начинает обращать внимание на губы собеседника, пытаясь прочитать по губам информацию, которую он не расслышал. В основе приложения лежит нейросетевая модель, которую научили распознавать по аудиовизуальным сигналам несколько сотен распространенных команд.

Нейросеть способна воспринимать сигнал и автоматически принимать решение о том, какие данные при распознавании дадут максимальную точность. В ходе эксперимента точность распознавания команд только по визуальным эффектам составила 60-80%, в комбинации со звуковым сигналом — более 90%.

Здесь мы рассказываем про генеративно-состязательные нейросети:

Читать на ЦО.РФ

Верю не верю Как генеративно-состязательные нейросети (GAN) стали инструментом мошенников

Генеративно-состязательные нейросети (GAN) активно используют мошенники в своих манипуляциях для имитации чужой личности. Поэтому если кто-то из членов семьи неожиданно набрал вас по видеосвязи и срочно попросил помочь деньгами, не спешите открывать приложение банка. Перезвоните сами и проверьте: возможно, вы разговаривали с нейросетью-мошенником, которая ловко имитирует чужую личность

Использованные источники: Unsplash