Создана новая нейросеть для классификации изображения Она умеет как находить картинки по описанию, так и генерировать собственные
Нейросетей, работающих с графическими объектами, довольно много. Находить изображения, различая их по классам, – востребованная задача. Обычно они используют deep learning – обучение алгоритмов на примерах. Несколько упрощая – чтобы система могла найти изображение кота, ей сначала придется “скормить” миллион котофоточек, а потом поправлять каждый раз, когда она ошибается. Через некоторое время (миллионы проб и ошибок) она выработает свое машинное понимание класса «Котики». Тогда ей легче будет понять класс «Собачки» – это уже transfer learning, применение алгоритма от одной задачи к другой задаче.
CLIP от OpenAI обучается иначе – на связке «текст-картинка». Учится сопоставлять изображения с описаниями. Фактически, она является фреймворком взаимной тренировки двух нейронных сетей, текстовой и визуальной, где они попеременно являются друг для друга генератором и дискриминатором.
Этот подход оказался неожиданно эффективным – CLIP умеет распознавать изображения без примеров, на основе одних описаний. Технология интересна скорее перспективой, чем практическим применением – это еще один шаг к настоящему мыслящему ИИ.
Использованные источники: Изображение, сгенерированное CLIP+VQGAN