Павел Иевлев

Текст

Нейросеть CLIP от OpenAI демонстрирует новый «интеллектуальный» подход к работе с изображениями. Ее принцип работы далеко ушел от привычного для таких задач deep learning

Нейросетей, работающих с графическими объектами, довольно много. Находить изображения, различая их по классам, – востребованная задача. Обычно они используют deep learning – обучение алгоритмов на примерах. Несколько упрощая – чтобы система могла найти изображение кота, ей сначала придется “скормить” миллион котофоточек, а потом поправлять каждый раз, когда она ошибается. Через некоторое время (миллионы проб и ошибок) она выработает свое машинное понимание класса «Котики». Тогда ей легче будет понять класс «Собачки» – это уже transfer learning, применение алгоритма от одной задачи к другой задаче.

CLIP от OpenAI обучается иначе – на связке «текст-картинка». Учится сопоставлять изображения с описаниями. Фактически, она является фреймворком взаимной тренировки двух нейронных сетей, текстовой и визуальной, где они попеременно являются друг для друга генератором и дискриминатором.

Этот подход оказался неожиданно эффективным – CLIP умеет распознавать изображения без примеров, на основе одних описаний. Технология интересна скорее перспективой, чем практическим применением – это еще один шаг к настоящему мыслящему ИИ.

Использованные источники: Изображение, сгенерированное CLIP+VQGAN