18.03.2024

Что такое «отравление данных» Методы защиты от атак Data Poisoning

Текст Сергей Апресов

Разработчик — художнику: «Я возьму твою картину из интернета и обучу на ней нейросеть. Что ты мне сделаешь?» Художник — разработчику: «Я сломаю твою нейросеть, и ты потеряешь миллионы долларов. Для этого мне даже не нужно быть хакером!» Благодаря новому «супероружию» дискуссия об авторском праве перешла в партизанскую войну

Большая языковая модель GPT‑2 обучалась на текстах, взятых с 8 миллионов веб-страниц, следует из официальной документации создателя нейросети OpenAI. Размер датасета, на котором тренировались последующие версии ИИ, от GPT‑3 до GPT‑5, каждый раз увеличивался на порядки, но точные цифры OpenAI давно не раскрывает. Это неудивительно: у большинства текстов есть живые авторы, и многие из них недовольны тем, что технологический гигант без разрешения использует результаты их интеллектуального труда.

Соцсеть Reddit через суд потребовала от OpenAI компенсации за то, что разработчик использовал посты ее пользователей для обучения нейросети. В случае, если иск не будет удовлетворен, Reddit обещает закрыть свою платформу от поисковых роботов, не побоясь 45-процентного падения посещаемости.

Пока большие корпорации судятся, простые авторы вдруг получили от ученых супероружие для защиты своих прав. Благодаря ему художник с помощью одной картинки может нанести AI-корпорации многомиллиардный ущерб, даже не нарушив закон.

Супероружие

Губительный для нейросетей инструмент называется Nightshade. Его разработала группа ученых Чикагского университета под руководством профессора Бена Чжао. Сценарий использования Nightshade такой: нарисовав картину, сделав коллаж или фотографию, автор загружает файл на сайт сервиса. Обратно он получает картинку, внешне не отличающуюся от оригинала. Ее можно смело публиковать в интернете, не боясь (а скорее даже надеясь), что файл попадет в датасет для машинного обучения.

«Съев» некоторое количество картинок, обработанных Nightshade, искусственный интеллект начинает вести себя странно: собак определяет как кошек, а в автомобилях узнает коров. Самое интересное — это количество «отравленных» картинок, с помощью которых можно привести нейросеть в негодность. Оно невероятно мало. Так, ученые протестировали свой алгоритм «отравления» данных на графическом ИИ с открытым кодом Stable Diffusion. 50 поврежденных образцов (из миллиардов!) заставляют нейросеть видеть в собаке многоглазое чудовище, а 100 изображений превращают ее в кота.

Ранее группа Бена Чжао разработала похожий инструмент Glaze, предназначенный для маскировки персонального стиля художников. Нейросеть, получившая картинку от Glaze, принимает кубизм за аниме, а концептуальный коллаж за абстрактную геометрию. Ученые планируют объединить Glaze и Nightshade в один продукт, который позволит авторам изображений защитить свои работы от попадания в датасеты для ИИ.

Сравнительно небольшого количества зараженных образцов достаточно, чтобы вывести из строя большую нейросеть

Подобные инструменты могут быть нацелены на любую нейросеть — неважно, работает она с изображениями, текстами или иными данными. Потенциальный ущерб колоссален. К примеру, обучение GPT‑3 обошлось OpenAI в 16 миллионов долларов. Создать датасет, необходимый для тренировки такой большой модели, невозможно без заимствования материалов из интернета. И если среди них попадется десяток-другой «отравленных» образцов, фарш нельзя будет провернуть назад: исправить ошибки в уже обученной нейросети невозможно.

Рецепты ядов

Собственно, слово «отравленные» можно писать без кавычек. Атаки такого типа называются Data Poisoning (отравление данных). На протяжении нескольких лет они активно исследуются учеными. Так, в 2017 специалисты Калифорнийского университета в Беркли продемонстрировали графическую нейросеть, которая в результате атаки стала неверно определять расы людей. В 2018-м программисты Google в порядке эксперимента отравили интеллектуальный спам-фильтр компании: письма, написанные живыми людьми по делу, нейросеть стала отправлять в «нежелательную почту».

Атака Data Poisoning основывается на том, что люди и машины воспринимают данные по-разному. Лучше всего объяснить это на примере изображений. Чтобы обучить нейросеть, ей требуется предоставить размеченный набор данных. Разметкой занимаются люди: они просматривают фотографии и отмечают, что на них изображено. К примеру, если нужно научить ИИ отличать собак от кошек, люди сперва должны просмотреть множество фотографий животных и подписать, где изображена собака, а где кошка.

Люди воспринимают фотографию на уровне признаков. Они смотрят на форму морды и ушей, пропорции тела, расположение глаз. Машина воспринимает изображение на уровне пикселей. Для нее что кошка, что собака — это 262 144 числовых параметров (как правило, для обучения используют графические файлы с разрешением 512×512 точек). Суть машинного обучения заключается в том, чтобы программа смогла выделять признаки из пикселей. Этот процесс призвана нарушить атака Data Poisoning.

Nightshade накладывает на изображение маску: слегка изменяет ряд пикселей так, чтобы человек ничего не заметил, но машина рассмотрела в картинке неверные признаки. Логика подсказывает, что сделать такую маску можно, только заранее зная механизм выделения признаков нейросетью. Это отчасти верно, и существует несколько способов этот механизм узнать.

Первый — самый прямой: получить доступ к коду модели и разобраться, как работает ее обучение. Модели с открытым кодом особенно уязвимы перед атаками такого рода.

Ни случайный зритель, ни профессиональный разметчик данных не смогут выявить отравленное изображение на глаз

Второй способ — подобрать алгоритм составления маски: многократно скармливать готовой нейросети разные варианты, пока не получишь от нее искомый (искаженный) результат. Звучит как что-то сложное и долгое, если не учитывать, что данную задачу можно поручить алгоритму или ИИ. Робот с ней легко справится.

Третий способ — самый интересный: не делать вообще ничего. Эксперименты показали, что маски, созданные для одной графической модели, повреждают и другие — с меньшей, но отнюдь не нулевой эффективностью. Видимо, у нейросетей мысли сходятся, пусть мы, люди, и не можем их прочитать.

Защита от темных искусств

Противодействие отравлению данных стало обязательной частью стратегии кибербезопасности для всех предприятий, так или иначе использующих в своей работе ИИ. Существует несколько методов защиты от атак Data Poisoning.

Обфускация (запутывание) данных помогает сделать их невосприимчивыми к отравляющим атакам. Речь идет о добавлении шумов или шифровании датасета. Метод применяется к заведомо чистым и качественным данным, полученным из надежных источников. Он защищает от «внутренних» атак, когда злоумышленник добавляет «отраву» в датасет непосредственно перед началом обучения модели. Обфускация непроверенных данных, собранных в интернете открытым поиском, бессмысленна.

Валидация данных — это проверка всех образцов, используемых для обучения, на достоверность, полноту и надежность источника. Зараженные данные может обнаружить ИИ, настроенный на выявление нехарактерных паттернов, закономерностей информации. Данный метод может выручить создателей крупных моделей, если они смогут двигаться на шаг впереди хакеров в умении распознавать маски.

Охрана исходного кода модели призвана не позволить злоумышленникам узнать механизм выделения признаков. Высокий уровень культуры кибербезопасности на предприятии помогает защитить и модель, и датасет от внутреннего вмешательства. К сожалению, моделям с открытым исходным кодом данный вид защиты недоступен.

Мониторинг модели в процессе обучения, автоматизированный и ручной, позволяет вовремя обнаружить аномалию, немедленно остановить процедуру и откатить к тому моменту, когда в процесс вмешались испорченные данные.

Кому станет хуже

Защита прав авторов может быть хорошей идеей. Однако в атаках Data Poisoning заключена колоссальная вредоносная сила. Джефф Крум по прозвищу «Парень из безопасности» (the Security Guy), ведущий видеоблога IBM Technology, приводит несколько примеров. Для начала почему бы не науськать ChatGPT выдавать рецепт токсичного вещества вместо моющего средства? Люди доверяют чат-боту от OpenAI, ведь он выдает стройные и логичные ответы на любые вопросы. Еще вариант: подменить данные человека в системе распознавания лиц. Какие у этого могут быть последствия?

Большие графические модели обучают на миллиардах фотографий из интернета. Сотня-другая зараженных образцов — капля в море

Очень серьезные. Вероятно, уже в 2025 году в ЕС вступит в силу закон о регулировании применения ИИ. Документ запрещает полиции использовать системы распознавания лиц и эмоций, применять предиктивную аналитику для профилактики правонарушений. Однако для некоторых случаев, таких как угроза теракта или расследование тяжкого преступления, делается исключение: получается, нельзя, но если очень надо, то можно.

Реально ли с помощью Data Poisoning убедить нейросеть, что некий человек является другим человеком? Вероятно, это не сложнее, чем подменить собаку кошкой.

Читайте также простое объяснение, как работают нейросети:

Использованные источники: Материал опубликован в журнале «Цифровой океан» № 21 (январь-февраль), 2024, Oleg Marushin / Dreamstime.com / Legion-media, Yulia Ryabokon / Dreamstime.com / Legion-media (x2), Gpgroup / Dreamstime.com / Legion-media, Shawn Shan, Wenxin Ding, Josephine Passananti, Haitao Zheng, Ben Y. Zhao (2023) “Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models” ArXiv, abs/2310.13828, Mykhailo Polenok / Dreamstime.com / Legion-media, Shawn Shan, Wenxin Ding, Josephine Passananti, Haitao Zheng, Ben Y. Zhao (2023) “Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models” ArXiv, abs/2310.13828, Anna Santevaia / Dreamstime.com / Legion-media, Volodymyr Konko / Dreamstime.com / Legion-media, Shawn Shan, Wenxin Ding, Josephine Passananti, Haitao Zheng, Ben Y. Zhao (2023) “Prompt-Specific Poisoning Attacks on Text-to-Image Generative Models” ArXiv, abs/2310.13828