30.12.2023

Чат-бот научили взламывать другие чат-боты С помощью метода Masterkey

Текст Александр Пономарёв

Сингапурские ученые из Наньянского технологического университета разработали метод взлома чат-ботов с искусственным интеллектом

Чтобы новый чат-бот смог взламывать другие чат-боты, его обучили созданию подсказок, которые позволяют обходить их защиту. Для этого использован двойной метод взлома большой языковой модели, получивший название Masterkey. Ученые провели реверс-инжиниринг процесса выявления вредоносных запросов языковыми моделями и выяснили, как устроена их защита.

Используя эту информацию, они научили языковые модели автоматически обучаться и предлагать подсказки, которые позволяют обходить защиту других моделей. Так можно создать модель для взлома, которая будет в автономном режиме адаптироваться к новым условиям и создавать запросы для взлома даже после того, как разработчики внесут исправления в свои языковые модели.

После проведения серии испытаний на реальных языковых моделях и убедившись, что метод действительно работает, сингапурцы поставили в известность разработчиков моделей и доложили им обо всех выявленных уязвимостях. Исследователи считают, что их разработка должна помочь компаниям определить слабые стороны своих чат-ботов, чтобы принять все меры по их защите от хакеров.

Здесь мы рассказываем, как создать собственного чат-бота: