20.09.2024

Ни один ИИ не безопасен Но некоторые лучше других

Текст Павел Иевлев

Anthropic позиционирует себя как лидера в области безопасности ИИ, и анализы подтверждают это

Исследования безопасности искусственного интеллекта показали, что ни одна из современных моделей больших языковых моделей (LLM) не является полностью защищенной от создания вредного контента, но модель Claude 3.5 от Anthropic оказалась лучшей среди протестированных. Британская компания Chatterbox Labs протестировала восемь популярных LLM, включая модели от Microsoft, Google и OpenAI, в рамках набора тестов AIMI, которые оценивают модели по таким критериям, как справедливость, безопасность и конфиденциальность.

Все протестированные модели были способны генерировать вредный контент, но Claude 3.5 от Anthropic проявил наибольшую устойчивость к таким атакам, демонстрируя способность отклонять вредоносные запросы или перенаправлять их. Тем не менее, даже лучшие модели можно «взломать» с помощью специальных запросов, что подтверждает необходимость дальнейшего развития систем защиты.

Anthropic использует уникальный подход к созданию безопасных моделей ИИ, включая методы «конституционного ИИ», который позволяет моделям обучаться самостоятельно через анализ этических принципов и следование им. Эта техника помогает моделям ИИ самостоятельно корректировать свое поведение в сложных ситуациях. В компании уверены, что их методы будут способствовать более безопасному развитию ИИ в будущем, но признают, что предстоит еще много работы для создания полностью защищенных систем.

Когда появится сильный искусственный интеллект: