Павел Иевлев

Текст

Anthropic позиционирует себя как лидера в области безопасности ИИ, и анализы подтверждают это

Исследования безопасности искусственного интеллекта показали, что ни одна из современных моделей больших языковых моделей (LLM) не является полностью защищенной от создания вредного контента, но модель Claude 3.5 от Anthropic оказалась лучшей среди протестированных. Британская компания Chatterbox Labs протестировала восемь популярных LLM, включая модели от Microsoft, Google и OpenAI, в рамках набора тестов AIMI, которые оценивают модели по таким критериям, как справедливость, безопасность и конфиденциальность.

Все протестированные модели были способны генерировать вредный контент, но Claude 3.5 от Anthropic проявил наибольшую устойчивость к таким атакам, демонстрируя способность отклонять вредоносные запросы или перенаправлять их. Тем не менее, даже лучшие модели можно «взломать» с помощью специальных запросов, что подтверждает необходимость дальнейшего развития систем защиты.

Anthropic использует уникальный подход к созданию безопасных моделей ИИ, включая методы «конституционного ИИ», который позволяет моделям обучаться самостоятельно через анализ этических принципов и следование им. Эта техника помогает моделям ИИ самостоятельно корректировать свое поведение в сложных ситуациях. В компании уверены, что их методы будут способствовать более безопасному развитию ИИ в будущем, но признают, что предстоит еще много работы для создания полностью защищенных систем.

Когда появится сильный искусственный интеллект:

Читать на ЦО.РФ

Сильный искусственный интеллект   Что это такое и когда появится

В конце 2023 года весь мир заговорил о сильном искусственном интеллекте. Поводом стало загадочное увольнение главы OpenAI Сэма Альтмана с последующим восстановлением в должности через пять дней. По слухам, одной из причин стал прорыв в создании машинного разума, ставящий под угрозу все человечество. Футуролог Данила Медведев помог «Цифровому океану» оценить шансы разработчиков на создание сильного ИИ

Использованные источники: