Anthropic создала защиту от универсальных джейлбрейков для ИИ-моделей

Исследовательская команда Anthropic представила новый метод Constitutional Classifiers для защиты ИИ-моделей от универсальных джейлбрейков. В ходе тестирования 183 участника потратили более 3 000 часов на попытки взлома системы, но не смогли обойти защиту, несмотря на предложенное вознаграждение в 15 000 долларов.

Базовая версия Claude 3.5 Sonnet блокировала только 14% продвинутых джейлбрейк-атак. После внедрения Constitutional Classifiers эффективность защиты выросла до 95.6%, при этом количество ложных срабатываний увеличилось всего на 0.38%.

Система работает на основе «конституции» – списка принципов, определяющих разрешенный и запрещенный контент. Несмотря на повышение вычислительных затрат на 23.7%, технология показала впечатляющие результаты в борьбе с джейлбрейками при минимальном влиянии на обработку легитимных запросов.

С 3 по 10 февраля 2025 года Anthropic проводит публичное тестирование системы, предлагая энтузиастам попробовать взломать защищенную версию Claude 3.5 Sonnet. Результаты этого эксперимента будут использованы для дальнейшего усовершенствования технологии перед ее внедрением в производственные системы.

Источник новости и обложки: www.anthropic.com