Поэзия как джейлбрейк: исследователи обошли защиту 25 LLM с успехом 62%

Поэзия как джейлбрейк: исследователи обошли защиту 25 LLM с успехом 62%

Исследователи из Sapienza University of Rome и Sant’Anna School обнаружили, что поэтическая форма работает как универсальный метод джейлбрейка больших языковых моделей. 20 вручную созданных стихотворений с вредоносными запросами достигли средней успешности атак 62% на 25 моделях. Некоторые провайдеры показали успешность более 90%.

Атаки тестировались на моделях от 9 провайдеров: Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta*, xAI и Moonshot AI. Все атаки были строго единичными, без итеративной адаптации или управления диалогом. Промпты охватывали четыре домена безопасности: опасности CBRN, сценарии потери контроля, вредоносные манипуляции и кибератаки.

Для проверки гипотезы исследователи преобразовали 1200 вредоносных промптов из бенчмарка MLCommons в стихотворную форму через стандартизированный мета-промпт. Поэтические варианты показали успешность атак до 3 раз выше, чем прозаические эквиваленты, на всех протестированных провайдерах. Выходные данные оценивались ансамблем из трех моделей-судей с открытыми весами, при этом 5% выборки проверялись людьми для валидации.

Результаты показали, что поэтическая форма обходит защитные механизмы во всех доменах рисков. Наивысшую успешность атак показали промпты категории Cyber Offense с инъекцией кода — 84%. Промпты категории Privacy продемонстрировали рост успешности с 8.07% до 52.78%, а CBRN-промпты увеличились на 38.32 процентных пункта.

Исследование выявило парадокс: меньшие модели показали более высокую устойчивость к поэтическим атакам, чем крупные модели того же семейства. GPT-5-Nano продемонстрировал 0% успешности атак, в то время как GPT-5 достиг 10%. Исследователи предполагают, что меньшие модели имеют ограниченную способность декодировать поэтическую структуру, что снижает их уязвимость к этому типу джейлбрейка.

*Компании и продукты, признанные экстремистскими и запрещены в РФ.

Источник новости и обложки: arxiv.org


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров