Anthropic выпустила Petri — open-source инструмент для автоматического аудита безопасности ИИ

Anthropic представила Petri (Parallel Exploration Tool for Risky Interactions) — открытый инструмент для автоматизированного тестирования безопасности ИИ-моделей. Система развертывает автоматических агентов, которые проводят многоходовые диалоги с целевой моделью через 111 различных сценариев, имитируя взаимодействие с пользователями и инструментами. Это как виртуальный полигон для проверки того, как ИИ поведет себя в потенциально опасных ситуациях — от обмана до попыток самосохранения.

В тестировании приняли участие 14 передовых моделей, включая GPT-5 и Claude Sonnet 4.5. По итогам оценки Claude Sonnet 4.5 показал наименьший уровень риска среди всех протестированных систем, немного опередив GPT-5. Инструмент проверяет семь ключевых типов проблемного поведения: обман, угодничество, поощрение заблуждений пользователей, выполнение вредоносных запросов, самосохранение, стремление к власти и взлом системы вознаграждений.

Исследователи предоставляют Петри список стартовых инструкций, нацеленных на сценарии и модели поведения, которые они хотят протестировать. Затем Петри обрабатывает каждую стартовую инструкцию параллельно. Для каждой инструкции агент-аудитор составляет план и взаимодействует с целевой моделью в цикле использования инструментов. В конце судья оценивает каждую из получившихся транскрипций по нескольким критериям, чтобы исследователи могли быстро находить и фильтровать наиболее интересные из них.

Особенно интересным оказался феномен «вистлблоуинга» — когда ИИ самостоятельно пытается сообщить о предполагаемых нарушениях в организации. Модели проявляли такое поведение, даже когда «нарушения» были абсолютно безвредными — например, сброс чистой воды в океан или добавление сахара в конфеты. Это показывает, что модели больше реагируют на нарративные паттерны, чем на реальную опасность ситуации.

Создатели подчеркивают, что текущая версия содержит лишь 111 сценариев — это капля в море потенциальных проблем, которые могут возникнуть у ИИ-систем. Инструмент уже используют исследователи из UK AI Security Institute, MATS и Anthropic Fellows. Petri доступен на GitHub и поддерживает основные API моделей — теперь любой исследователь может протестировать гипотезы о поведении ИИ буквально за несколько минут.

Источник новости и обложки: www.anthropic.com


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров