Anthropic представила Petri (Parallel Exploration Tool for Risky Interactions) — открытый инструмент для автоматизированного тестирования безопасности ИИ-моделей. Система развертывает автоматических агентов, которые проводят многоходовые диалоги с целевой моделью через 111 различных сценариев, имитируя взаимодействие с пользователями и инструментами. Это как виртуальный полигон для проверки того, как ИИ поведет себя в потенциально опасных ситуациях — от обмана до попыток самосохранения.
В тестировании приняли участие 14 передовых моделей, включая GPT-5 и Claude Sonnet 4.5. По итогам оценки Claude Sonnet 4.5 показал наименьший уровень риска среди всех протестированных систем, немного опередив GPT-5. Инструмент проверяет семь ключевых типов проблемного поведения: обман, угодничество, поощрение заблуждений пользователей, выполнение вредоносных запросов, самосохранение, стремление к власти и взлом системы вознаграждений.

Особенно интересным оказался феномен «вистлблоуинга» — когда ИИ самостоятельно пытается сообщить о предполагаемых нарушениях в организации. Модели проявляли такое поведение, даже когда «нарушения» были абсолютно безвредными — например, сброс чистой воды в океан или добавление сахара в конфеты. Это показывает, что модели больше реагируют на нарративные паттерны, чем на реальную опасность ситуации.
Создатели подчеркивают, что текущая версия содержит лишь 111 сценариев — это капля в море потенциальных проблем, которые могут возникнуть у ИИ-систем. Инструмент уже используют исследователи из UK AI Security Institute, MATS и Anthropic Fellows. Petri доступен на GitHub и поддерживает основные API моделей — теперь любой исследователь может протестировать гипотезы о поведении ИИ буквально за несколько минут.
Источник новости и обложки: www.anthropic.com