Microsoft запустила ExCyTIn-Bench — бенчмарк для тестирования ИИ в кибербезопасности

Microsoft запустила ExCyTIn-Bench — бенчмарк для тестирования ИИ в кибербезопасности

Microsoft представила ExCyTIn-Bench — открытый инструмент для оценки ИИ-систем в реальных сценариях кибербезопасности. В отличие от предыдущих тестов, которые проверяли знание теории, новый бенчмарк моделирует работу в настоящем центре кибербезопасности с 57 таблицами логов из Microsoft Sentinel и связанных сервисов.

Для руководителей IT и специалистов по безопасности ExCyTIn-Bench предлагает объективный способ оценки ИИ-возможностей. Инструмент проверяет не просто точность ответов, а способность ИИ расследовать, адаптироваться и объяснять свои выводы при столкновении с реальными киберугрозами. Microsoft использует этот фреймворк внутри компании для усиления своих ИИ-функций безопасности.

Ключевое отличие от традиционных бенчмарков — отказ от тестов с множественным выбором в пользу инновационной методологии генерации вопросов из графов расследования угроз. ИИ-агенты работают в контролируемой среде Azure SOC, где они запрашивают живые таблицы логов, переходят между источниками данных и планируют многоэтапные расследования.

Последние результаты показывают значительный прогресс моделей: GPT-5 (High Reasoning) лидирует с 56.2% средней награды, превосходя предыдущие модели. Меньшие модели с эффективным цепочечным рассуждением, такие как GPT-5-mini, теперь конкурируют с более крупными моделями. При этом снижение настроек рассуждения в GPT-5 падает производительность почти на 19%, подчеркивая важность глубокого пошагового анализа.

ExCyTIn-Bench доступен как открытый проект на GitHub, приглашая разработчиков моделей и команды безопасности к сотрудничеству. Инструмент предоставляет детализированные пошаговые сигналы вознаграждения для каждого исследовательского действия, помогая организациям понять не только что может делать модель, но и как она приходит к своим выводам — критически важно для доверия и соответствия требованиям.

Источник новости и обложки: www.microsoft.com


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров