Стартап CalypsoAI представил новый инструмент оценки безопасности языковых моделей — CalypsoAI Security Leaderboard. Компания, привлекшая более 38 миллионов долларов инвестиций, разработала специальную метрику CASI для комплексной оценки защищенности ИИ-систем.
В основе рейтинга лежит платформа Red-Team с библиотекой из 10 000 специальных промптов, которые тестируют уязвимости моделей. Система использует ИИ-агента для симуляции кибератак, адаптированных под конкретные языковые модели.
В первом рейтинге оценили 12 популярных языковых моделей. Лидером стала Claude 3.5 Sonnet от Anthropic с показателем CASI 96.25 баллов. За ней следуют Microsoft Phi4-14B (94.25) и Claude 3.5 Haiku (93.45). Интересно, что четвертое место досталось GPT-4 от OpenAI с существенно более низким результатом — всего 75.06 баллов.
Помимо основного показателя CASI, лидерборд также отслеживает соотношение риска к производительности и потенциальные финансовые потери от взлома. По словам CEO CalypsoAI Донхада Кейси, их Red-Team успешно находит уязвимости во всех современных моделях генеративного ИИ, что подчеркивает важность оценки рисков при внедрении ИИ-решений.
Источник новости и обложки: siliconangle.com