Anthropic представила Claude Sonnet 4.5 — новую языковую модель, которая побила все рекорды в области программирования. На бенчмарке SWE-bench Verified, который тестирует реальные навыки написания кода, модель показала результат 77.2%, что значительно превосходит конкурентов. При этом цена остается прежней — 3 доллара за миллион входящих токенов и 15 долларов за исходящие.
Особенно впечатляют возможности модели по управлению компьютером. На OSWorld — бенчмарке для реальных компьютерных задач — Sonnet 4.5 достигла 61.4%, тогда как предыдущая версия четыре месяца назад показывала лишь 42.2%. Модель способна поддерживать фокус на сложных многоэтапных задачах более 30 часов подряд, что открывает новые возможности для автономной работы ИИ-агентов.

Среди клиентов модель уже показала впечатляющие результаты. Cursor сообщает о значительных улучшениях в долгосрочных задачах программирования, а один из пользователей отметил снижение ошибок при редактировании кода с 9% до 0%. Для системы безопасности Hai среднее время обработки уязвимостей сократилось на 44%, а точность выросла на 25%.
Anthropic также выпустила Claude Agent SDK — инфраструктуру, которая использовалась для создания Claude Code. Разработчики получили те же инструменты, что применяет сама компания для создания своих продуктов. В дополнение к этому появилась экспериментальная функция \»Imagine with Claude\», где ИИ генерирует программное обеспечение в реальном времени без заранее написанного кода.
Claude Sonnet 4.5 стала не только самой способной, но и самой безопасной моделью Anthropic. Компания значительно снизила количество ложных срабатываний классификаторов безопасности — в 10 раз с момента первого описания и в 2 раза с выхода Claude Opus 4 в мае. Модель выпущена под защитой уровня ASL-3 с фильтрами для обнаружения потенциально опасного контента, связанного с химическим, биологическим, радиологическим и ядерным оружием.
Источник новости и обложки: www.anthropic.com