Claude Haiku 4.5 обеспечивает 90% производительности топовых моделей при троекратном снижении стоимости

Claude Haiku 4.5 обеспечивает 90% производительности топовых моделей при троекратном снижении стоимости

Anthropic выпустила Claude Haiku 4.5 — компактную AI-модель, которая предлагает почти флагманскую производительность за треть стоимости и с двукратным увеличением скорости. Модель доступна всем пользователям с 15 октября 2025 года по цене $1/$5 за миллион токенов на входе и выходе соответственно.

Новая модель достигает 90% производительности флагманской Sonnet 4.5 в задачах программирования, при этом работает в 4-5 раз быстрее. В некоторых задачах, особенно при работе с компьютерами, Haiku 4.5 даже превосходит Claude Sonnet 4, которая всего пять месяцев назад считалась передовой моделью.

В SWE-bench Verified сообщается, что все результаты Claude были получены с использованием простого фреймворка с двумя инструментами — bash и редактированием файлов через замену строк. Указывается результат в 73.3%, который был усреднён по 50 запускам, без вычислений во время тестирования, с бюджетом мышления в 128K и стандартными параметрами сэмплирования (температура, top_p) на полном наборе данных SWE-bench Verified, содержащем 500 задач. Уточняется, что заявленный результат был получен с использованием небольшого дополнения к промпту: «Вам следует использовать инструменты как можно больше, в идеале более 100 раз. Вам также следует сначала реализовать собственные тесты, прежде чем пытаться решить задачу».

Особенно впечатляющие результаты модель показывает в специализированных тестах: 65% точности в генерации текста для слайдов против 44% у премиум-моделей конкурентов, и 73.3% в SWE-bench Verified — тесте для оценки способностей к программированию. Это делает её идеальным выбором для real-time приложений вроде чат-ботов, службы поддержки и парного программирования.

Интересно, что по результатам тестов безопасности Haiku 4.5 оказалась самой безопасной моделью Anthropic, получив классификацию ASL-2 вместо более строгой ASL-3 для старших моделей. Модель показала статистически значимо более низкий уровень нежелательного поведения по сравнению с Sonnet 4.5 и Opus 4.1.

Результаты бенчмарка: Sonnet 4.5, Hauiku 4.5, Sonnet 4, GPT-5, Gemini 2.5 Pro

Разработчики получают доступ к модели через Claude API, Amazon Bedrock и Google Cloud Vertex AI под идентификатором claude-haiku-4-5. Это открывает новые возможности для оркестрации: Sonnet 4.5 может разбивать сложные задачи на подзадачи, а команда из нескольких Haiku 4.5 — выполнять их параллельно, существенно ускоряя процесс разработки.

Источник новости и обложки: www.anthropic.com


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров