GLM-5 обошел GPT и Claude: открытая модель впервые набрала 50 баллов в Artificial Analysis Intelligence Index v4.0

GLM-5 обошел GPT и Claude: открытая модель впервые набрала 50 баллов

GLM-5 стал первым open-weights-моделью, набравшей 50 баллов в Artificial Analysis Intelligence Index v4.0 — против 42 у предшественника GLM-4.7. В среднем GLM-5 показывает примерно 20% улучшение по сравнению с GLM-4.7 и сопоставим с Claude Opus 4.5 и GPT-5.2 (xhigh), а также превосходит Gemini 3 Pro.

До GLM-5 открытые языковые модели не могли соперничать с топовыми проприетарными системами в реальных задачах программирования — SWE-bench и Terminal-Bench тестировали лишь изолированные правки. Авторы разработали внутренний бенчмарк CC-Bench-V2, охватывающий фронтенд, бэкенд и долгосрочные задачи, чтобы оценить модель в условиях реального инженерного процесса. На Vending-Bench 2 — симуляции управления бизнесом на длинном горизонте — GLM-5 занял первое место среди open-source моделей, завершив год с балансом $4,432.

GLM-5 использует архитектуру DSA (DeepSeek Sparse Attention), которая заменяет стандартный механизм внимания с квадратичной сложностью на динамический отбор токенов — это снижает вычислительную нагрузку в 1.5–2 раза на длинных последовательностях. Параметры модели масштабированы до 744B при 40B активных параметров, а бюджет токенов для обучения составил 28.5 триллионов. Для пост-трейнинга авторы реализовали асинхронную RL-инфраструктуру, которая разделяет генерацию траекторий и обновление весов на разных GPU-устройствах, что существенно повышает утилизацию GPU при agentic RL.

GLM-5 полностью адаптирован для семи китайских чип-платформ, включая Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlunxin, MetaX и Enflame. На одном узле с китайскими чипами GLM-5 достигает производительности, сопоставимой с кластером из двух международных GPU-серверов, при снижении стоимости деплоя в сценариях с длинными последовательностями на 50%. Авторы открывают модель для сообщества, позиционируя ее как практическую основу для следующего поколения AI-агентов.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров