GLM-5 стал первым open-weights-моделью, набравшей 50 баллов в Artificial Analysis Intelligence Index v4.0 — против 42 у предшественника GLM-4.7. В среднем GLM-5 показывает примерно 20% улучшение по сравнению с GLM-4.7 и сопоставим с Claude Opus 4.5 и GPT-5.2 (xhigh), а также превосходит Gemini 3 Pro.
До GLM-5 открытые языковые модели не могли соперничать с топовыми проприетарными системами в реальных задачах программирования — SWE-bench и Terminal-Bench тестировали лишь изолированные правки. Авторы разработали внутренний бенчмарк CC-Bench-V2, охватывающий фронтенд, бэкенд и долгосрочные задачи, чтобы оценить модель в условиях реального инженерного процесса. На Vending-Bench 2 — симуляции управления бизнесом на длинном горизонте — GLM-5 занял первое место среди open-source моделей, завершив год с балансом $4,432.
GLM-5 использует архитектуру DSA (DeepSeek Sparse Attention), которая заменяет стандартный механизм внимания с квадратичной сложностью на динамический отбор токенов — это снижает вычислительную нагрузку в 1.5–2 раза на длинных последовательностях. Параметры модели масштабированы до 744B при 40B активных параметров, а бюджет токенов для обучения составил 28.5 триллионов. Для пост-трейнинга авторы реализовали асинхронную RL-инфраструктуру, которая разделяет генерацию траекторий и обновление весов на разных GPU-устройствах, что существенно повышает утилизацию GPU при agentic RL.
GLM-5 полностью адаптирован для семи китайских чип-платформ, включая Huawei Ascend, Moore Threads, Hygon, Cambricon, Kunlunxin, MetaX и Enflame. На одном узле с китайскими чипами GLM-5 достигает производительности, сопоставимой с кластером из двух международных GPU-серверов, при снижении стоимости деплоя в сценариях с длинными последовательностями на 50%. Авторы открывают модель для сообщества, позиционируя ее как практическую основу для следующего поколения AI-агентов.
Источник новости и обложки: arxiv.org

