Tencent представила Hunyuan-T1 — первую сверхбольшую языковую модель на базе Mamba

Tencent выпустила официальную версию своей новой языковой модели Hunyuan-T1, построенной на базе инновационной архитектуры TurboS. Это первая в мире сверхмасштабная модель, использующая гибридную архитектуру Transformer-Mamba MoE. Благодаря оптимизированной архитектуре Mamba, модель обрабатывает длинные последовательности текста в 2 раза быстрее при тех же вычислительных ресурсах.

При обучении модели 96.7% вычислительной мощности было направлено на обучение с подкреплением, что позволило значительно улучшить способности к рассуждению и соответствие человеческим предпочтениям. Стабильность долгосрочного обучения модели была повышена более чем на 50% благодаря использованию классических стратегий обучения с подкреплением.

В тестах производительности Hunyuan-T1 показала впечатляющие результаты. На бенчмарке MMLU-PRO модель достигла показателя в 87.2 балла, уступив только модели O1. В тесте MATH-500, оценивающем математические способности, T1 набрала 96.2 балла, почти догнав DeepSeek R1.

Модель также продемонстрировала высокую производительность в специализированных тестах: 64.9 баллов в LiveCodeBench (оценка навыков программирования), 69.3 балла в GPQA-diamond (тест на знание сложных научных концепций) и впечатляющие 91.9 балла в задаче ArenaHard.

Источник новости и обложки: tencent.github.io