Обучение без NVIDIA: TeleChat3 набрал 51 балл в SWE-Bench

Обучение без NVIDIA: TeleChat3 набрал 51 балл в SWE-Bench

China Telecom выпустила серию моделей TeleChat3, которые достигли 51 балла в бенчмарке SWE-Bench Verified. Это один из самых высоких результатов среди open-source решений конца 2025 года для реальных задач программной инженерии. Линейка включает разреженную MoE-модель на 105 млрд параметров и плотную модель на 36 млрд.

Главная особенность релиза — полный цикл обучения на отечественной инфраструктуре, независимой от оборудования NVIDIA. Использовались кластеры Ascend Atlas 800T A2 и фреймворк MindSpore. При этом пропускная способность для модели 105B составила 0.1002 сэмпла в секунду на 4096 NPU.

Архитектура MoE активирует всего 4.7 млрд параметров на токен при общем объеме 105 млрд. Обе модели поддерживают явный режим Thinking, генерируя цепочку рассуждений перед финальным ответом. Модель 36B использует Grouped-Query Attention (GQA) и в тестах часто превосходит более крупный MoE-вариант.

Результат в Tau2-Bench составил 63.6 балла, что указывает на прогресс в агентных возможностях и вызове инструментов. Модели доступны для инференса через vLLM и SGLang с поддержкой OpenAI-совместимого API. Для файнтюнинга разработчики рекомендуют использовать LLaMA-Factory.

Источник новости и обложки: www.xugj520.cn


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров