Сбер открыл веса GigaChat 3: 702B Ultra и 10B Lightning с MoE-архитектурой

Модели доступны с лицензией MIT и возможностью коммерческого использования

#GigaChat 3 Lightning, GigaChat 3 Ultra Preview, MERA, MoE

20.11.2025

Сбер опубликовал открытые веса двух MoE-моделей нового поколения: GigaChat 3 Ultra Preview (702B-A36B) и GigaChat 3 Lightning (10B-A1.8B). Модели доступны с лицензией MIT и возможностью коммерческого использования.

Обе модели используют кастомную архитектуру Mixture-of-Experts с поддержкой Multi-head Latent Attention и Multi-Token Prediction. MLA сжимает KV-кэш в латентное представление, что снижает требования к памяти и ускоряет обработку длинных контекстов. MTP позволяет предсказывать несколько токенов за один проход и ускорять инференс до 40 процентов.

GigaChat 3 Ultra Preview содержит около 702B параметров с активацией примерно 36B на токен и занял первое место на бенчмарке MERA. GigaChat 3 Lightning имеет 10B параметров с активацией 1.8B на токен, по качеству достигает уровня Qwen3-4B и в 1.5 раза быстрее по скорости генерации. Модели совместимы с vLLM, SGLang и LMDeploy.

Источник новости и обложки: github.com