Сбер опубликовал открытые веса двух MoE-моделей нового поколения: GigaChat 3 Ultra Preview (702B-A36B) и GigaChat 3 Lightning (10B-A1.8B). Модели доступны с лицензией MIT и возможностью коммерческого использования.
Обе модели используют кастомную архитектуру Mixture-of-Experts с поддержкой Multi-head Latent Attention и Multi-Token Prediction. MLA сжимает KV-кэш в латентное представление, что снижает требования к памяти и ускоряет обработку длинных контекстов. MTP позволяет предсказывать несколько токенов за один проход и ускорять инференс до 40 процентов.
GigaChat 3 Ultra Preview содержит около 702B параметров с активацией примерно 36B на токен и занял первое место на бенчмарке MERA. GigaChat 3 Lightning имеет 10B параметров с активацией 1.8B на токен, по качеству достигает уровня Qwen3-4B и в 1.5 раза быстрее по скорости генерации. Модели совместимы с vLLM, SGLang и LMDeploy.
Источник новости и обложки: github.com