NVIDIA Nemotron 3: открытые модели с контекстом 1M токенов

NVIDIA представила семейство открытых моделей Nemotron 3 (Nano, Super, Ultra) для создания агентных ИИ-систем. Модели используют гибридную архитектуру Mamba-Transformer с mixture-of-experts (MoE) и поддерживают контекст до 1 миллиона токенов. Nemotron 3 Nano доступна с 15 декабря 2024 года, версии Super и Ultra выйдут в первой половине 2026 года.

Nemotron 3 Nano — это модель с 30 миллиардами общих параметров и 3 миллиардами активных параметров, оптимизированная для GPU DGX Spark, H100 и B200. Модель показала лучший результат по производительности в Artificial Analysis Intelligence Index, сохранив высокий балл в Artificial Analysis Openness Index. NVIDIA также выпустила открытые датасеты: пресс-релиз Nemotron-pretraining (3 триллиона токенов), Nemotron-post-training 3.0 (13 миллионов примеров) и Nemotron-RL для обучения с подкреплением.

Архитектура Nemotron 3 сочетает слои Mamba для эффективной обработки длинных последовательностей, слои Transformer для точного рассуждения и MoE-маршрутизацию для масштабируемости вычислений. Контекст в 1 миллион токенов позволяет агентам обрабатывать целые кодовые базы, длинные документы и многоэтапные планы без фрагментации. Модели обучались с использованием обучения с подкреплением в NeMo Gym — открытой библиотеке для создания RL-окружений для агентных задач.

Стандартная архитектура MoE в сравнении с архитектурой latent MoE. В latent MoE токены проецируются в пространство меньшей размерности для маршрутизации и вычислений экспертов, что снижает затраты на коммуникацию и позволяет использовать больше экспертов при большей точности на байт.

Версии Super и Ultra добавят latent MoE (работа с 4x большим числом экспертов при той же стоимости инференса), multi-token prediction для ускорения генерации и обучение в формате NVFP4 — 4-битном формате с плавающей точкой от NVIDIA. Разработчики могут начать использовать Nemotron 3 Nano через cookbooks для vLLM, SGLang и TRT-LLM, а также через инструменты Llama.cpp, LM Studio и Unsloth. Код, датасеты и веса моделей опубликованы под лицензией NVIDIA Open Model License в репозитории GitHub и на Hugging Face.

Многотокенное предсказание (представленное в статье «Better & Faster Large Language Models via Multi-token Prediction») предсказывает несколько последующих токенов одновременно, повышая точность примерно на ~2,4% во время обучения и обеспечивая ускорение спекулятивного декодирования на этапе инференса.

Источник новости и обложки: developer.nvidia.com

NVIDIA выпустила Nemotron 3 с контекстом 1M токенов