NVIDIA представила семейство открытых моделей Nemotron 3 (Nano, Super, Ultra) для создания агентных ИИ-систем. Модели используют гибридную архитектуру Mamba-Transformer с mixture-of-experts (MoE) и поддерживают контекст до 1 миллиона токенов. Nemotron 3 Nano доступна с 15 декабря 2024 года, версии Super и Ultra выйдут в первой половине 2026 года.
Nemotron 3 Nano — это модель с 30 миллиардами общих параметров и 3 миллиардами активных параметров, оптимизированная для GPU DGX Spark, H100 и B200. Модель показала лучший результат по производительности в Artificial Analysis Intelligence Index, сохранив высокий балл в Artificial Analysis Openness Index. NVIDIA также выпустила открытые датасеты: пресс-релиз Nemotron-pretraining (3 триллиона токенов), Nemotron-post-training 3.0 (13 миллионов примеров) и Nemotron-RL для обучения с подкреплением.
Архитектура Nemotron 3 сочетает слои Mamba для эффективной обработки длинных последовательностей, слои Transformer для точного рассуждения и MoE-маршрутизацию для масштабируемости вычислений. Контекст в 1 миллион токенов позволяет агентам обрабатывать целые кодовые базы, длинные документы и многоэтапные планы без фрагментации. Модели обучались с использованием обучения с подкреплением в NeMo Gym — открытой библиотеке для создания RL-окружений для агентных задач.

Версии Super и Ultra добавят latent MoE (работа с 4x большим числом экспертов при той же стоимости инференса), multi-token prediction для ускорения генерации и обучение в формате NVFP4 — 4-битном формате с плавающей точкой от NVIDIA. Разработчики могут начать использовать Nemotron 3 Nano через cookbooks для vLLM, SGLang и TRT-LLM, а также через инструменты Llama.cpp, LM Studio и Unsloth. Код, датасеты и веса моделей опубликованы под лицензией NVIDIA Open Model License в репозитории GitHub и на Hugging Face.

Источник новости и обложки: developer.nvidia.com

