NVIDIA представила метод обучения 12-миллиардных языковых моделей с 4-битной точностью NVFP4

Самая длинная публично задокументированная тренировка в 4-битной точности на сегодняшний день. NVFP4 дает 2-3x ускорение при сохранении качества

@ИИ

#Blackwell, FP8, NVFP4, Nvidia, Transformer Engine

14.10.2025

Исследователи NVIDIA продемонстрировали успешное обучение 12-миллиардной языковой модели с использованием 4-битного формата NVFP4 на 10 триллионах токенов. Это первый публично задокументированный случай столь масштабной тренировки в 4-битной точности, который открывает путь к значительному ускорению и снижению энергопотребления при обучении ИИ-систем.

Новый формат NVFP4 превосходит существующий MXFP4 благодаря уменьшенному размеру блока с 32 до 16 элементов и более точному масштабированию. В сравнительных тестах NVFP4 достигает сравнимых потерь с меньшим количеством токенов, чем MXFP4. Это означает существенную экономию времени и вычислительных ресурсов.

Обученная модель показала результат 62.58% точности на бенчмарке MMLU-pro, практически сравнявшись с 62.62% точности модели, обученной в FP8. Ключом к успеху стала специальная методология, включающая двумерное масштабирование блоков, случайные преобразования Адамара и стохастическое округление градиентов.

Технология уже получила аппаратную поддержку в GPU NVIDIA Blackwell, которые обеспечивают в 2-3 раза более высокую производительность математических операций FP4 по сравнению с FP8. При этом использование памяти сокращается вдвое. Transformer Engine уже поддерживает тренировку в формате NVFP4, что делает технологию доступной для практического применения.

Источник новости и обложки: arxiv.org