Исследователи NVIDIA продемонстрировали успешное обучение 12-миллиардной языковой модели с использованием 4-битного формата NVFP4 на 10 триллионах токенов. Это первый публично задокументированный случай столь масштабной тренировки в 4-битной точности, который открывает путь к значительному ускорению и снижению энергопотребления при обучении ИИ-систем.
Новый формат NVFP4 превосходит существующий MXFP4 благодаря уменьшенному размеру блока с 32 до 16 элементов и более точному масштабированию. В сравнительных тестах NVFP4 достигает тех же результатов, что и MXFP4, но использует на 36% меньше токенов для обучения. Это означает существенную экономию времени и вычислительных ресурсов.
Обученная модель показала результат 62.58% точности на бенчмарке MMLU-pro, практически сравнявшись с 62.62% точности модели, обученной в FP8. Ключом к успеху стала специальная методология, включающая двумерное масштабирование блоков, случайные преобразования Адамара и стохастическое округление градиентов.
Технология уже получила аппаратную поддержку в GPU NVIDIA Blackwell, которые обеспечивают в 2-3 раза более высокую производительность математических операций FP4 по сравнению с FP8. При этом использование памяти сокращается вдвое. Transformer Engine уже поддерживает тренировку в формате NVFP4, что делает технологию доступной для практического применения.
Источник новости и обложки: arxiv.org