NVIDIA показала, как обучать ИИ-модели с 4-битной точностью без потери качества

NVIDIA показала, как обучать ИИ-модели с 4-битной точностью без потери качества

Исследователи NVIDIA продемонстрировали успешное обучение 12-миллиардной языковой модели с использованием 4-битного формата NVFP4 на 10 триллионах токенов. Это первый публично задокументированный случай столь масштабной тренировки в 4-битной точности, который открывает путь к значительному ускорению и снижению энергопотребления при обучении ИИ-систем.

Новый формат NVFP4 превосходит существующий MXFP4 благодаря уменьшенному размеру блока с 32 до 16 элементов и более точному масштабированию. В сравнительных тестах NVFP4 достигает тех же результатов, что и MXFP4, но использует на 36% меньше токенов для обучения. Это означает существенную экономию времени и вычислительных ресурсов.

Обученная модель показала результат 62.58% точности на бенчмарке MMLU-pro, практически сравнявшись с 62.62% точности модели, обученной в FP8. Ключом к успеху стала специальная методология, включающая двумерное масштабирование блоков, случайные преобразования Адамара и стохастическое округление градиентов.

Технология уже получила аппаратную поддержку в GPU NVIDIA Blackwell, которые обеспечивают в 2-3 раза более высокую производительность математических операций FP4 по сравнению с FP8. При этом использование памяти сокращается вдвое. Transformer Engine уже поддерживает тренировку в формате NVFP4, что делает технологию доступной для практического применения.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров