Андрей Карпатый запустил проект nanochat — полный пайплайн создания ChatGPT всего за 100 долларов. Используя сервер с 8 GPU H100 стоимостью 24 доллара в час, исследователь показал, как за 3 часа 51 минуту обучить модель с нуля, которая по возможностям сопоставима с GPT-2.
Основа проекта — Transformer с 20 слоями и 560 миллионами параметров. Модель обучается на 11.2 миллиарда токенов из датасета FineWeb-EDU, используя 21 400 итераций оптимизации. Каждый шаг обработки занимает 0.5 секунды и потребляет 524 тысячи токенов, достигая 48% утилизации вычислительной мощности GPU.
Процесс состоит из четырех этапов. Предобучение (pretraining) длится 3 часа и стоит 72 доллара, давая модели знания о мире — она знает, что столица Франции это Париж, а символ золота Au. Миддтрейнинг адаптирует модель к формату диалогов за 8 минут, добавляя поддержку 100 тысяч вопросов множественного выбора и 8 тысяч математических задач.
Финальная модель достигает 0.22 балла по метрике CORE — это лучше GPT-2 Large (0.21), но хуже классического GPT-2 (0.26). На тестах множественного выбора модель показывает 31-39% точности против 25% случайного угадывания, а математические задачи решает только в 4.5% случаев. Полный код доступен на GitHub, позволяя экспериментировать с любыми параметрами — например, модель с 26 слоями уже приближается к возможностям оригинального GPT-2.
Источник новости и обложки: github.com