AN1-Core: Llama* 70B сжали в 224 раза — точность выросла на 1.81%

Llama* 70B сжали в 224 раза — точность выросла на 1.81%

Инженеры Anima Core сжали промежуточные активации трансформера Llama 3.3 70B* в 224 раза — с 57,344 до 256 измерений. Точность выросла на 1.81 процентного пункта в среднем по восьми задачам. Самый большой прирост (+3.25%) зафиксирован на низкоресурсной задаче RTE с 2,500 примерами для обучения.

Метод извлекает скрытые состояния из семи слоев модели, усредняет по длине последовательности и конкатенирует в «поле значений» (meaning field). Компактный энкодер AN1 сжимает это поле до 256 измерений с помощью мультицелевой функции потерь: реконструкция поля, точность на задаче и геометрия пространства признаков. Энкодер содержит около 15 миллионов параметров.

После обучения энкодера исследователи создали компактную модель-студент (около 30 миллионов параметров), которая генерирует сжатые поля напрямую из текста. Студент заменил учителя-трансформер полностью: на задаче SST-2 точность снизилась всего на 0.35 процентного пункта (с 91.40% до 90.59%), при этом скорость выросла в 60 раз. Latency для полного Llama 70B* составляет 487 миллисекунд, для Llama* + AN1 — 51 миллисекунда, для студента — 8 миллисекунд.

Анализ сингулярных значений показал, что 72–99% дисперсии промежуточных активаций концентрируется в топ-1–3 измерениях. Паттерн универсален: проверено на трех масштабах моделей (355M–70B параметров), трех архитектурах (GPT-Neo, RoBERTa, Llama*) и восьми задачах. Коэффициент сжатия растет с размером модели: 16× для RoBERTa-large 355M, 40× для GPT-Neo 1.3B, 224× для Llama 70B*, при этом оптимальная размерность остается около 256 измерений.

*Компании и продукты, признанные экстремистскими и запрещены в РФ.

Источник новости и обложки: zenodo.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров