В 4 раза меньше памяти: KVzap сжимает KV-кеш без потери точности

В 4 раза меньше памяти: KVzap сжимает KV-кеш без потери точности

Трансформеры хранят KV-кеш для каждого токена, и при длине последовательности 128k токенов Llama1-65B* требует 335 ГБ памяти. KV-кеш становится главным узким местом для эффективного инференса LLM, увеличивая пиковое потребление памяти GPU и время до первого токена.

Десятки методов сжатия KV-кеша были предложены, но ни один не интегрирован в основные движки инференса вроде vLLM или SGLang. Причина — каждое решение не соответствует хотя бы одному критерию: быстрота, применимость к префиллингу и декодингу, совместимость с FlashAttention2 или минимальная потеря точности.

KVzap — это быстрая аппроксимация метода KVzip, которая работает как при префиллинге, так и при декодинге. На моделях Qwen3-8B, Llama-3.1-8B-Instruct* и Qwen3-32B метод достигает сжатия KV-кеша в 2-4 раза с незначительной потерей точности. KVzap применяет легкую модель к скрытым состояниям для предсказания важности токенов и отбрасывает KV-пары ниже порога.

Метод обучается аппроксимировать политику скоринга улучшенного варианта KVzip. На бенчмарке RULER 4k KVzap достиг state-of-the-art результатов для Qwen3-8B и Llama-3.1-8B-Instruct*, превзойдя 15 других методов. Вычислительные затраты KVzap ограничены 1.1% для MLP-версии и 0.02% для линейной версии относительно линейных проекций модели.

*Компании и продукты, признанные экстремистскими и запрещены в РФ.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров