Трансформеры хранят KV-кеш для каждого токена, и при длине последовательности 128k токенов Llama1-65B* требует 335 ГБ памяти. KV-кеш становится главным узким местом для эффективного инференса LLM, увеличивая пиковое потребление памяти GPU и время до первого токена.
Десятки методов сжатия KV-кеша были предложены, но ни один не интегрирован в основные движки инференса вроде vLLM или SGLang. Причина — каждое решение не соответствует хотя бы одному критерию: быстрота, применимость к префиллингу и декодингу, совместимость с FlashAttention2 или минимальная потеря точности.
KVzap — это быстрая аппроксимация метода KVzip, которая работает как при префиллинге, так и при декодинге. На моделях Qwen3-8B, Llama-3.1-8B-Instruct* и Qwen3-32B метод достигает сжатия KV-кеша в 2-4 раза с незначительной потерей точности. KVzap применяет легкую модель к скрытым состояниям для предсказания важности токенов и отбрасывает KV-пары ниже порога.
Метод обучается аппроксимировать политику скоринга улучшенного варианта KVzip. На бенчмарке RULER 4k KVzap достиг state-of-the-art результатов для Qwen3-8B и Llama-3.1-8B-Instruct*, превзойдя 15 других методов. Вычислительные затраты KVzap ограничены 1.1% для MLP-версии и 0.02% для линейной версии относительно линейных проекций модели.
*Компании и продукты, признанные экстремистскими и запрещены в РФ.
Источник новости и обложки: arxiv.org

