В 4 раза меньше памяти: KVzap сжимает KV-кеш без потери точностиМетод обучается аппроксимировать политику скоринга улучшенного варианта KVzip@ИИ18.01.2026
AN1-Core: Llama* 70B сжали в 224 раза — точность выросла на 1.81%Паттерн универсален: проверено на трех масштабах моделей (355M–70B параметров), трех архитектурах (GPT-Neo, RoBERTa, Llama*) и восьми задачах@ИИ10.12.2025