LLM-редактирование сливает данные: атака KSTER вскрыла дыру

LLM-редактирование сливает данные: атака KSTER вскрыла дыру

Исследователи доказали: механизм «безопасного» редактирования LLM сам по себе является каналом утечки данных. Атака KSTER восстанавливает отредактированные данные с точностью recall свыше 99% на модели Llama3-8B-Instruct*.

Метод locate-then-edit — mainstream-парадигма редактирования LLM — изменяет параметры модели без переобучения, чтобы удалить чувствительные данные. Однако если атакующий получает доступ к весам до и после редактирования, он может восстановить именно те данные, которые были стерты — анализируя разницу параметров. Это превращает механизм защиты приватности в уязвимость.

KSTER работает в два этапа: сначала реконструирует ключевое подпространство (key space) через SVD-анализ матрицы обновления весов, затем восстанавливает семантический контекст через анализ энтропии. Математически исследователи доказали: row space матрицы ΔW кодирует уникальный «отпечаток» отредактированных субъектов. Атака показала recall 0.94–1.00 по субъектам и top-20 recall 0.94–0.99 по промптам на датасете CounterFact.

В качестве защиты исследователи предложили subspace camouflage: в процессе обновления весов инжектируются семантические «приманки» — ключевые векторы несвязанных субъектов.

*Компании и продукты, признанные экстремистскими и запрещены в РФ.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров