Heretic: удаление цензуры из LLM с KL-дивергенцией 0.16

Heretic — инструмент для удаления цензуры из языковых моделей на основе трансформеров без дорогостоящего пост-обучения. Он комбинирует directional ablation с TPE-оптимизацией на базе Optuna. Процесс полностью автоматический и не требует понимания внутреннего устройства трансформеров.

Heretic находит параметры аблитерации путем минимизации числа отказов и KL-дивергенции от исходной модели. Это позволяет создать децензурированную модель, сохраняющую интеллект оригинальной модели. Любой, кто умеет запускать программы из командной строки, может использовать Heretic.

При работе без настроек Heretic создает децензурированные модели, сравнимые по качеству с аблитерациями, созданными экспертами вручную. Для модели gemma-3-12b-it оригинальная версия показала 97 отказов из 100 на вредоносные промпты. Версия Heretic достигла 3 отказов из 100 при KL-дивергенции 0.16. Конкуренты mlabonne и huihui-ai также показали 3 из 100 отказов, но с KL-дивергенцией 1.04 и 0.45 соответственно.

Версия Heretic при одинаковом подавлении отказов имеет меньшую KL-дивергенцию, что указывает на меньшее повреждение исходных способностей модели. На RTX 3090 с конфигурацией по умолчанию децензурирование Llama-3.1-8B* занимает около 45 минут. Heretic поддерживает большинство dense-моделей, включая мультимодальные, а также несколько архитектур MoE.

Heretic реализует параметризованный вариант directional ablation. Для каждого поддерживаемого компонента трансформера инструмент ортогонализирует матрицы относительно вектора отказа. Векторы отказа вычисляются для каждого слоя как difference-of-means между residuals первого токена для вредоносных и безвредных промптов. Процесс аблитерации контролируется оптимизируемыми параметрами, описывающими форму и позицию ядра весов аблитерации по слоям.

*Компании и продукты, признанные экстремистскими и запрещены в РФ.

Источник новости и обложки: github.com

Heretic автоматически удаляет цензуру из LLM