20 вручную созданных стихотворений с вредоносными запросами достигли средней успешности атак 62% на 25 моделях
@ИИ
20 вручную созданных стихотворений с вредоносными запросами достигли средней успешности атак 62% на 25 моделях
Все модели провалили критерии безопасности при управлении роботами
Модель теперь возвращает нежелательные ответы на 65-80% реже в областях, связанных с психическим здоровьем, включая проблемы психического здоровья, самоповреждение и суицид, а также эмоциональную зависимость от ИИ
Исследование показало, что латентные фильтры безопасности роботов принимают близорукие решения при ограниченной наблюдаемости данных