ХМ-ХМ
ЧТО ЗА ФАК*

Безопасность ИИ

Поэзия как джейлбрейк: исследователи обошли защиту 25 LLM с успехом 62%
20 вручную созданных стихотворений с вредоносными запросами достигли средней успешности атак 62% на 25 моделях
@ИИ
20.11.2025
Большие языковые модели в роботах провоцируют дискриминацию и одобряют незаконные действия
Все модели провалили критерии безопасности при управлении роботами
@ИИ
11.11.2025
ChatGPT научился лучше распознавать и поддерживать людей в дистрессе со снижением нежелательных ответов на 65-80%
Модель теперь возвращает нежелательные ответы на 65-80% реже в областях, связанных с психическим здоровьем, включая проблемы психического здоровья, самоповреждение и суицид, а также эмоциональную зависимость от ИИ
@ИИ
28.10.2025
Когда латентные фильтры безопасности не видят угроз: исследование частично наблюдаемых ограничений
Исследование показало, что латентные фильтры безопасности роботов принимают близорукие решения при ограниченной наблюдаемости данных
@ИИ
09.10.2025
Создатель Roomba предрекает крах гуманоидных роботов: пузырь на 39 миллиардов лопнет
@Железо, ИИ
29.09.2025