Скрытые фильтры безопасности не видят половину угроз: почему ИИ принимают неверные решения

Исследователи из Калифорнийского университета в Сан-Диего и Университета Карнеги-Меллон обнаружили критическую проблему в системах безопасного управления роботами. Латентные фильтры безопасности — ИИ-системы, которые должны предотвращать опасные действия роботов — демонстрируют «близорукое» поведение, когда важные для безопасности признаки не видны в данных обучения. Вместо предотвращения аварий роботы просто избегают видеть опасные ситуации.

Команда протестировала свои выводы на задаче с температурным контролем: робот-манипулятор Franka Research 3 должен был предотвращать перегрев воска над плитой. RGB-камера показывала только визуальные изменения после перегрева, тогда как инфракрасная камера видела температуру в реальном времени. Результат оказался драматичным: система с RGB-данными не поднимала сковороду в 85% случаев, позволяя воску перегреваться.

Для решения проблемы ученые предложили мультимодальную supervised-стратегию обучения. Во время тренировки мировая модель получает данные с нескольких сенсоров (RGB + инфракрасная камера), но при развертывании использует только обычные RGB-камеры. Взаимная информация между наблюдениями и метками безопасности показала четкое разделение: 0.73 ната между RGB и IR данными в симуляции.

Исследование показало, что классические метрики точности классификации не отражают полную картину способности системы обнаруживать угрозы безопасности. Мультимодальный подход повысил F1-score с 0.92 до 0.99 в реальных экспериментах. Новый метод позволяет роботам делать относительные суждения о безопасности действий, даже если они не могут точно определить момент вмешательства.

Работа открывает важные вопросы для развития безопасного ИИ в робототехнике. Как отмечают авторы, фундаментальные ограничения наблюдаемости могут приводить к чрезмерно консервативным вмешательствам системы безопасности. Это первый шаг к пониманию того, что важно для формирования латентных представлений для безопасного управления — область, которая станет критически важной с ростом автономности роботов.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров