Ученые создали MADR — гибридный алгоритм для безопасного управления роботами в условиях противодействия

Ученые создали MADR — гибридный алгоритм для безопасного управления роботами в условиях противодействия

Исследователи из университетов Калифорнии и Стэнфорда представили MADR (MPC-guided Adversarial DeepReach) — новый подход к обучению роботов безопасному поведению в сценариях противоборства. Система сочетает глубокое обучение с предиктивным управлением (MPC), позволяя роботам принимать решения в условиях враждебных помех или активного противодействия со стороны других агентов.

Традиционные методы анализа достижимости Гамильтона-Якоби работают только в низкоразмерных системах (до 6 измерений) из-за проклятия размерности. MADR решает эту проблему, заменяя сеточные вычисления нейронной сетью и дополняя самообучение управляемой выборкой через MPC. Это позволяет масштабировать решение до 50 измерений и выше.

Ключевая особенность MADR — использование двух отдельных наборов данных для обучения. В первом случае MPC управляет роботом, а противник действует согласно текущей политике, во втором — роли меняются местами. Такой подход избегает проблем одновременного обучения актора и критика, характерных для традиционных методов adversarial reinforcement learning.

В экспериментах с 13-мерным квадрокоптером MADR достиг 98.9% успешности избежания препятствий против 86.6% у метода ISAACS. В игре преследования на роботах TurtleBot система показала производительность, сопоставимую с оптимальным решением динамического программирования. Особенно впечатляющими стали испытания с дронами Crazyflie 2.1 в 20-мерном пространстве состояний, где MADR продемонстрировал эффективные стратегии уклонения и преследования в реальном времени.

Для долгосрочных игр преследования исследователи предложили фильтр MADR-FOLLOW, который переключается между стратегиями «следования» и «захвата» в зависимости от ситуации. Этот подход увеличил частоту захвата с 11.6% до 26.4% в трехминутных экспериментах. Система даже справилась с противостоянием человеку-оператору, управляющему гуманоидным роботом Unitree G1.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров