MADR: новый алгоритм безопасного управления роботами 2025

Исследователи из университетов Калифорнии и Стэнфорда представили MADR (MPC-guided Adversarial DeepReach) — новый фреймворк для обучения роботов безопасному поведению в сценариях противоборства. Система сочетает глубокое обучение с предиктивным управлением (MPC), позволяя роботам принимать решения в условиях враждебных помех или активного противодействия со стороны других агентов.

Графическая аннотация MADR и робототехнических экспериментов. В данной работе предлагается обогащение самообучения уравнений Гамильтона — Якоби в частных производных, а именно DeepReach, с помощью контроля, обеспечиваемого наилучшим прогоном игры из выборки (сверху слева), где политика оппонента определяется текущей аппроксимацией значения (сверху справа). Демонстрируется, что данный подход работает в играх с общими динамиками (внизу), а именно в экспериментах с TurtleBots, дронами и гуманоидным роботом.

Традиционные методы анализа достижимости Гамильтона-Якоби работают только в низкоразмерных системах (до 6 измерений) из-за проклятия размерности. MADR решает эту проблему, заменяя сеточные вычисления нейронной сетью и дополняя самообучение управляемой выборкой через MPC. Это позволяет масштабировать решение до 50 измерений и выше.

Ключевая особенность MADR — использование двух отдельных наборов данных для обучения. В первом случае MPC управляет роботом, а противник действует согласно текущей политике, во втором — роли меняются местами. Такой подход избегает проблем одновременного обучения актора и критика, характерных для традиционных методов adversarial reinforcement learning.

В экспериментах с 13-мерным квадрокоптером MADR достиг 98.9% безопасных траекторий против 86.6% у метода ISAACS. В игре преследования на роботах TurtleBot система показала производительность, сопоставимую с оптимальным решением динамического программирования. Особенно впечатляющими стали испытания с дронами Crazyflie 2.1 в 20-мерном пространстве состояний, где MADR продемонстрировал эффективные стратегии уклонения и преследования в реальном времени.

Для долгосрочных игр преследования исследователи предложили фильтр MADR-FOLLOW, который переключается между стратегиями «следования» и «захвата» в зависимости от ситуации. Этот подход увеличил частоту захвата с 11.6% до 26.4% в трехминутных экспериментах. Система даже справилась с противостоянием человеку-оператору, управляющему гуманоидным роботом Unitree G1.

Источник новости и обложки: arxiv.org

MADR: новый фреймворк для безопасного управления роботами в условиях противодействия