Исследователи из университетов Калифорнии и Стэнфорда представили MADR (MPC-guided Adversarial DeepReach) — новый подход к обучению роботов безопасному поведению в сценариях противоборства. Система сочетает глубокое обучение с предиктивным управлением (MPC), позволяя роботам принимать решения в условиях враждебных помех или активного противодействия со стороны других агентов.

Традиционные методы анализа достижимости Гамильтона-Якоби работают только в низкоразмерных системах (до 6 измерений) из-за проклятия размерности. MADR решает эту проблему, заменяя сеточные вычисления нейронной сетью и дополняя самообучение управляемой выборкой через MPC. Это позволяет масштабировать решение до 50 измерений и выше.
Ключевая особенность MADR — использование двух отдельных наборов данных для обучения. В первом случае MPC управляет роботом, а противник действует согласно текущей политике, во втором — роли меняются местами. Такой подход избегает проблем одновременного обучения актора и критика, характерных для традиционных методов adversarial reinforcement learning.
В экспериментах с 13-мерным квадрокоптером MADR достиг 98.9% успешности избежания препятствий против 86.6% у метода ISAACS. В игре преследования на роботах TurtleBot система показала производительность, сопоставимую с оптимальным решением динамического программирования. Особенно впечатляющими стали испытания с дронами Crazyflie 2.1 в 20-мерном пространстве состояний, где MADR продемонстрировал эффективные стратегии уклонения и преследования в реальном времени.
Для долгосрочных игр преследования исследователи предложили фильтр MADR-FOLLOW, который переключается между стратегиями «следования» и «захвата» в зависимости от ситуации. Этот подход увеличил частоту захвата с 11.6% до 26.4% в трехминутных экспериментах. Система даже справилась с противостоянием человеку-оператору, управляющему гуманоидным роботом Unitree G1.
Источник новости и обложки: arxiv.org