GPI: новый подход к имитационному обучению роботов работает в 20 раз быстрее диффузионных моделей

GPI: новый подход к имитационному обучению роботов работает в 20 раз быстрее диффузионных моделей

Исследователи из Harvard University, EPFL и Idiap Research Institute разработали Geometry-aware Policy Imitation (GPI) — подход к имитационному обучению роботов. Вместо традиционного сбора пар состояние-действие GPI рассматривает демонстрации как геометрические кривые в пространстве состояний. Метод показывает в 20 раз большую скорость работы по сравнению с диффузионными подходами при более высоких показателях успешности.

Ключевая идея GPI заключается в создании полей расстояний из демонстраций экспертов, которые порождают два типа управляющих примитивов. Первый — поток прогрессии, который продвигает робота вдоль экспертных траекторий. Второй — поток притяжения, который корректирует отклонения, притягивая текущие состояния к демонстрациям. Представьте это как GPS-навигацию: система не только знает, куда двигаться дальше, но и как вернуться на правильный маршрут при отклонении.

В отличие от генеративных моделей вроде диффузионных политик, GPI работает без параметрического обучения и не требует переобучения при добавлении новых демонстраций. На задаче PushT метод достигает времени вывода всего 0.6 миллисекунды против 67 миллисекунд у диффузионных политик — это разница в 100 раз. При этом объем памяти составляет менее 1 МБ против более чем 200 МБ у традиционных подходов.

Особенность GPI — модульность архитектуры. Метод разделяет изучение метрики (как сравнивать состояния) и синтез поведения (как генерировать действия). Для низкоразмерных состояний используются евклидовы или геодезические расстояния, для высокоразмерных наблюдений — латентные представления от предобученных энкодеров типа CLIP, SAM или простых VAE. Такой подход позволяет легко адаптировать систему под разные задачи без кардинальных изменений.

Исследователи протестировали GPI на разнообразных задачах — от планарного толкания объектов до управления ловкими манипуляторами с 46-мерным пространством состояний. В реальных экспериментах с роботами Franka и ALOHA система показала стабильную работу при переворачивании коробок и передаче фруктов между человеком и роботом. Время инференса составило 7 миллисекунд при объеме памяти 140 МБ.

GPI естественным образом поддерживает мультимодальность, сохраняя различные демонстрации как отдельные модели. Если эксперт показал несколько способов выполнения задачи, система не усредняет их в один «компромиссный» вариант, а выбирает наиболее подходящий в зависимости от текущей ситуации. Это критически важно для задач с контактным взаимодействием, где разные стратегии требуют кардинально разных действий.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров