Роботы научились планировать контакты через зрение

Исследователи из Калифорнийского университета в Беркли, Мичиганского университета и Китайского университета Гонконга представили Ego-Vision World Model — систему, которая позволяет гуманоидным роботам эффективно планировать физические контакты с окружающими объектами. Модель обучается предсказывать последствия действий в сжатом латентном пространстве, используя только проприоцептивные данные и эгоцентрические изображения глубины размером 64×48 пикселей.

Иллюстрация работы системы в задаче «Поддержать стену». При внезапном внешнем воздействии (слева) робот использует обученную модель мира, чтобы предсказать и спланировать стабилизирующее действие в пределах своего горизонта планирования (в центре). Это позволяет ему успешно выполнить план и упереться руками в стену, чтобы создать опору и сохранить равновесие (справа).

Традиционные методы оптимизации плохо справляются с комбинаторной сложностью планирования контактов в реальном времени, а обучение с подкреплением требует огромного количества данных — особенно при работе с визуальной информацией. Новый подход объединяет обученную мировую модель с семплирующим Model Predictive Control (MPC), тренируясь на офлайн-датасете без демонстраций. Для решения проблемы разреженных наград за контакты система использует заместительную функцию ценности, которая направляет процесс планирования.

Эксперименты в реальном мире, подтверждающие предложенную систему. (a) Демонстрация последовательного выполнения задач и обобщения: робот проходит под аркой (i), а затем блокирует ранее незнакомый ящик (ii). (b) Поддержка стены для сохранения равновесия: робот упирается руками в стену при толчке в её сторону. (c) Блокировка как шара из тренировочного распределения (соответствующего по размеру данным для обучения), так и незнакомого ящика. (d) Приседание и прохождение под аркой.

Архитектура включает иерархический контроллер: низкоуровневая политика отслеживает команды позиционирования конечных эффекторов и высоты тела, а высокоуровневый планировщик работает с горизонтом планирования N=4 шага. Мировая модель использует рекуррентную нейросеть для поддержания детерминистского латентного состояния динамики и стохастическое латентное состояние размерностью 32 для извлечения абстрактных признаков из наблюдений. Обучение происходит с частотой 25 Гц в реальном времени, обрабатывая 1024 траектории действий за каждый временной шаг.

Экспериментальная валидация проводилась на гуманоидном роботе Unitree G1, оснащенном камерой RealSense D435i. Система демонстрирует три ключевые задачи: опору на стену при внешних возмущениях, блокирование летящих объектов и прохождение под низкими арками. По сравнению с PPO, новый метод завершает задачи, используя всего 0.5 миллиона шагов данных, тогда как PPO требует значительно больше времени, особенно в задачах с визуальным рендерингом. Мультизадачная модель успешно обучается на смешанном датасете от всех задач, формируя отдельные кластеры в латентном пространстве для каждой задачи и демонстрируя способность обобщения на ранее не виденные объекты.

Источник новости и обложки: arxiv.org

Гуманоидные роботы научились планировать физические контакты через компьютерное зрение