Исследователи из Калифорнийского университета в Беркли, Мичиганского университета и Китайского университета Гонконга представили Ego-Vision World Model — систему, которая позволяет гуманоидным роботам эффективно планировать физические контакты с окружающими объектами. Модель обучается предсказывать последствия действий в сжатом латентном пространстве, используя только проприоцептивные данные и эгоцентрические изображения глубины размером 64×48 пикселей.

Традиционные методы оптимизации плохо справляются с комбинаторной сложностью планирования контактов в реальном времени, а обучение с подкреплением требует огромного количества данных — особенно при работе с визуальной информацией. Новый подход объединяет обученную мировую модель с семплирующим Model Predictive Control (MPC), тренируясь на офлайн-датасете без демонстраций. Для решения проблемы разреженных наград за контакты система использует заместительную функцию ценности, которая направляет процесс планирования.

Архитектура включает иерархический контроллер: низкоуровневая политика отслеживает команды позиционирования конечных эффекторов и высоты тела, а высокоуровневый планировщик работает с горизонтом планирования N=4 шага. Мировая модель использует рекуррентную нейросеть для поддержания детерминистского латентного состояния динамики и стохастическое латентное состояние размерностью 32 для извлечения абстрактных признаков из наблюдений. Обучение происходит с частотой 25 Гц в реальном времени, обрабатывая 1024 траектории действий за каждый временной шаг.
Экспериментальная валидация проводилась на гуманоидном роботе Unitree G1, оснащенном камерой RealSense D435i. Система демонстрирует три ключевые задачи: опору на стену при внешних возмущениях, блокирование летящих объектов и прохождение под низкими арками. По сравнению с PPO, новый метод завершает задачи, используя всего 0.5 миллиона шагов данных, тогда как PPO требует значительно больше времени, особенно в задачах с визуальным рендерингом. Мультизадачная модель успешно обучается на смешанном датасете от всех задач, формируя отдельные кластеры в латентном пространстве для каждой задачи и демонстрируя способность обобщения на ранее не виденные объекты.
Источник новости и обложки: arxiv.org