Гуманоидные роботы научились планировать физические контакты через компьютерное зрение

Гуманоидные роботы научились планировать физические контакты через компьютерное зрение

Исследователи из Калифорнийского университета в Беркли, Мичиганского университета и Китайского университета Гонконга представили Ego-Vision World Model — систему, которая позволяет гуманоидным роботам эффективно планировать физические контакты с окружающими объектами. Модель обучается предсказывать последствия действий в сжатом латентном пространстве, используя только проприоцептивные данные и эгоцентрические изображения глубины размером 64×48 пикселей.

Традиционные методы оптимизации плохо справляются с комбинаторной сложностью планирования контактов в реальном времени, а обучение с подкреплением требует огромного количества данных — особенно при работе с визуальной информацией. Новый подход объединяет обученную мировую модель с семплирующим Model Predictive Control (MPC), тренируясь на офлайн-датасете без демонстраций. Для решения проблемы разреженных наград за контакты система использует заместительную функцию ценности, которая направляет процесс планирования.

Архитектура включает иерархический контроллер: низкоуровневая политика отслеживает команды позиционирования конечных эффекторов и высоты тела, а высокоуровневый планировщик работает с горизонтом планирования N=4 шага. Мировая модель использует рекуррентную нейросеть для поддержания детерминистского латентного состояния динамики и стохастическое латентное состояние размерностью 32 для извлечения абстрактных признаков из наблюдений. Обучение происходит с частотой 25 Гц в реальном времени, обрабатывая 1024 траектории действий за каждый временной шаг.

Экспериментальная валидация проводилась на гуманоидном роботе Unitree G1, оснащенном камерой RealSense D435i. Система демонстрирует три ключевые задачи: опору на стену при внешних возмущениях, блокирование летящих объектов и прохождение под низкими арками. По сравнению с PPO, новый метод завершает задачи, используя всего 0.5 миллиона шагов данных, тогда как PPO требует значительно больше времени, особенно в задачах с визуальным рендерингом. Мультизадачная модель успешно обучается на смешанном датасете от всех задач, формируя отдельные кластеры в латентном пространстве для каждой задачи и демонстрируя способность обобщения на ранее не виденные объекты.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров