PhysWorld: роботы научились манипулировать объектами, обучаясь на сгенерированных видео

PhysWorld: роботы научились манипулировать объектами, обучаясь на сгенерированных видео

Ученые из Google DeepMind и партнерских университетов разработали PhysWorld — систему, которая учит роботов выполнять задачи, глядя на сгенерированные искусственным интеллектом видео. Достаточно одной фотографии и текстовой команды, чтобы система создала видео с демонстрацией задачи и обучила робота ее выполнять.

Главная проблема прямого копирования движений из видео заключается в том, что они игнорируют физические законы. Видео может показывать визуально правдоподобные действия, но робот в реальном мире нуждается в физически точных командах для корректного взаимодействия с объектами. PhysWorld решает эту проблему, создавая физическую модель мира из сгенерированного видео — цифровой двойник сцены, который обеспечивает реалистичную обратную связь.

Процесс работы PhysWorld состоит из нескольких этапов. Сначала система генерирует видео с помощью модели Veo3, показывающее выполнение задачи. Затем она восстанавливает 4D-представление сцены, оценивая глубину для каждого кадра и калибруя ее по реальным метрическим масштабам с помощью исходного RGB-D изображения. После этого система создает текстурированные 3D-модели объектов и фона, используя генеративные модели для заполнения невидимых областей. Наконец, эти модели собираются в физически интерактивную сцену с оценкой физических свойств, выравниванием по гравитации и оптимизацией коллизий.

Для обучения робота система использует объектно-ориентированный подход с остаточным обучением с подкреплением. Вместо копирования движений рук или робота из видео, которые часто содержат галлюцинированных роботов или человеческие руки, PhysWorld фокусируется на отслеживании движений объектов — они более стабильны и надежно оцениваются. Система извлекает позы объектов из каждого кадра видео с помощью FoundationPose и использует их как цели для обучения. Остаточное обучение комбинирует базовые действия от модели захвата и планировщика движений с коррекциями от политики обучения с подкреплением, что сужает пространство поиска и ускоряет сходимость.

Эксперименты на десяти различных задачах манипуляции в реальном мире показали впечатляющие результаты. PhysWorld достиг средней успешности 82%, значительно превзойдя ближайший аналог RIGVid с показателем 67%. Система успешно выполняла такие задачи, как вытирание доски, полив цветов, размещение книги на полке, переливание содержимого со сковороды на тарелку и закрывание кастрюли крышкой. Анализ показал, что физическая модель мира существенно снижает количество ошибок захвата с 18% до 3% и полностью устраняет ошибки отслеживания. Важно, что система работает в режиме zero-shot — без необходимости сбора реальных демонстраций от робота для каждой конкретной задачи.

Источник новости и обложки: arxiv.org


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров