DexMan: как роботы-гуманоиды осваивают ловкие манипуляции из видео с людьми

Исследователи из Национального университета Тайваня представили DexMan — автоматизированную систему, которая обучает роботов-гуманоидов сложным манипуляциям двумя руками, используя обычные видео с людьми. Система анализирует RGB-видео от третьего лица без калибровки камеры, датчиков глубины или 3D-моделей объектов. Это как если бы робот учился готовить, просматривая кулинарные шоу на YouTube — только вместо рецептов он изучает движения рук и взаимодействие с предметами.

В отличие от предыдущих подходов, которые работали с упрощенными «летающими руками», DexMan управляет полноценным роботом-гуманоидом с двумя ловкими руками. Система показала улучшение на 0.08 и 0.12 балла в метриках ADD-S и VSD на датасете TACO, а также превышение предыдущих методов на 19% по показателю успешности на бенчмарке OakInk-v2. Ключевое преимущество — способность работать не только с реальными видео, но и с синтетическими, что открывает путь к созданию масштабных датасетов без дорогостоящего motion capture.

Техническая архитектура DexMan состоит из четырех этапов: 3D-реконструкция объектов из видео, восстановление движений рук и объектов, построение стабильной интерактивной сцены в симуляторе и обучение остаточной RL-политики. Система использует комбинацию современных инструментов — от SAM2 для сегментации до FoundationPose для оценки поз объектов. Особенность подхода в том, что он решает проблему «разрыва воплощения» между человеком и роботом через контактные награды, которые направляют робота к надежным захватам вместо простого копирования траекторий.

Обзор DexMan
Обзор DexMan. DexMan — это фреймворк для приобретения роботом навыков из видеозаписей с человеком. В верхней части: на основе монокулярного видеовхода DexMan восстанавливает меши объектов, оценивает глубину сцены и восстанавливает трёхмерные движения руки и объекта, после чего переносит их на полноценного человекообразного робота в моделировании (Makoviychuk et al., 2021), а не на изолированные модели кистей. В нижней части: остаточная политика обучения с подкреплением (RL) уточняет перенесённые движения для воспроизведения траекторий объекта, используя априорные данные о движении человека и контактах. DexMan вводит контактное вознаграждение, которое способствует формированию стабильных захватов для эффективного обучения с подкреплением, позволяя роботу выполнять продемонстрированные манипуляционные задачи.

В экспериментах DexMan продемонстрировал успешность 27.4% на реальных видео TACO и 39.0% на синтетических видео, созданных Veo3. Эти цифры могут показаться скромными, но учитывая сложность задачи — полное восстановление 3D-сцены из одного видео и обучение робота с нуля — результаты впечатляют. Система достигает IoU 49.0% между детектированными масками объектов и симулированными траекториями, что говорит о реалистичности воспроизводимых движений.

Несмотря на прорывной характер, у DexMan есть ограничения: работа только в симуляции, фокус на жестких настольных объектах и приоритет выполнения задачи над естественностью движений. Исследователи признают, что роботы иногда достигают цели неуклюжими способами, далекими от человеческой грации. Тем не менее, DexMan открывает масштабируемый путь для обучения роботов через человеческие демонстрации, избавляя от необходимости дорогостоящего ручного сбора данных и телеуправления.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров