DexMan: ИИ учит роботов манипуляциям через видео

Исследователи из Национального университета Тайваня представили DexMan — автоматизированную систему, которая обучает роботов-гуманоидов сложным манипуляциям двумя руками, используя обычные видео с людьми. Система анализирует RGB-видео от третьего лица без калибровки камеры, датчиков глубины или 3D-моделей объектов. Это как если бы робот учился готовить, просматривая кулинарные шоу на YouTube — только вместо рецептов он изучает движения рук и взаимодействие с предметами.

В отличие от предыдущих подходов, которые работали с упрощенными «летающими руками», DexMan управляет полноценным роботом-гуманоидом с двумя ловкими руками. Система показала впечатляющие результаты: превосходство на 0.08 и 0.12 балла в метриках ADD-S и VSD на датасете TACO, а также превышение предыдущих методов на 19% по показателю успешности на бенчмарке OakInk-v2. Ключевое преимущество — способность работать не только с реальными видео, но и с синтетическими, что открывает путь к созданию масштабных датасетов без дорогостоящего motion capture.

Техническая архитектура DexMan состоит из четырех этапов: 3D-реконструкция объектов из видео, восстановление движений рук и объектов, построение стабильной интерактивной сцены в симуляторе и обучение остаточной RL-политики. Система использует комбинацию современных инструментов — от SAM2 для сегментации до FoundationPose для оценки поз объектов. Особенность подхода в том, что он решает проблему «разрыва воплощения» между человеком и роботом через контактные награды, которые направляют робота к надежным захватам вместо простого копирования траекторий.

В экспериментах DexMan продемонстрировал успешность 27.4% на реальных видео TACO и 39.0% на синтетических видео, созданных Veo3. Эти цифры могут показаться скромными, но учитывая сложность задачи — полное восстановление 3D-сцены из одного видео и обучение робота с нуля — результаты впечатляют. Система достигает IoU 49.0% между детектированными масками объектов и симулированными траекториями, что говорит о реалистичности воспроизводимых движений.

Несмотря на прорывной характер, у DexMan есть ограничения: работа только в симуляции, фокус на жестких настольных объектах и приоритет выполнения задачи над естественностью движений. Исследователи признают, что роботы иногда достигают цели неуклюжими способами, далекими от человеческой грации. Тем не менее, DexMan открывает масштабируемый путь для обучения роботов через человеческие демонстрации, избавляя от необходимости дорогостоящего ручного сбора данных и телеуправления.

Источник новости и обложки: arxiv.org

DexMan научил роботов-гуманоидов ловким манипуляциям через видео с людьми