VO-DP: робот научился работать только по RGB-камере с точностью 87.9%

Исследователи из китайской компании D-Robotics и нескольких университетов представили VO-DP — метод обучения роботов-манипуляторов, который использует только RGB-изображения вместо дорогих датчиков глубины. Новый подход показал 87.9% успешности в реальных задачах, превзойдя метод DP3 на основе облаков точек (67.5%) и классический DP (11.2%).

VO-DP состоит из четырех основных модулей: 1) VGGT Encoder извлекает семантические признаки из разбитых на патчи изображений с помощью DINOv2 и генерирует геометрические признаки через свою AA-сеть; 2) Semantic-Geometric Fuser объединяет геометрические и семантические признаки для каждого кадра, используя остаточное перекрестное внимание и FFN; 3) модуль Spatial Compression изменяет форму объединенных признаков, уменьшает их разрешение с помощью облегченной ResNet и объединяет сжатые пространственные признаки с проприоцептивными данными для формирования компактных представлений сценария; 4) модуль Vision-Only Conditioned Action Generation использует основанную на DDPM политику для генерации действий на основе представлений сценария.

Основная проблема современных методов — зависимость от дорогой аппаратуры. Представьте: для работы с облаками точек нужны датчики глубины или LiDAR, которые стоят в разы дороже обычных RGB-камер. VO-DP решает эту проблему, используя предобученную модель VGGT для извлечения семантических и геометрических признаков из одного изображения.

В симуляции на бенчмарке RoboTwin с 14 задачами VO-DP достиг средней успешности 64.6% — практически на уровне DP3 (64.0%) и значительно выше DP (34.8%). Особенно впечатляют результаты в сложных сценариях: в задаче Pick Apple Messy успешность выросла с 31.0% до 80.0%, а в Block Hammer Beat — с 0.7% до 85.0%.

Общая архитектура VO-DP. VO-DP состоит из четырех основных модулей: 1) VGGT Encoder извлекает семантические признаки из разбитых на патчи изображений с помощью DINOv2 и генерирует геометрические признаки через свою AA-сеть; 2) Semantic-Geometric Fuser объединяет геометрические и семантические признаки для каждого кадра, используя остаточное перекрестное внимание и FFN; 3) модуль Spatial Compression изменяет форму объединенных признаков, уменьшает их разрешение с помощью облегченной ResNet и объединяет сжатые пространственные признаки с проприоцептивными данными для формирования компактных представлений сценария; 4) модуль Vision-Only Conditioned Action Generation использует основанную на DDPM политику для генерации действий на основе представлений сценария.

Алгоритм использует кросс-внимание для объединения семантической информации от DINOv2 и геометрических данных от блоков Alternating Attention. Затем CNN сжимает признаки в компактное представление сцены для диффузионной политики. Обучение проводилось на 8 NVIDIA A100 в течение 300 эпох.

В реальных экспериментах с роботом Realman RM65-B исследователи протестировали 4 задачи: захват кубиков разного размера, накрывание объектов и укладка блоков. VO-DP показал высокую устойчивость к изменениям освещения, фона и размеров объектов. Например, при тестировании с кубиками от 2.5 см до 5 см (обучение на 3 см) средняя успешность составила 65.0%.

Сравнительный анализ симуляции – 14 задач двурукого манипулирования. Слева: RGB-изображение задачи сверху. Справа: реконструированные облака точек с помощью VGGT.

Команда также выпустила DRRM — открытую библиотеку для обучения робототехнических алгоритмов. Она поддерживает многомашинное обучение на нескольких GPU, смешанную точность (bf16, fp16) и совместима с симулятором RoboTwin. Это существенно упростит разработку подобных систем для исследовательского сообщества.

Источник новости и обложки: arxiv.org

VO-DP: алгоритм для роботов научился управлять манипуляторами только по RGB-камере