Исследователи из китайской компании D-Robotics и нескольких университетов представили VO-DP — метод обучения роботов-манипуляторов, который использует только RGB-изображения вместо дорогих датчиков глубины. Новый подход показал 87.9% успешности в реальных задачах, превзойдя метод DP3 на основе облаков точек (67.5%) и классический DP (11.2%).

Основная проблема современных методов — зависимость от дорогой аппаратуры. Представьте: для работы с облаками точек нужны датчики глубины или LiDAR, которые стоят в разы дороже обычных RGB-камер. VO-DP решает эту проблему, используя предобученную модель VGGT для извлечения семантических и геометрических признаков из одного изображения.
В симуляции на бенчмарке RoboTwin с 14 задачами VO-DP достиг средней успешности 64.6% — практически на уровне DP3 (64.0%) и значительно выше DP (34.8%). Особенно впечатляют результаты в сложных сценариях: в задаче Pick Apple Messy успешность выросла с 31.0% до 80.0%, а в Block Hammer Beat — с 0.7% до 85.0%.

Алгоритм использует кросс-внимание для объединения семантической информации от DINOv2 и геометрических данных от блоков Alternating Attention. Затем CNN сжимает признаки в компактное представление сцены для диффузионной политики. Обучение проводилось на 8 NVIDIA A100 в течение 300 эпох.
В реальных экспериментах с роботом Realman RM65-B исследователи протестировали 4 задачи: захват кубиков разного размера, накрывание объектов и укладка блоков. VO-DP показал высокую устойчивость к изменениям освещения, фона и размеров объектов. Например, при тестировании с кубиками от 2.5 см до 5 см (обучение на 3 см) средняя успешность составила 65.0%.

Команда также выпустила DRRM — открытую библиотеку для обучения робототехнических алгоритмов. Она поддерживает многомашинное обучение на нескольких GPU, смешанную точность (bf16, fp16) и совместима с симулятором RoboTwin. Это существенно упростит разработку подобных систем для исследовательского сообщества.
Источник новости и обложки: arxiv.org