Робот обучился без реальных данных: симуляция + видео людей = 25% прирост

Робот обучился без реальных данных: симуляция + видео людей = 25% прирост

Исследователи создали MiVLA — нейросеть для управления роботами, которая обучается на симуляциях и видео людей вместо дорогих реальных демонстраций. Модель показала на 25% лучшие результаты в симуляциях и на 14% в реальных задачах по сравнению с топовыми методами типа π₀ и H-RDT. Ключевая идея — взаимная имитация: робот учится предсказывать действия человека по своим движениям, а человеческие жесты конвертируются в команды робота через кинематические правила.

Обычно робототехника страдает от дефицита реальных данных — их сбор стоит дорого и не покрывает разнообразие открытого мира. Симуляции дают поведенческие шаблоны для управления, а человеческие видео показывают реальные сцены и задачи, но прямое использование блокируется Sim2Real-разрывом и различиями в морфологии. MiVLA решает это через преобразование действий: движения большого пальца человека мапятся на позицию схвата робота, остальные суставы вычисляются через обратную кинематику.

Архитектура MiVLA строится на DINOv2 и Siglip для обработки изображений, T5 для языка и диффузионном трансформере для генерации действий через flow-matching. Модель обучается предсказывать траектории обоих типов: роботных действий из демонстраций робота и человеческих движений из тех же демонстраций, плюс обратное — роботные команды из человеческих видео. Тесты прошли на бенчмарке RoboTwin-2.0 с 50 задачами в симуляции и трех реальных роботах — одноруком PiPer, одноруком ARX-5 и двуруком LocoMan с четвероногой базой.

В симуляции MiVLA достигла 69% успеха в легком режиме и 66% в сложном с рандомизацией фонов и объектов-отвлекателей. На реальных задачах средний успех составил 55% полного выполнения и 69% частичного — модель справилась с перемещением бутылки на PiPer, уборкой зонтов на ARX-5 и двуручным сбором объектов на LocoMan. Добавление только human-to-robot подняло результат с 37% до 46%, а полная комбинация обоих направлений дала 66% в RoboTwin-2.0.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров