Исследователи из Microsoft Research Asia и Университета Цинхуа представили революционный подход к обучению роботов — VLA-модель VITRA, которая учится ловкому манипулированию объектами, анализируя обычные видеозаписи человеческих действий. Модель обработала 1 миллион эпизодов и 26 миллионов кадров из повседневных видео, что в разы превышает масштабы существующих робототехнических датасетов.
Ключевая особенность VITRA — полностью автоматическая обработка неструктурированных видео без человеческой разметки. Система самостоятельно сегментирует атомарные действия рук, восстанавливает 3D-траектории движений и генерирует текстовые описания с помощью GPT-4. Человеческие руки рассматриваются как ловкие роботические манипуляторы, что позволяет напрямую переносить знания на реальных роботов.
В экспериментах VITRA продемонстрировала значительное превосходство над существующими методами. Модель показала сильные zero-shot способности на полностью новых сценах — уровень производительности, которого не достигал ни один предыдущий метод. После дообучения на небольшом количестве реальных робототехнических данных модель существенно улучшила показатели успешности задач и обобщение на новые объекты.
Исследователи также подтвердили масштабируемость подхода — производительность модели линейно растет с увеличением объема данных предобучения. Эксперименты на роботе Realman с 12-степенями свободы XHand показали высокую успешность выполнения задач захвата, функционального схватывания, переливания и подметания даже с невиданными ранее объектами и фонами.
VITRA открывает путь к масштабируемому предобучению VLA-моделей, используя огромные объемы доступных человеческих видео вместо дорогостоящих лабораторных записей. Теперь каждый владелец веб-камеры может стать «учителем роботов» — подход не требует специального оборудования или контролируемых условий съемки.
Источник новости и обложки: arxiv.org