Microsoft создала VLA-модель VITRA, которая обучает роботов манипуляциям на видео человеческих действий

Microsoft создала VLA-модель VITRA, которая обучает роботов манипуляциям на видео человеческих действий

Исследователи из Microsoft Research Asia и Университета Цинхуа представили революционный подход к обучению роботов — VLA-модель VITRA, которая учится ловкому манипулированию объектами, анализируя обычные видеозаписи человеческих действий. Модель обработала 1 миллион эпизодов и 26 миллионов кадров из повседневных видео, что в разы превышает масштабы существующих робототехнических датасетов.

Ключевая особенность VITRA — полностью автоматическая обработка неструктурированных видео без человеческой разметки. Система самостоятельно сегментирует атомарные действия рук, восстанавливает 3D-траектории движений и генерирует текстовые описания с помощью GPT-4. Человеческие руки рассматриваются как ловкие роботические манипуляторы, что позволяет напрямую переносить знания на реальных роботов.

Предлагается подход предварительного обучения для роботизированных моделей Vision-Language-Action (VLA), преобразующий неструктурированные видеозаписи человеческой деятельности в реальной жизни в структурированные форматы V-L-A, согласованные с существующими роботическими данными. Предварительно обученная модель демонстрирует высокую точность в задаче нулевого распознавания действий рук в незнакомых средах и может быть эффективно дообучена на данных о манипуляциях ловкой роботизированной руки для решения реальных задач, показывая надежную генерализацию на новые объекты и условия.

В экспериментах VITRA продемонстрировала значительное превосходство над существующими методами. Модель показала сильные zero-shot способности на полностью новых сценах — уровень производительности, которого не достигал ни один предыдущий метод. После дообучения на небольшом количестве реальных робототехнических данных модель существенно улучшила показатели успешности задач и обобщение на новые объекты.

Архитектура модели VLA. Она состоит из базовой модели VLM и эксперта по диффузионным действиям. Модель VLM получает визуальные и языковые инструкции, а также поле обзора камеры, и выдает когнитивный признак, который направляет эксперта по действиям для прогнозирования будущего набора действий. Эксперт по действиям дополнительно получает текущее состояние исполнительного устройства и маски допустимых действий для итеративного устранения шума в действиях с помощью каузального внимания.

Исследователи также подтвердили масштабируемость подхода — производительность модели линейно растет с увеличением объема данных предобучения. Эксперименты на роботе Realman с 12-степенями свободы XHand показали высокую успешность выполнения задач захвата, функционального схватывания, переливания и подметания даже с невиданными ранее объектами и фонами.

VITRA открывает путь к масштабируемому предобучению VLA-моделей, используя огромные объемы доступных человеческих видео вместо дорогостоящих лабораторных записей. Теперь каждый владелец веб-камеры может стать «учителем роботов» — подход не требует специального оборудования или контролируемых условий съемки.

Источник новости и обложки: arxiv.org


Главред proglib.io . Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров