Исследователи из Университета Южной Калифорнии и Toyota Research Institute представили Humanoid Everyday — масштабный датасет для обучения гуманоидных роботов манипуляциям в реальном мире. Датасет содержит 10.3 тысячи траекторий и свыше 3 миллионов кадров данных по 260 задачам в 7 категориях. Это как создать огромную библиотеку видеоуроков для роботов, где каждый урок показывает, как правильно выполнять бытовые задачи — от простого захвата предметов до сложной координации с людьми.

Для сбора данных использовались гуманоидные роботы Unitree G1 с 29 степенями свободы и H1 с 27 степенями свободы, оснащенные камерами Intel RealSense и LiDAR-системами Livox. Операторы управляли роботами через Apple Vision Pro, что позволило записывать естественные движения рук и пальцев. Команда переработала официальное ПО Unitree, снизив задержку управления с 500 мс до 2 мс и в два раза ускорив процесс сбора данных благодаря многопроцессорной архитектуре.
Датасет включает семь категорий задач: базовые манипуляции, работа с деформируемыми объектами, управление шарнирными механизмами, использование инструментов, высокоточные манипуляции, взаимодействие с людьми и локомоция с манипуляциями. Каждая задача содержит около 40 эпизодов с мультимодальными данными — RGB-видео, карты глубины, LiDAR, тактильную обратную связь и описания на естественном языке. Это похоже на то, как человек учится новому навыку, используя зрение, осязание и инструкции одновременно.

Тестирование семи современных алгоритмов имитационного обучения показало, что все методы испытывают серьезные трудности с гуманоидными манипуляциями из-за высокой размерности пространства действий (28 степеней свободы). Лучше всего показала себя модель GR00T N1.5, которая была предварительно обучена на нескольких крупных датасетах гуманоидных роботов. В задаче «вставить розу в вазу» практически все алгоритмы показали 0% успешности, что указывает на необходимость развития более точного визуально-пространственного восприятия.
Авторы также запустили облачную платформу для оценки, которая позволяет исследователям тестировать свои алгоритмы на реальных роботах удаленно. Система работает непрерывно более 100 минут от батареи и требует всего три вмешательства человека из-за перегрева моторов. Это решает главную проблему доступности дорогостоящего оборудования и создает единые стандарты для сравнения различных подходов к обучению гуманоидных роботов.
Источник новости и обложки: arxiv.org