Гуманоидный робот Unitree G1 выполняет команды на естественном языке с успешностью 87.6%

Гуманоидный робот Unitree G1 выполняет команды на естественном языке с успешностью 87.6%

Исследователи из ShanghaiTech University разработали фреймворк Humanoid-LLA, который позволяет гуманоидному роботу Unitree G1 выполнять команды на естественном языке. Система достигла 87.6% успешных выполнений в физических симуляциях и продемонстрирована на реальном роботе.

Существующие методы управления гуманоидами через язык сталкиваются с компромиссом между разнообразием движений и физической правдоподобностью. Основная проблема — дефицит высококачественных данных о физически выполнимых движениях гуманоидных роботов.

Humanoid-LLA основан на трех компонентах: унифицированном словаре движений для человека и гуманоида, контроллере на основе дистилляции и файнтюнинге через обучение с подкреплением. Унифицированный словарь создается через совместную квантизацию парных движений человека и гуманоида с использованием VQ-VAE. Контроллер обучается следовать дискретным токенам движений вместо непрерывных траекторий, что обеспечивает динамическую робастность и стабильность контактов.

Обзор Humanoid-LLA. На первом этапе создается унифицированный словарь движений на основе масштабного набора парных данных о движениях человека и гуманоида. Имея кинематическую цель движения гуманоида и соответствующий поиск в словаре, из контроллера-учителя, отслеживающего цель, выделяется контроллер-ученик для гуманоида, направляемый словарем. Первые два этапа позволяют на третьем этапе получать различные сенсорные данные от гуманоида напрямую из физической симуляции без декодирования, что обеспечивает высокую физическую достоверность и языковую обобщаемость LLA.

Модель обучалась на датасете AMASS, содержащем 26846 последовательностей движений с текстовыми описаниями. Humanoid-LLA превзошел базовые методы: FID составил 2.626 против 6.171 у LangWBC, R-Precision достиг 0.447 против 0.320. По физическим метрикам успешность выполнения составила 87.6% против 80.0% у RLPF, а ошибка позиции — 56.43 мм против 140.00 мм.

Система была развернута на реальном гуманоидном роботе Unitree G1 и протестирована на командах свободной формы. Примеры команд включают военный строевой марш и движения из боевых искусств — термины, которых не было в обучающем датасете. Благодаря возможностям понимания языка и рассуждений о движениях модель генерирует разумные действия даже для абстрактных инструкций.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров