Исследователи из ShanghaiTech University разработали фреймворк Humanoid-LLA, который позволяет гуманоидному роботу Unitree G1 выполнять команды на естественном языке. Система достигла 87.6% успешных выполнений в физических симуляциях и продемонстрирована на реальном роботе.
Существующие методы управления гуманоидами через язык сталкиваются с компромиссом между разнообразием движений и физической правдоподобностью. Основная проблема — дефицит высококачественных данных о физически выполнимых движениях гуманоидных роботов.
Humanoid-LLA основан на трех компонентах: унифицированном словаре движений для человека и гуманоида, контроллере на основе дистилляции и файнтюнинге через обучение с подкреплением. Унифицированный словарь создается через совместную квантизацию парных движений человека и гуманоида с использованием VQ-VAE. Контроллер обучается следовать дискретным токенам движений вместо непрерывных траекторий, что обеспечивает динамическую робастность и стабильность контактов.
Модель обучалась на датасете AMASS, содержащем 26846 последовательностей движений с текстовыми описаниями. Humanoid-LLA превзошел базовые методы: FID составил 2.626 против 6.171 у LangWBC, R-Precision достиг 0.447 против 0.320. По физическим метрикам успешность выполнения составила 87.6% против 80.0% у RLPF, а ошибка позиции — 56.43 мм против 140.00 мм.
Система была развернута на реальном гуманоидном роботе Unitree G1 и протестирована на командах свободной формы. Примеры команд включают военный строевой марш и движения из боевых искусств — термины, которых не было в обучающем датасете. Благодаря возможностям понимания языка и рассуждений о движениях модель генерирует разумные действия даже для абстрактных инструкций.
Источник новости и обложки: arxiv.org