RoboGhost: прямое управление гуманоидными роботами через язык без ретаргетинга с ускорением в 3 раза

RoboGhost устранил главную проблему управления роботами через язык и ускорил процесс в 3 раза

Исследователи из University of Sydney, BAAI и других ведущих институтов представили RoboGhost — первую диффузионную систему управления гуманоидными роботами, которая работает напрямую с языковыми командами. Новый подход сократил время развертывания с 17.85 секунд до 5.84 секунд и повысил успешность выполнения команд на 5.

Традиционные системы управления роботами работают как многоступенчатый конвейер: сначала декодируют человеческие движения из текста, затем переносят их на морфологию робота, и только потом отслеживают траекторию с помощью физического контроллера. Каждый этап накапливает ошибки, создает высокую задержку и слабо связывает семантику с управлением. RoboGhost решает эту проблему радикально — полностью исключает промежуточные этапы декодирования и ретаргетинга.

RoboGhost представляет собой стратегию управления гуманоидным движением на основе латентных переменных, не требующую ретаргетинга движений и управляемую языковыми командами. Благодаря отказу от зависимости от ретаргетинга движений, система позволяет напрямую управлять роботами с помощью произвольных языковых команд. На рисунке демонстрируются: (a) предыдущий конвейер обработки с ретаргетингом движений, (b) предлагаемый авторами конвейер без ретаргетинга на основе латентных переменных, (c) количественное сравнение процента успешного выполнения и временных затрат между базовой системой и RoboGhost, (d) выполнение сальто назад и (e) танцевальные движения с прыжком вперед.

Ключевая идея системы заключается в использовании скрытых представлений движения как сигналов условий первого класса. Диффузионная политика RoboGhost напрямую генерирует исполняемые действия из шума, сохраняя семантический смысл и обеспечивая быструю реактивную реакцию. Гибридная архитектура трансформер-диффузия обеспечивает долгосрочную согласованность при сохранении стабильности — трансформер отвечает за глобальную последовательность на больших горизонтах, а диффузионный компонент добавляет стабильность для тонкой генерации движений.

В экспериментах RoboGhost продемонстрировал значительные улучшения: коэффициент успешности выше на 5% по сравнению с базовыми методами, сниженная ошибка отслеживания и плавная семантически выровненная локомоция на реальных гуманоидах. Система успешно работает не только с текстом, но и расширяется на другие модальности — изображения, аудио и музыку, предоставляя общую основу для систем зрение-язык-действие.

Обзор RoboGhost. Предлагается двухэтапный подход: сначала генерируется латент движения, затем политика учителя на основе MoE обучается с помощью обучения с подкреплением, а политика ученика на основе диффузии обучается очистке действий от шума с учетом латентного представления движения. Эта схема, управляемая латентными переменными, позволяет обойтись без ретаргетинга движений.
Качественные результаты в IsaacGym и MuJoCo.

Исследователи протестировали систему в трех этапах: симуляция в IsaacGym, кросс-симуляторный перенос в MuJoCo и реальное развертывание на гуманоиде Unitree G1. Политика работает с частотой 50 Гц, а низкоуровневый контроллер — с 500 Гц для обеспечения стабильной актуации в реальном времени. Задержка передачи команд составляет всего 18-30 мс.

RoboGhost открывает новую эпоху в управлении роботами — от хрупкой имитации поз к надежному взаимодействию в реальном времени. Теперь можно просто сказать роботу «иди быстрее» или «поверни налево», и он поймет без сложных промежуточных преобразований. Правда, пока что без танцев под TikTok-хиты — но это уже вопрос времени 🤖

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров