Исследователи из University of Sydney, BAAI и других ведущих институтов представили RoboGhost — первую диффузионную систему управления гуманоидными роботами, которая работает напрямую с языковыми командами. Новый подход сократил время развертывания с 17.85 секунд до 5.84 секунд и повысил точность выполнения команд на 5%.
Традиционные системы управления роботами работают как многоступенчатый конвейер: сначала декодируют человеческие движения из текста, затем переносят их на морфологию робота, и только потом отслеживают траекторию с помощью физического контроллера. Каждый этап накапливает ошибки, создает высокую задержку и слабо связывает семантику с управлением. RoboGhost решает эту проблему радикально — полностью исключает промежуточные этапы декодирования и ретаргетинга.

Ключевая идея системы заключается в использовании скрытых представлений движения как сигналов условий первого класса. Диффузионная политика RoboGhost напрямую генерирует исполняемые действия из шума, сохраняя семантический смысл и обеспечивая быструю реактивную реакцию. Гибридная архитектура трансформер-диффузия обеспечивает долгосрочную согласованность при сохранении стабильности — трансформер отвечает за глобальную последовательность на больших горизонтах, а диффузионный компонент добавляет стабильность для тонкой генерации движений.
В экспериментах RoboGhost продемонстрировал значительные улучшения: коэффициент успешности выше на 5% по сравнению с базовыми методами, сниженная ошибка отслеживания и плавная семантически выровненная локомоция на реальных гуманоидах. Система успешно работает не только с текстом, но и расширяется на другие модальности — изображения, аудио и музыку, предоставляя общую основу для систем зрение-язык-действие.


Исследователи протестировали систему в трех этапах: симуляция в IsaacGym, кросс-симуляторный перенос в MuJoCo и реальное развертывание на гуманоиде Unitree G1. Политика работает с частотой 50 Гц, а низкоуровневый контроллер — с 500 Гц для обеспечения стабильной актуации в реальном времени. Задержка передачи команд составляет всего 18-30 мс.
RoboGhost открывает новую эпоху в управлении роботами — от хрупкой имитации поз к надежному взаимодействию в реальном времени. Теперь можно просто сказать роботу «иди быстрее» или «поверни налево», и он поймет без сложных промежуточных преобразований. Правда, пока что без танцев под TikTok-хиты — но это уже вопрос времени 🤖
Источник новости и обложки: arxiv.org