Несмотря на успехи foundation-моделей с миллиардами параметров, обученных на тысячах GPU, аналогичные преимущества масштабирования не были продемонстрированы для управления гуманоидами. Текущие нейронные контроллеры для гуманоидов остаются скромными по размеру, нацелены на ограниченный набор поведений и обучаются на нескольких GPU за несколько дней. Nvidia показала, что масштабирование по трем осям — размер сети (от 1.2M до 42M параметров), объем данных (более 100 млн кадров, 700 часов высококачественных данных о движениях) и вычисления (9k GPU-часов) — дает универсальный контроллер, способный создавать естественные и робастные движения всего тела.
Ключевая проблема масштабирования — выбор задачи: такие задачи как локомоция требуют обширной инженерии наград для каждого сценария — естественная ходьба вперед дает мало сигнала для танцев, вставания с земли или телеоперирования, и каждая новая способность требовала переработки функций награды и целей. Исследователи решили обе проблемы, выбрав motion tracking как масштабируемую базовую задачу: она использует данные захвата человеческих движений с плотным покадровым надзором без инженерии наград, опираясь на десятилетия исследований motion capture. Они масштабировали физический motion tracking до беспрецедентных 100 млн кадров (50 fps) и обучения на 128 GPU, достигнув универсальных возможностей отслеживания разнообразных человеческих поведений с сохранением производительности в реальном времени.
Архитектура использует специализированные энкодеры для обработки разнородных входов от человеческого и робототехнического воплощений в общее латентное представление, которое проходит квантизацию для создания универсального токена. Этот токен управляет общим декодером робота для генерации моторных команд, позволяя политике использовать данные движений из разных источников и имитировать человеческие движения несмотря на морфологические различия. Вспомогательный декодер движений робота используется для улучшения обучения признаков и служит неявным модулем ретаргетинга от человеческого воплощения к робототехническому.
Система использует авторегрессивный подход с кинематическим планировщиком, который непрерывно генерирует будущие кинематические движения на основе предыдущих состояний робота и входящих команд пользователя. Модель генерирует сегменты движений длительностью от 0.8 до 2.4 секунд, где длительность автоматически определяется нейронным планировщиком для максимальной гибкости и робастности. Планировщик достигает времени вывода менее 5 мс на стандартном ноутбуке и 12 мс на Jetson Orin GPU, с переplanированием каждые 100 мс или немедленно при обновлении команд пользователя. Все приложения (навигация с произвольной скоростью и стилем, интерактивный бокс, приседания, ползание) были разработаны после обучения без переобучения планировщика или политики отслеживания — люди с минимальным опытом в анимации или программировании могут легко проектировать новые поведения.
Для демонстрации автономного управления через универсальный токен-интерфейс исследователи собрали 300 траекторий через 3-точечный интерфейс телеоперирования и дообучили на них VLA foundation-модель GR00T N1.5. VLA выдает управляющие сигналы в формате телеоперирования (позы головы и запястий, высота базы (талии), команда навигации), которые передаются в кинематический планировщик и гибридный энкодер, затем выполняются через универсальную политику управления. На задаче мобильной манипуляции «яблоко на тарелку» система достигла 95% успешности за 20 попыток, показывая, что универсальный motion tracker служит робастным контроллером System 1 (быстрые реактивные навыки всего тела), дополняя способности VLA System 2 (медленное обдумывание). Интеграция VLA с универсальным токен-пространством открывает путь к высокоуровневому рассуждению для всего тела поверх отзывчивости, робастности и индуктивных смещений человеческих движений универсального трекера, работающего на существенно более высоких частотах управления.
Источник новости и обложки: arxiv.org