Исследователи из UC Berkeley и NYU разработали GenMimic — фреймворк, который позволяет гуманоидному роботу выполнять человеческие движения из сгенерированных видео без дообучения. Робот Unitree G1 успешно воспроизводит последовательности действий по синтетическому видео в zero-shot режиме. Система работает в два этапа: сначала видео преобразуется в 4D-представление человека с ретаргетингом на морфологию робота, затем политика обучения с подкреплением генерирует физически стабильные траектории.
Ключевая проблема генеративных видео — морфологические искажения и шум, которые делают прямое копирование невозможным. GenMimic использует две инновации: взвешенную комбинацию 3D-точек, которая приоритизирует отслеживание end effectors над нижней частью тела, и вспомогательную функцию потерь симметрии. Функция симметрии обеспечивает механизм коррекции ошибок — когда одна сторона движения содержит шум, политика использует информацию от зеркального отражения.
Исследователи создали GenMimicBench — датасет из 428 синтетических видео, сгенерированных моделями Wan2.1 и Cosmos-Predict2. Wan2.1 предоставляет 217 чистых мультивидовых видео из NTU RGB+D с пятью субъектами в структурированных действиях и композициях. Cosmos-Predict2 дополняет датасет 211 видео из PennAction с восемью субъектами в реалистичных окружениях с взаимодействием с объектами. Эти партиции обеспечивают бенчмарк для оценки робастности политики и zero-shot генерализации через визуальные, морфологические и распределенные сдвиги движения.
В симуляции GenMimic достиг Success Rate 86,77% на GenMimicBench, превосходя BeyondMimic с 23,81% и TWIST с 2,69%. Метод показал MPKPE 16,63 см и MPKPE-NT 20,46 см, что значительно лучше базовых методов. В реальном мире на роботе Unitree G1 политика успешно воспроизвела широкий диапазон движений верхней части тела, включая махание, указывание, достижение и их последовательности. Композиции с движениями нижней части тела увеличивают сложность — для поворотов политика надежно достигает желаемой ориентации, но часто спотыкается.
Взвешенная комбинация ключевых точек повысила Success Rate с 50,0% до 97,7% на AMASS, а симметрия увеличила SR до 99,3%. Обучение проводилось в IsaacGym на 1,5 миллиарда сэмплов с использованием четырех NVIDIA RTX 4090. Политика работает на частоте 50 Гц, в то время как PD-контроллер работает на 200 Гц с синхронизированным 4-кратным sub-stepping.
Источник новости и обложки: arxiv.org