Нейросеть научилась генерировать реалистичные демонстрации для обучения роботов, привязывая видеодиффузию к траекториям движения. Метод AnchorDream расширяет несколько человеческих демонстраций в большие датасеты без явного моделирования окружения. В симуляторе производительность политик выросла на 36.4%, в реальном мире — удвоилась.
Сбор больших датасетов робототехнических демонстраций остается узким местом для обучения с подражанием — реальные данные дороги, а симуляторы имеют большой sim-to-real разрыв. Существующие генеративные методы изменяют только визуальное представление демонстраций, не создавая новых поведений, или страдают от несоответствий embodiment, порождая неправдоподобные движения. AnchorDream решает эту проблему, обусловливая процесс диффузии рендерами движения робота — это закрепляет embodiment и предотвращает галлюцинации, одновременно синтезируя объекты и окружения, согласованные с кинематикой робота.
Метод начинает с небольшого набора реальных демонстраций, затем эвристически расширяет траектории через возмущения ключевых состояний и рекомбинацию сегментов движения. Вместо реконструкции полных окружений в симуляторе, рендерятся только движения руки робота — без объектов сцены или фонов. Эти воспроизведения траекторий служат сигналом обусловливания для видеогенеративной модели, которая синтезирует объекты, взаимодействия и окружения, согласованные с наблюдаемыми движениями.
В симуляторе RoboCasa обучение на 50 человеческих демонстрациях дало средний success rate 22.5%, добавление 300 AnchorDream-демонстраций подняло его до 30.7% — относительный прирост 36%. Производительность приблизилась к 33.3%, достигнутым с 300 MimicGen-демонстрациями, которые считаются oracle-границей из-за привилегированного доступа к ассетам окружения. В реальных экспериментах на роботе PiPER обучение на 50 человеческих демонстрациях дало средний success rate 28%, добавление 500 AnchorDream-демонстраций подняло его до 63% — удвоение производительности.
Ключевая идея — разделить траектории и окружения: траектории фиксируются первыми, затем окружения генерируются впоследствии. Это избегает явного моделирования сцены и обеспечивает согласованность траектория-окружение.
Источник новости и обложки: arxiv.org