AnchorDream: обучение роботов за 10 часов без 3D-моделей

Нейросеть научилась генерировать реалистичные демонстрации для обучения роботов, привязывая видеодиффузию к траекториям движения. Метод AnchorDream расширяет несколько человеческих демонстраций в большие датасеты без явного моделирования окружения. В симуляторе производительность политик выросла на 36.4%, в реальном мире — удвоилась.

Сбор больших датасетов робототехнических демонстраций остается узким местом для обучения с подражанием — реальные данные дороги, а симуляторы имеют большой sim-to-real разрыв. Существующие генеративные методы изменяют только визуальное представление демонстраций, не создавая новых поведений, или страдают от несоответствий embodiment, порождая неправдоподобные движения. AnchorDream решает эту проблему, обусловливая процесс диффузии рендерами движения робота — это закрепляет embodiment и предотвращает галлюцинации, одновременно синтезируя объекты и окружения, согласованные с кинематикой робота.

Обзор AnchorDream. AnchorDream перепрофилирует предварительно обученную модель диффузии видео в модель мира, учитывающую воплощение. Условившись на видеозаписях движений робота, модель закрепляет конкретное воплощение робота, чтобы предотвратить галлюцинации, одновременно синтезируя объекты и окружение, согласованные с движением. Это позволяет создавать масштабные и качественные демонстрации, исходя лишь из небольшого количества реальных примеров.

Контур предложенной системы AnchorDream. Исходя из небольшого набора демонстраций, выполненных человеком через телеуправление, новые траектории создаются путем изменения ключевых состояний и перекомбинации сегментов движения для обеспечения кинематической реализуемости. Каждая расширенная траектория визуализируется как видео с движением только робота. Это видео вместе с описанием задачи задает условия для AnchorDream, чтобы синтезировать реалистичные демонстрации, в которых объекты окружения соответствуют запланированной траектории. Данная конструкция якорно привязывает генерацию к движению робота, избегая явной реконструкции сцены и снижая потребность в трудоемком моделировании окружения. Синтезированные демонстрации затем используются для обучения последующих политик имитационного обучения, что позволяет ограниченные человеческие данные расширить в масштабные, высококачественные наборы данных, способствующие более эффективному обучению политик.

Метод начинает с небольшого набора реальных демонстраций, затем эвристически расширяет траектории через возмущения ключевых состояний и рекомбинацию сегментов движения. Вместо реконструкции полных окружений в симуляторе, рендерятся только движения руки робота — без объектов сцены или фонов. Эти воспроизведения траекторий служат сигналом обусловливания для видеогенеративной модели, которая синтезирует объекты, взаимодействия и окружения, согласованные с наблюдаемыми движениями.

В симуляторе RoboCasa обучение на 50 человеческих демонстрациях дало средний success rate 22.5%, добавление 300 AnchorDream-демонстраций подняло его до 30.7% — относительный прирост 36%. Производительность приблизилась к 33.3%, достигнутым с 300 MimicGen-демонстрациями, которые считаются oracle-границей из-за привилегированного доступа к ассетам окружения. В реальных экспериментах на роботе PiPER обучение на 50 человеческих демонстрациях дало средний success rate 28%, добавление 500 AnchorDream-демонстраций подняло его до 63% — удвоение производительности.

Ключевая идея — разделить траектории и окружения: траектории фиксируются первыми, затем окружения генерируются впоследствии. Это избегает явного моделирования сцены и обеспечивает согласованность траектория-окружение.

Источник новости и обложки: arxiv.org

Робот научился хватать предметы за 10 часов — без 3D-моделей