IGen: 75% успеха в робототехнике без реальных данных

Исследователи из Tsinghua University разработали фреймворк IGen для генерации робототехнических данных из интернет-изображений. Политика, обученная на 1000 синтезированных IGen данных, достигла 75.0% успеха в задаче размещения бутылки, в то время как базовая модель показала 0.0%. Политика на IGen-данных превзошла политику, обученную на 100 реальных демонстрациях, которая достигла 66.7% успеха.

Сбор визуомоторных данных на реальных роботах трудоемок и ограничен специфическими средами. Интернет-изображения охватывают разнообразие сценариев, естественно соответствующих робототехническим задачам манипуляции, но отсутствие ассоциированных действий робота препятствует их использованию. IGen преобразует неструктурированные изображения в структурированные 3D-представления сцен для понимания и манипуляции.

Получив изображение открытого мира и описание задачи, IGen сначала восстанавливает окружение и объекты в виде облаков точек с помощью базовых визуальных моделей. После извлечения пространственных ключевых точек, Vision-Language-Model преобразует описание задачи в высокоуровневые планы и низкоуровневые управляющие команды. Во время выполнения действий роботом в симуляции виртуальная камера глубины захватывает последовательности облаков точек движения. Полученная траектория позы используется для синтеза динамических последовательностей облаков точек, которые затем преобразуются кадр за кадром в визуальные наблюдения за манипуляцией. Конечный результат состоит из сгенерированных действий робота и визуальных наблюдений.

Фреймворк использует возможности визуальных моделей для реконструкции сцен как облака точек и пространственных ключевых точек. Vision-language модели выполняют высокоуровневое планирование задач и преобразуют движения в низкоуровневые управляющие функции. Траектория end-effector используется для синтеза последовательности облаков точек сцены с попиксельным рендерингом, генерируя визуальные наблюдения, согласованные с действиями.

IGen требует 8.3 GB GPU-памяти и 18.6 секунд на генерацию одного образца данных. Фреймворк в 30 раз эффективнее TesserAct и в 200 раз эффективнее Cosmos-Predict2 при одинаковых условиях GPU-памяти. Политики, обученные исключительно на IGen-данных, достигли производительности, сопоставимой с политиками на реальных данных.

Эксперименты на DreamGen Bench показали, что IGen генерирует почти в два раза больше видео, следующих инструкциям, по сравнению с бейзлайнами при оценке Qwen-3-VL-Plus. GLM-4.5V оценил 100% IGen-видео как физически согласованные по метрике Physics Alignment. Исследование демонстрирует потенциал IGen для масштабируемой генерации данных из интернет-изображений для обучения генералистских робототехнических политик.

Источник новости и обложки: arxiv.org

Фреймворк IGen генерирует робототехнические данные из интернет-изображений, достигая 75% успеха без реальных демонстраций