Исследователи из Tsinghua University разработали фреймворк IGen для генерации робототехнических данных из интернет-изображений. Политика, обученная на 1000 синтезированных IGen данных, достигла 75.0% успеха в задаче размещения бутылки, в то время как базовая модель показала 0.0%. Политика на IGen-данных превзошла политику, обученную на 100 реальных демонстрациях, которая достигла 66.7% успеха.
Сбор визуомоторных данных на реальных роботах трудоемок и ограничен специфическими средами. Интернет-изображения охватывают разнообразие сценариев, естественно соответствующих робототехническим задачам манипуляции, но отсутствие ассоциированных действий робота препятствует их использованию. IGen преобразует неструктурированные изображения в структурированные 3D-представления сцен для понимания и манипуляции.
Фреймворк использует возможности визуальных моделей для реконструкции сцен как облака точек и пространственных ключевых точек. Vision-language модели выполняют высокоуровневое планирование задач и преобразуют движения в низкоуровневые управляющие функции. Траектория end-effector используется для синтеза последовательности облаков точек сцены с попиксельным рендерингом, генерируя визуальные наблюдения, согласованные с действиями.
IGen требует 8.3 GB GPU-памяти и 18.6 секунд на генерацию одного образца данных. Фреймворк в 30 раз эффективнее TesserAct и в 200 раз эффективнее Cosmos-Predict2 при одинаковых условиях GPU-памяти. Политики, обученные исключительно на IGen-данных, достигли производительности, сопоставимой с политиками на реальных данных.
Эксперименты на DreamGen Bench показали, что IGen генерирует почти в два раза больше видео, следующих инструкциям, по сравнению с бейзлайнами при оценке Qwen-3-VL-Plus. GLM-4.5V оценил 100% IGen-видео как физически согласованные по метрике Physics Alignment. Исследование демонстрирует потенциал IGen для масштабируемой генерации данных из интернет-изображений для обучения генералистских робототехнических политик.
Источник новости и обложки: arxiv.org