Команда ученых из университета Цинхуа и компании GigaAI представила R2RGen — систему генерации обучающих данных для роботов, которая работает исключительно с реальными данными без использования симуляций. Главная проблема современной робототехники заключается в том, что для обучения универсальной политики управления роботом требуются сотни демонстраций человека, чтобы покрыть различные пространственные конфигурации объектов. R2RGen решает эту задачу, генерируя разнообразные данные из одной единственной человеческой демонстрации.
Ключевое преимущество R2RGen заключается в работе с 3D облаками точек напрямую, что позволяет избежать временозатратных процессов рендеринга и симуляций. Система поддерживает мобильных роботов, работает с сырыми данными сенсоров и может обрабатывать любое количество объектов одновременно. В отличие от предыдущих решений вроде DemoGen, которые были ограничены работой с максимум 2 объектами и требовали обрезанных облаков точек, R2RGen справляется со сложными многообъектными композициями.
Главная инновация системы — групповая стратегия аугментации, которая связывает каждый навык с группой объектов, а не с одним целевым объектом. Это критически важно для сложных задач вроде «построить мост», где нужно сохранить точные пространственные отношения между опорами моста на расстоянии определенной дистанции. Система также включает механизм обратного отслеживания для аугментации 3D-наблюдений без нарушения причинно-следственного порядка операций. Дополнительно R2RGen использует camera-aware обработку для обеспечения соответствия аугментированных данных распределению реальных 3D-сенсоров.

Экспериментальные результаты впечатляют: политика, обученная на данных R2RGen с использованием одной демонстрации, превосходит политики, обученные на в 25 раз большем количестве человеческих демонстраций. Система была протестирована на 8 репрезентативных задачах, включая простые операции вроде открытия банки, сложные многообъектные задачи типа построения моста, и бимануальные операции. R2RGen показал особенно сильные результаты в задачах, требующих пространственной генерализации — способности робота работать при различных расположениях объектов, окружения и самого агента.
Практическое применение R2RGen выходит далеко за рамки лабораторных условий. Система успешно работает с мобильными манипуляторами, где изменение позиции базы создает дополнительные вариации точек обзора, еще больше увеличивая требования к обучающим данным. Более того, R2RGen демонстрирует способность к масштабированию: добавление большего количества исходных демонстраций приводит к постепенному насыщению производительности, что соответствует ограничениям используемой политики iDP3 с легковесным PointNet энкодером. Исследователи также показали, что система может способствовать не только пространственной, но и внешней генерализации — адаптации к новым экземплярам объектов и окружениям.
Источник новости и обложки: arxiv.org