UrbanVerse: 160 реалистичных 3D-симуляций из городских видео для обучения роботов-курьеров

UrbanVerse: ИИ-система превратила 100 000 городских видео в интерактивные 3D-симуляции для роботов

Команда из UCLA создала UrbanVerse — систему, которая автоматически конвертирует обычные городские видео с YouTube в интерактивные 3D-симуляции для обучения роботов навигации. Система включает базу данных из 102 530 аннотированных 3D-объектов и способна генерировать реалистичные городские сцены с физически корректным поведением объектов.

Система UrbanVerse преобразует городские сцены из видеопутешествий по городам в интерактивные среды моделирования с учетом физики, обеспечивая масштабируемое обучение роботов в городских пространствах с возможностью обобщения для реального мира.

В основе UrbanVerse лежат два ключевых компонента. Первый — UrbanVerse-100K, огромная база данных из 102 530 3D-объектов, 306 текстур неба и 288 материалов для дорог и тротуаров. Каждый объект размечен 33 атрибутами, включая физические свойства вроде массы и трения — представьте, как если бы каждый виртуальный мусорный бак знал, сколько он весит и насколько скользкий.

Второй компонент — UrbanVerse-Gen, автоматический конвейер, который «переваривает» видео прогулок по городу и извлекает из них планировки улиц, семантику объектов и освещение. Система анализирует каждый третий кадр видео, определяет 667 категорий городских объектов и восстанавливает трехмерную геометрию сцены с точностью до 1.4 метра на участке длиной 198.7 метра.

Примеры объектов из нашей обширной базы данных городских активов UrbanVerse-100K. Активы варьируются от раздавленной банки размером 0,03 м до 200-метрового небоскреба, все имеют метрическую аннотацию масштаба; обратите внимание на реалистичное соотношение размеров между объектами, а также на материалы дорожного покрытия и тротуаров и карты неба, которые обеспечивают реалистичный вид поверхности и освещения.
Пример аннотированных атрибутов объекта.

Практические испытания показали впечатляющие результаты. Роботы, обученные в симуляциях UrbanVerse, продемонстрировали +30.1% улучшение успешности навигации при переносе в реальный мир по сравнению с предыдущими методами. Система успешно прошла 337-метровую миссию (~1/3 километра) в городских условиях, потребовав лишь двух вмешательств человека — результат, который показывает, что виртуальные улицы действительно могут научить роботов ориентироваться в хаосе настоящего города.

Конвейер UrbanVerse-Gen: (1) На вход получая RGB-видео городского тура, он преобразует семантику объектов, их внешний вид и трёхмерные схемы, а также представления состава поверхности и освещения неба в единый граф сцены, содержащий узлы объектов, поверхности и неба. (2) На основе полученных представлений он извлекает несколько подходящих ассетов из UrbanVerse-100K для каждого узла, используя различные меры сходства. (3) Последовательно собирая по одному подобранному ассету для каждого узла, он генерирует полную сцену-симуляцию цифрового двойника.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров