UrbanVerse: ИИ-система превратила 100 000 городских видео в интерактивные 3D-симуляции для роботов

UrbanVerse: ИИ-система превратила 100 000 городских видео в интерактивные 3D-симуляции для роботов

Команда из UCLA создала UrbanVerse — систему, которая автоматически конвертирует обычные городские видео с YouTube в интерактивные 3D-симуляции для обучения роботов навигации. Система включает базу данных из 102 530 аннотированных 3D-объектов и способна генерировать реалистичные городские сцены с физически корректным поведением объектов.

В основе UrbanVerse лежат два ключевых компонента. Первый — UrbanVerse-100K, огромная база данных из 102 530 3D-объектов, 306 текстур неба и 288 материалов для дорог и тротуаров. Каждый объект размечен 33 атрибутами, включая физические свойства вроде массы и трения — представьте, как если бы каждый виртуальный мусорный бак знал, сколько он весит и насколько скользкий.

Второй компонент — UrbanVerse-Gen, автоматический конвейер, который «переваривает» видео прогулок по городу и извлекает из них планировки улиц, семантику объектов и освещение. Система анализирует каждый третий кадр видео, определяет 667 категорий городских объектов и восстанавливает трехмерную геометрию сцены с точностью до 1.4 метра на участке длиной 198.7 метра.

Практические испытания показали впечатляющие результаты. Роботы, обученные в симуляциях UrbanVerse, продемонстрировали +30.1% улучшение успешности навигации при переносе в реальный мир по сравнению с предыдущими методами. Система успешно прошла 337-метровую миссию в городских условиях, потребовав лишь двух вмешательств человека — результат, который показывает, что виртуальные улицы действительно могут научить роботов ориентироваться в хаосе настоящего города.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров