Spatial Forcing учит роботов понимать 3D-пространство без датчиков глубины

Spatial Forcing учит роботов понимать 3D-пространство без датчиков глубины

Исследователи представили Spatial Forcing (SF) — новый метод обучения VLA-моделей (зрение-язык-действие), который позволяет роботам лучше понимать трехмерное пространство без использования датчиков глубины. Технология ускоряет обучение в 3.8 раза по сравнению с традиционными подходами и показывает лучшие результаты как в симуляции, так и в реальных условиях.

Предлагаемый метод, Spatial Forcing (SF), неявно заставляет VLA-модели приобретать пространственные знания. (a) SF выравнивает промежуточные визуальные эмбеддинги VLA-моделей с геометрическими представлениями из предварительно обученных 3D-фундаментальных моделей. (b) Эта простая, но эффективная стратегия приводит к значительному повышению эффективности обучения и точности тестирования. (c) Глубинный пробинг доказывает, что метод SF вносит пространственную информацию в выровненные представления, дополнительно улучшая 3D-восприятие.

Основная проблема современных VLA-моделей заключается в том, что они обучаются на 2D-данных, что мешает им эффективно работать в трехмерном мире. Попытки добавить карты глубины или облака точек сталкиваются с шумом датчиков и неполнотой данных в существующих датасетах. Представьте робота, который пытается взять чашку со стола, видя только плоскую картинку — он не понимает, насколько далеко находится объект.

Сравнение различных парадигм для трёхмерных вертикально-интегрированных массивов.
Исследование пространственных свойств визуальных эмбеддингов моделей VLAs. Эмбеддинги, обученные исключительно на двумерных изображениях без выравнивания, не формируют осмысленных пространственных структур. Выровненные эмбеддинги изначально содержат богатую пространственную информацию, что обеспечивает их превосходную производительность при оценке глубины.

Spatial Forcing работает как наставник, который учит VLA-модель «видеть» пространство, выравнивая ее внутренние представления с геометрическими данными от предобученных 3D-моделей. Ключевая особенность — выравнивание происходит на промежуточных слоях нейросети, что заставляет модель кодировать более богатые пространственные представления без явного использования 3D-входов.

Эксперименты показали, что SF превосходит как 2D-, так и 3D-based VLA по точности выполнения задач. Метод значительно улучшает эффективность использования данных в разнообразных роботизированных задачах. Это особенно важно для реальных применений, где сбор обучающих данных обходится дорого, а каждая ошибка может привести к поломке оборудования.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров