Spatial Forcing учит роботов понимать 3D-пространство без датчиков глубины

Spatial Forcing учит роботов понимать 3D-пространство без датчиков глубины

Исследователи представили Spatial Forcing (SF) — новый метод обучения VLA-моделей (зрение-язык-действие), который позволяет роботам лучше понимать трехмерное пространство без использования датчиков глубины. Технология ускоряет обучение в 3.8 раза по сравнению с традиционными подходами и показывает лучшие результаты как в симуляции, так и в реальных условиях.

Основная проблема современных VLA-моделей заключается в том, что они обучаются на 2D-данных, что мешает им эффективно работать в трехмерном мире. Попытки добавить карты глубины или облака точек сталкиваются с шумом датчиков и неполнотой данных в существующих датасетах. Представьте робота, который пытается взять чашку со стола, видя только плоскую картинку — он не понимает, насколько далеко находится объект.

Spatial Forcing работает как наставник, который учит VLA-модель «видеть» пространство, выравнивая ее внутренние представления с геометрическими данными от предобученных 3D-моделей. Ключевая особенность — выравнивание происходит на промежуточных слоях нейросети, что заставляет модель кодировать более богатые пространственные представления без явного использования 3D-входов.

Эксперименты показали, что SF превосходит как 2D-, так и 3D-based VLA по точности выполнения задач. Метод значительно улучшает эффективность использования данных — роботы быстрее учатся выполнять разнообразные задачи манипуляции. Это особенно важно для реальных применений, где сбор обучающих данных обходится дорого, а каждая ошибка может привести к поломке оборудования.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров