NEBULA: Новая система оценки выявила критические пробелы в работе роботов с VLA-моделями

Исследователи из Университета Case Western Reserve представили NEBULA — комплексную экосистему для оценки роботов с VLA-моделями (Vision-Language-Action). Система решает критическую проблему современной робототехники: традиционные методы оценки показывают только общий процент успешности задач, но не объясняют, где именно и почему робот терпит неудачу. NEBULA включает более 54 000 экспертных демонстраций по шести семействам возможностей и двухосевую систему тестирования.

Основная проблема заключается в том, что существующие системы оценки слишком примитивны. Представьте, что студент получил двойку за контрольную по математике, но вы не знаете — он не умеет складывать числа или не понял условие задачи. Аналогично, когда робот не справляется с задачей «возьми и положи», неясно, проблема в понимании языка, восприятии объектов или планировании движений. Без точной диагностики невозможно улучшить системы.

Экосистема NEBULA объединяет разрозненные наборы данных VLA и API для кросс-датасетного обучения и тестирования. Она представляет двойную систему оценки (по возможностям и стресс-тестирование) с изоляцией контролируемых переменных для диагностики конкретных навыков. Благодаря иерархической сложности задач, многомодальным аннотациям и визуальным сводкам производительности, NEBULA преобразует процент успеха в диагностический сигнал, выявляя режимы сбоев и пределы надежности.

NEBULA предлагает двухосевую систему тестирования: тесты способностей и стресс-тесты. Первые изолируют конкретные навыки — пространственное мышление, восприятие, понимание языка, управление движением, динамическую адаптацию и устойчивость. Например, для проверки восприятия робот должен просто коснуться правильного объекта, исключая сложности захвата. Стресс-тесты проверяют производительность: частота выводов (до 17 Гц у лучших моделей), задержка отклика (800 мс у худших) и стабильность действий.

Тестирование современных моделей — GR00T-1.5, SpatialVLA, RDT-1B, MT-ACT, Diffusion Policy, ACT — выявило критические недостатки. Все системы практически провалили тесты на динамическую адаптацию и устойчивость, показав результаты близкие к нулю. Даже лучшие модели с трудом справляются с пространственным мышлением, особенно при окклюзии объектов. Интересно, что языковые модели внутри роботов могут правильно планировать действия на 100%, но роботы не способны эти планы выполнить.

Примеры задач тестирования возможностей NEBULA по шести основным направлениям (Управление, Восприятие, Динамическая адаптация, Язык, Пространственное мышление и Надежность), распределённых по трем уровням сложности. Задачи направлены на изолированную проверку конкретных навыков при контролируемой сложности. Зеленый цвет обозначает объекты, красный — цели, а синий указывает на контекстные ориентиры. Жирный подчёркнутый текст показывает действия; курсивный подчеркнутый текст дает пояснения.

Исследование показало, что для динамической адаптации критически важна скорость работы. GR00T-1.5 — единственная модель с умеренной адаптацией (28% успеха) — также оказалась самой быстрой: 16.98 Гц частота и 58.62 мс задержка. Медленные модели практически не способны адаптироваться к изменяющимся условиям. Это указывает на необходимость оптимизации не только алгоритмов, но и скорости отклика систем управления.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров