Ученые из Университета Case Western создали NEBULA — систему диагностической оценки роботов с ИИ

Ученые из Университета Case Western создали NEBULA — систему диагностической оценки роботов с ИИ

Исследователи из Университета Case Western Reserve представили NEBULA — комплексную экосистему для оценки роботов с искусственным интеллектом. Система решает критическую проблему современной робототехники: традиционные методы оценки показывают только общий процент успешности задач, но не объясняют, где именно и почему робот терпит неудачу. NEBULA включает более 54 000 экспертных демонстраций и двухосевую систему тестирования.

Основная проблема заключается в том, что существующие системы оценки слишком примитивны. Представьте, что студент получил двойку за контрольную по математике, но вы не знаете — он не умеет складывать числа или не понял условие задачи. Аналогично, когда робот не справляется с задачей «возьми и положи», неясно, проблема в понимании языка, восприятии объектов или планировании движений. Без точной диагностики невозможно улучшить системы.

NEBULA предлагает двухосевую систему тестирования: тесты способностей и стресс-тесты. Первые изолируют конкретные навыки — пространственное мышление, восприятие, понимание языка, управление движением, динамическую адаптацию и устойчивость. Например, для проверки восприятия робот должен просто коснуться правильного объекта, исключая сложности захвата. Стресс-тесты проверяют производительность: частота выводов (до 17 Гц у лучших моделей), задержка отклика (800 мс у худших) и стабильность действий.

Тестирование топовых моделей — GR00T-1.5, SpatialVLA, RDT-1B, MT-ACT — выявило критические недостатки. Все системы практически провалили тесты на динамическую адаптацию и устойчивость, показав результаты близкие к нулю. Даже лучшие модели с трудом справляются с пространственным мышлением, особенно при окклюзии объектов. Интересно, что языковые модели внутри роботов могут правильно планировать действия на 100%, но роботы не способны эти планы выполнить.

Исследование показало, что для динамической адаптации критически важна скорость работы. GR00T-1.5 — единственная модель с умеренной адаптацией (28% успеха) — также оказалась самой быстрой: 16.98 Гц частота и 58.62 мс задержка. Медленные модели практически не способны адаптироваться к изменяющимся условиям. Это указывает на необходимость оптимизации не только алгоритмов, но и скорости отклика систем управления.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров