Исследователи представили RobotArena — новую платформу для масштабного тестирования робототехнических систем, которая переносит оценку VLA в крупномасштабные симулированные среды с онлайн-обратной связью от людей. Новый фреймворк решает критическую проблему оценки универсальных роботов, способных выполнять разнообразные задачи в различных средах.
Основная инновация RobotArena∞ заключается в автоматическом переводе видеодемонстраций из реального мира в симулированные среды с использованием достижений в области vision-language моделей, 2D-to-3D генеративного моделирования и дифференцируемого рендеринга. Платформа автоматически извлекает из демонстрационных видео пять ключевых элементов: 6-DoF позу камеры относительно робота, 3D-реконструкции сеток объектов с их ориентациями, размерами и свойствами материалов, карту глубины сцены, чистое фоновое изображение и коэффициенты ПД-регулятора (proportional–derivative control gains).
Для оценки производительности робототехнических политик исследователи применили два подхода: абсолютную оценку через VLM и краудсорсинговых работников, оценивающих прогресс выполнения задач, и относительную оценку через парные сравнения различных выполнений одной задачи. Особое внимание уделяется тестированию устойчивости через систематические возмущения сред — изменения текстур и размещения объектов.
В рамках начального бенчмарка команда собрала более 7000 парных предпочтений через сто номинальных сред и сотни возмущений, сравнивая четыре VLA от независимых лабораторий по всему миру. Результаты показали, что VLA демонстрируют заметную чувствительность к различиям в датасетах — их производительность снижается при оценке в средах за пределами тех, что использовались при обучении, что указывает на то, что текущие модели еще не являются истинными универсальными системами.
Источник новости и обложки: arxiv.org