В ближайших планах команды — перенос экспериментов на реальную платформу SO100 ARM для проверки работы в условиях шума и переменного освещения
VLA-модели
Ключевая идея — взаимная имитация: робот учится предсказывать действия человека по своим движениям, а человеческие жесты конвертируются в команды робота через кинематические правила
Для решения задачи используется модель Gemini 2.5 pro, которая выполняет мультимодальное zero-shot рассуждение над геометрией и функциональностью
VLM-агент динамически компонует модули и учится на ошибках в реальном времени
Система достигла 99% успешности выполнения задач на бенчмарке LIBERO и показала рост производительности более 50% в SimplerEnv
Ученые создали виртуальный полигон для роботов, который переводит реальные видео в симуляцию и тестирует более 7000 вариантов поведения
Исследователи обучили робота ловким манипуляциям, анализируя 26 миллионов кадров обычных человеческих видео
Исследователи из Гарвардского университета представили MoTVLA — модель с 14B параметров, которая переключается между быстрым и медленным рассуждением. Архитектура показала высокую эффективность в сложных задачах
Новый метод SF ускоряет обучение до 3.8 раз, позволяя им понимать 3D-пространство без датчиков глубины. Превосходит 2D и 3D VLA-модели
@ИИ









