Исследователи из Чжэцзянского университета представили StaMo — подход к обучению роботов, который кодирует состояние робота всего в 2 токена размером 1024 измерения каждый. В отличие от традиционных методов, требующих видеопоследовательности, StaMo извлекает информацию о движении напрямую из статичных изображений, улучшая производительность на 14.3% в симуляции LIBERO и на 30% в реальных задачах.
Основа метода — использование Diffusion Transformer (DiT) в качестве декодера, предварительно обученного на интернет-данных. Как переводчик, который понимает язык движений: энкодер сжимает изображение в компактное представление, а декодер восстанавливает полную картину благодаря своим знаниям о физическом мире. Ключевое открытие заключается в том, что движение робота естественным образом возникает как разность между токенами состояний: движение = состояние_цель — состояние_старт.

В экспериментах по линейному зондированию StaMo продемонстрировал превосходство над базовыми методами при прогнозировании действий на горизонтах от 1 до 8 шагов. Метод показал значительно меньшую ошибку MSE по сравнению с LAPA и другими подходами, использующими разности пикселей или признаков DINOv2. Это доказывает, что простая разность в латентном пространстве содержит богатую информацию о движении.
StaMo масштабируется на разнообразных источниках данных — от симуляций до видео от первого лица. В реальных экспериментах с роботом Franka метод успешно справился с 6 задачами разной сложности: от простого захвата игрушек до сложной укладки чашек по размеру. Частота работы системы составляет 20 Гц, что обеспечивает плавность движений при сохранении эффективности обучения.

Интеграция в существующие модели Vision-Language-Action происходит с минимальными накладными расходами на вывод. Как дополнительный «мозговой центр» для планирования, StaMo позволяет роботам не просто реагировать на команды, но и предсказывать будущие состояния мира. Это особенно эффективно для моделей с длинными горизонтами планирования, где стабильное целевое состояние важнее пошагового движения.
Источник новости и обложки: arxiv.org