StaMo: ИИ научился извлекать движения роботов из статичных изображений

Исследователи из Чжэцзянского университета представили StaMo — подход к обучению роботов, который кодирует состояние робота всего в 2 токена размером 1024 измерения каждый. В отличие от традиционных методов, требующих видеопоследовательности, StaMo извлекает информацию о движении напрямую из статичных изображений, улучшая производительность на 14.3% в симуляции LIBERO и на 30% в реальных задачах.

Основа метода — использование Diffusion Transformer (DiT) в качестве декодера, предварительно обученного на интернет-данных. Как переводчик, который понимает язык движений: энкодер сжимает изображение в компактное представление, а декодер восстанавливает полную картину благодаря своим знаниям о физическом мире. Ключевое открытие заключается в том, что движение робота естественным образом возникает как разность между токенами состояний: движение = состояние_цель — состояние_старт.

Обзор фреймворка StaMo. Метод эффективно сжимает и кодирует визуальные представления робота, позволяя обучиться компактному представлению состояния. Движение естественным образом возникает как разница между этими состояниями в сильно сжатом пространстве токенов. Этот подход способствует эффективному моделированию окружающего мира и демонстрирует сильную способность к обобщению, а также потенциал для масштабирования при увеличении объема данных

В экспериментах по линейному зондированию StaMo продемонстрировал превосходство над базовыми методами при прогнозировании действий на горизонтах от 1 до 8 шагов. Метод показал значительно меньшую ошибку MSE по сравнению с LAPA и другими подходами, использующими разности пикселей или признаков DINOv2. Это доказывает, что простая разность в латентном пространстве содержит богатую информацию о движении.

StaMo масштабируется на разнообразных источниках данных — от симуляций до видео от первого лица. В реальных экспериментах с роботом Franka метод успешно справился с 6 задачами разной сложности: от простого захвата игрушек до сложной укладки чашек по размеру. Частота работы системы составляет 20 Гц, что обеспечивает плавность движений при сохранении эффективности обучения.

Восстановление изображений с помощью энкодера StaMo с использованием всего двух 1024-мерных токенов. В первой строке показаны эталонные изображения (ground truth), а во второй — результаты предсказания, с соответствующими метриками PSNR и SSIM, указанными ниже. Результаты демонстрируют, что StaMo способен сохранять высокую точность и структурное сходство изображений даже при чрезвычайно сжатом представлении состояния

Интеграция в существующие модели Vision-Language-Action происходит с минимальными накладными расходами на вывод. Как дополнительный «мозговой центр» для планирования, StaMo позволяет роботам не просто реагировать на команды, но и предсказывать будущие состояния мира. Это особенно эффективно для моделей с длинными горизонтами планирования, где стабильное целевое состояние важнее пошагового движения.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров