Робот обучился за 10 часов — точность 90% на незнакомых задачах

Робот обучился за 10 часов — точность 90% на незнакомых задачах

Нейросеть Act2Goal научилась манипулировать объектами, представляя будущее в виде последовательности кадров. Модель повышает успешность выполнения сложных задач с 30% до 90% за несколько минут автономного обучения. Система работает на роботе AgiBot Genie-01 с задержкой инференса 200 мс для генерации 50 действий.

Стандартные goal-conditioned политики предсказывают действия напрямую, без явного моделирования прогресса к цели. Это приводит к деградации производительности на длинных горизонтах планирования, особенно в out-of-distribution сценариях. Act2Goal решает проблему через goal-conditioned world model, который генерирует промежуточные визуальные состояния между текущим наблюдением и целью.

Механизм Multi-Scale Temporal Hashing декомпозирует траекторию на плотные проксимальные фреймы для точного контроля и разреженные дистальные фреймы для глобальной согласованности. Проксимальный сегмент содержит высокочастотные визуальные состояния, дистальный сегмент использует логарифмическую выборку для long-term guidance. Во время деплоя выполняются только проксимальные действия, дистальные предсказания остаются латентными и направляют долгосрочное следование цели.

Модель обучалась на датасете AgiBot World и проприетарных данных в два этапа: файнтюнинг world model с action expert и end-to-end behavioral cloning. Stage 1 занял 7 дней на 16 GPU A800, Stage 2 — 48 часов на той же конфигурации. Онлайн-обучение использует Hindsight Experience Replay с LoRA-файнтюнингом: replay buffer размером 20, каждый раунд тренировки занимает 5 минут включая rollout и backpropagation.

На бенчмарке Robotwin 2.0 Act2Goal показал success rate 0.62 на Move Can в Easy mode и 0.13 в Hard mode, превзойдя бейзлайны DP-GC и HyperGoalNet. В реальных экспериментах модель достигла 93% успешности на задаче Whiteboard Word Writing в in-domain тестах и 90% в out-of-domain. На задаче Plug-In Operation онлайн-обучение повысило success rate с 0.30 до 0.90 за 15 минут автономной адаптации.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров