Исследователи разработали метод PLD (Probe, Learn, Distill), который позволяет vision-language-action моделям самостоятельно обучаться без дорогостоящих демонстраций человека. Система достигла 99% успешности выполнения задач на бенчмарке LIBERO и показала рост производительности более 50% в SimplerEnv.
Современные vision-language-action (VLA) модели для роботов обычно требуют дорогостоящего обучения на человеческих демонстрациях. PLD решает эту проблему через трехэтапный процесс: сначала система замораживает базовую VLA-модель (визуально-языковая модель для управления) и обучает легкие политики-корректоры через обучение с подкреплением, которые «подхватывают» управление в моментах, где базовая политика ошибается. Затем система собирает данные, комбинируя действия базовой политики и резидуальных специалистов. На финальном этапе эти траектории дистиллируются обратно в базовую модель через стандартное supervised fine-tuning.
Ключевая особенность PLD — механизм «base policy probing». Система сначала позволяет базовой политике работать случайное количество шагов, затем передает управление обученной остаточной RL-политике (специалисту). В результате формируются демонстрационные траектории, демонстрирующие, как модель-эксперт выходит из потенциально субоптимального состояния. Данные, собранные с помощью RL-экспертов, являются высокооптимальными: они характеризуются последовательным поведением, демонстрируют решения, которые достигают цели за меньшее число шагов. Однако такое узкое, унимодальное распределение поведения эксперта приводит к недостаточной представленности состояний, а также сбоям.
Метод PLD был протестирован на нескольких наборах данных: в бенчмарке LIBERO был достигнут почти предельный коэффициент успешности выполнения задач в 99%, в SimplerEnv производительность выросла более чем на 50%, а в реальных экспериментах с манипуляторами Franka и YAM был продемонстрирован 100% успех. Особенно впечатляет тест с YAM: после не более 8 часов обучения для каждой подзадачи и объединения полученных навыков в базовую политику поведенческого клонирования, робот непрерывно выполнял полный цикл задач в течение часа без вмешательства человека.
Эксперименты показали, что данные PLD превосходят по качеству как человеческие демонстрации, так и данные, сгенерированные RL-экспертами. Даже при обучении всего на 10% задач из набора LIBERO-90 модель, дообученная на данных DPLD, продемонстрировала коэффициент успешности 24.4% на незнакомых задачах, обеспечивая тем самым умеренный уровень обобщения без дообучения. При этом модель, дообученная на данных от базовой политики (0-1 REINFORCE), показала низкие результаты и не смогла обобщать. Исследователи также изучили влияние горизонта инициализации (α). С его увеличением средняя длина успешных эпизодов растет, что указывает на необходимость корректировки субоптимального поведения исходной политики.
Источник новости и обложки: www.wenlixiao.com/self-improve-VLA-PLD/assets/doc/pld-fullpaper.pdf