Ученые из Вашингтонского университета разработали RISE — метод обучения роботов на неидеальных данных

Ученые из Вашингтонского университета разработали RISE — метод обучения роботов на неидеальных данных

Исследователи из Вашингтонского университета и Toyota Research Institute представили алгоритм RISE (Robust Imitation by Stitching from Experts), который позволяет роботам эффективно обучаться не только на экспертных демонстрациях, но и на неидеальных данных — частичных выполнениях задач, неудачных попытках и игровых данных. Новый подход решает ключевую проблему традиционного имитационного обучения: хрупкость политик при работе в условиях, отличающихся от обучающих.

Традиционные методы имитационного обучения требуют высококачественных демонстраций экспертов, что делает сбор данных дорогим и ограничивает адаптивность роботов. При этом значительная часть собранных данных отбрасывается в процессе фильтрации, несмотря на содержание полезной информации о динамике мира. RISE использует офлайновое обучение с подкреплением с простыми бинарными наградами: 1 для оптимальных данных и 0 для субоптимальных, что позволяет системе учиться восстанавливаться до состояний экспертного распределения.

Ключевая инновация RISE заключается в введении «размытости» в представление состояний через обеспечение липшицевой непрерывности политики. Это значительно улучшает способность алгоритма «сшивать» офлайновые данные даже при низком покрытии данных. Алгоритм использует два основных механизма: спектральную нормализацию для регуляризации политики и дополнение данных на основе расстояний с использованием предобученной модели DINOv2 для измерения семантических различий между изображениями.

Экспериментальная оценка проводилась на задачах манипуляции из бенчмарка Robomimic в симуляции и реальных задачах сборки мебели на роботе Franka Panda. RISE продемонстрировал значительное улучшение в диапазоне начальных условий, где обученные политики успешны при включении неэкспертных данных. Метод эффективно работает с различными типами неоптимальных данных — от неструктурированных игровых данных до субоптимальных демонстраций, показывая возможность итеративного улучшения политики на собственных данных оценки.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров