Метод FARL снизил количество сбоев, требующих вмешательства, на 73,1% при дообучении в реальном мире. При этом производительность выросла в среднем на 11,3%.
Исследование среды в RL неизбежно приводит к сбоям, таким как разлитая вода или разбитое стекло, что препятствует практическому деплою. Существующие алгоритмы часто сталкиваются с такими отказами из-за необходимости баланса между исследованием и эксплуатацией.


Фреймворк объединяет safety critic на базе world model и политику восстановления, обученные офлайн. Система предсказывает сбои и предотвращает их во время онлайн-файнтюнинга, используя демонстрации восстановления.
Эффективность подхода подтверждена в новом бенчмарке FailureBench и экспериментах на роботе Franka Emika Panda. Метод существенно сократил потребность во вмешательстве человека во время обучения.
Источник новости и обложки: arxiv.org

