Робот перестал ломать вещи: число сбоев снизилось на 73%

При этом производительность выросла в среднем на 11,3%

#Arxiv, Franka Emika Panda, Обучение с подкреплением, Роботы

13.01.2026

Метод FARL снизил количество сбоев, требующих вмешательства, на 73,1% при дообучении в реальном мире. При этом производительность выросла в среднем на 11,3%.

Исследование среды в RL неизбежно приводит к сбоям, таким как разлитая вода или разбитое стекло, что препятствует практическому деплою. Существующие алгоритмы часто сталкиваются с такими отказами из-за необходимости баланса между исследованием и эксплуатацией.

Весь процесс обучения состоит из двух основных этапов: 1) автономный этап, включающий предварительное обучение политики выполнения задачи, политики восстановления и модели мира, и 2) онлайн-этап, в ходе которого политика выполнения задачи дообучается в условиях безопасного исследования.

Сравнение средних эпизодов сбоев при дообучении для Uni-O4 (синий) и метода FARL (красный) в FailureBench.

Фреймворк объединяет safety critic на базе world model и политику восстановления, обученные офлайн. Система предсказывает сбои и предотвращает их во время онлайн-файнтюнинга, используя демонстрации восстановления.

Эффективность подхода подтверждена в новом бенчмарке FailureBench и экспериментах на роботе Franka Emika Panda. Метод существенно сократил потребность во вмешательстве человека во время обучения.

Источник новости и обложки: arxiv.org