VER: новый трансформер для обучения роботов

Исследователи из университетов США и Китая представили VER — Vision Expert трансформер для робототехники, который решает ключевую проблему современного машинного обучения. Обычно каждая предобученная визуальная модель хороша только в узкой области, но VER умеет динамически выбирать оптимальные модели из библиотеки экспертов для конкретных робототехнических задач.

Архитектура VER работает в два этапа: сначала система дистиллирует несколько визуальных foundation-моделей в единую библиотеку экспертов, затем обучает легковесную маршрутизирующую сеть, которая занимает менее 0.4% параметров от общей модели. Это позволяет избежать дорогостоящего переобучения всей системы при добавлении новых знаний из робототехнической области.

VER состоит из двух ключевых компонентов: **Базовый Vision Transformer (BVT)**, который обрабатывает изображения, преобразуя их в унифицированные представления (unified representations). Библиотека визуальных экспертов (Vision Expert Library, VEL), которая хранит разнообразный набор специализированных визуальных экспертов и выборочно их использует для имитации моделей-учителей (учительских фундаментальных моделей) и повышения производительности в последующих задачах робототехники.
Фреймворк включает две фазы: **1. Предварительное обучение (Pretraining)**: на этом этапе проводится дистилляцию знаний нескольких фундаментальных моделей (DINOv2, ViT, CLIP) в VER. **2. Задачи робототехники (Downstream Robotic Tasks)**: на этом этапе замораживаем параметры экспертов (freeze the experts) и обучаем облегченный Маршрутизатор Робота (Robot Router) (< 0.4% параметров), который динамически выбирает визуальные признаки, релевантные задаче, чтобы направлять Policy head в генерации соответствующих действий робота. Такой двухэтапный подход позволяет эффективно проводить дистилляцию знаний из различных визуальных фундаментальных моделей и осуществлять адаптивный выбор признаков для задач робототехники.

Ключевая инновация — технология Patchwise Expert Routing с Curriculum Top-K Annealing, которая работает как умный диспетчер: анализирует каждый фрагмент изображения и решает, какой эксперт лучше всего подходит для его обработки. Представьте консилиум врачей, где каждый специалист изучает только ту часть снимка, в которой он разбирается лучше всего.

В тестах на 17 различных робототехнических задачах VER показал лучшие результаты среди аналогов. Система научилась игнорировать фоновые детали и концентрироваться на критически важных для задачи областях изображения, что делает роботов более точными и эффективными в работе.

Источник новости и обложки: arxiv.org

VER: трансформер-эксперт научился выбирать лучшие визуальные модели для обучения роботов