Исследователи из университетов США и Китая представили VER — Vision Expert трансформер для робототехники, который решает ключевую проблему современного машинного обучения. Обычно каждая предобученная визуальная модель хороша только в узкой области, но VER умеет динамически выбирать оптимальные модели из библиотеки экспертов для конкретных робототехнических задач.
Архитектура VER работает в два этапа: сначала система дистиллирует несколько визуальных foundation-моделей в единую библиотеку экспертов, затем обучает легковесную маршрутизирующую сеть, которая занимает менее 0.4% параметров от общей модели. Это позволяет избежать дорогостоящего переобучения всей системы при добавлении новых знаний из робототехнической области.

Фреймворк включает две фазы: 1. Предварительное обучение (Pretraining): на этом этапе проводится дистилляцию знаний нескольких фундаментальных моделей (DINOv2, ViT, CLIP) в VER. 2. Задачи робототехники (Downstream Robotic Tasks): на этом этапе замораживаем параметры экспертов (freeze the experts) и обучаем облегченный Маршрутизатор Робота (Robot Router) (< 0.4% параметров), который динамически выбирает визуальные признаки, релевантные задаче, чтобы направлять Policy head в генерации соответствующих действий робота. Такой двухэтапный подход позволяет эффективно проводить дистилляцию знаний из различных визуальных фундаментальных моделей и осуществлять адаптивный выбор признаков для задач робототехники.
Ключевая инновация — технология Patchwise Expert Routing с Curriculum Top-K Annealing, которая работает как умный диспетчер: анализирует каждый фрагмент изображения и решает, какой эксперт лучше всего подходит для его обработки. Представьте консилиум врачей, где каждый специалист изучает только ту часть снимка, в которой он разбирается лучше всего.
В тестах на 17 различных робототехнических задачах VER показал лучшие результаты среди аналогов. Система научилась игнорировать фоновые детали и концентрироваться на критически важных для задачи областях изображения, что делает роботов более точными и эффективными в работе.
Источник новости и обложки: arxiv.org