VER: трансформер-эксперт научился выбирать лучшие визуальные модели для обучения роботов

Исследователи из университетов США и Китая представили VER — Vision Expert трансформер для робототехники, который решает ключевую проблему современного машинного обучения. Обычно каждая предобученная визуальная модель хороша только в узкой области, но VER умеет динамически выбирать оптимальные модели из библиотеки экспертов для конкретных робототехнических задач.

Архитектура VER работает в два этапа: сначала система дистиллирует несколько визуальных foundation-моделей в единую библиотеку экспертов, затем обучает легковесную маршрутизирующую сеть, которая занимает менее 0.4% параметров от общей модели. Это позволяет избежать дорогостоящего переобучения всей системы при добавлении новых знаний из робототехнической области.

Ключевая инновация — технология Patchwise Expert Routing с Curriculum Top-K Annealing, которая работает как умный диспетчер: анализирует каждый фрагмент изображения и решает, какой эксперт лучше всего подходит для его обработки. Представьте консилиум врачей, где каждый специалист изучает только ту часть снимка, в которой он разбирается лучше всего.

В тестах на 17 различных робототехнических задачах VER показал лучшие результаты среди аналогов. Система научилась игнорировать фоновые детали и концентрироваться на критически важных для задачи областях изображения, что делает роботов более точными и эффективными в работе.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров