MoTVLA: 14B-параметрическая модель с унифицированным быстрым-медленным рассуждением для роботов

Ученые создали MoTVLA — робота с быстрым и медленным мышлением, который выполняет команды в 4 раза быстрее

Исследователи из Гарвардского университета представили MoTVLA — модель на основе смеси трансформеров, которая объединяет визуальное восприятие, понимание языка и выполнение действий. Главная особенность модели — способность переключаться между быстрым и медленным мышлением, что позволяет роботу отвечать на вопросы через детальные рассуждения или мгновенно выполнять задачи через ускоренный анализ.

MoTVLA объединяет быстрое и медленное рассуждение через архитектуру «Смесь Трансформеров» (Mixture-of-Transformers), в которой входные модальности сначала декомпозируются, затем следует обмен знаниями через глобальное внимание, и наконец, они снова декомпозируются с функциональной точки зрения. В результате MoTVLA не только эффективно обучается как общим, так и узкоспециализированным знаниям, но и достигает превосходной эффективности рассуждений.

Архитектура MoTVLA построена на принципе mixture-of-transformers и состоит из трех компонентов: генералиста для понимания мультимодальной информации, доменного эксперта для быстрых рассуждений и эксперта действий для управления роботом. Модель использует 14 миллиардов параметров и обучается на датасете из 1.27 миллиона пар вопрос-ответ, включая 154 тысячи симуляций и 125 тысяч реальных демонстраций.

Универсальная структура MoTVLA. MoTVLA использует архитектуру «Смеси Трансформеров», состоящую из универсальной модели, предметного эксперта и эксперта по действиям. Её вычислительный бэкбон следует конвейеру «декомпозиция–композиция–декомпозиция»: мультимодальные входные данные сначала обрабатываются независимо, затем интегрируются с помощью унифицированного механизма глобальной самовнимательности и, наконец, разделяются на выходе для выполнения медленного и быстрого рассуждения через универсальную модель и предметного эксперта соответственно. Модуль быстрого рассуждения декомпозирует роботизированные движения, и результирующее представление движения вместе со зрительными и физическими состояниями обусловливает эксперта по действиям. Такая конструкция гарантирует, что изученная политика соответствует инструкциям по движению и повышает управляемость через язык, даже при неоднозначных запросах.

Ключевое преимущество MoTVLA — токен-wise предсказание вместо традиционного next-token подхода для быстрых рассуждений. Представьте, что обычные роботы думают как человек, читающий книгу слово за словом, а MoTVLA может «схватывать» смысл целых предложений сразу. MoTVLA демонстрирует частоту рассуждений почти в 4 раза выше, чем у LLaVA-OV-0.5B, сохраняя при этом точность понимания команд.

В экспериментах на платформе ManiSkill робот успешно выполнял сложные задачи: складывание кубиков с точностью 85%, вставку колышков в отверстия и манипуляции инструментами. В реальном мире MoTVLA показал впечатляющие результаты в сортировке овощей, где робот должен был различать морковь, кукурузу и баклажаны среди отвлекающих объектов. Особенно интересен тест с неоднозначной командой «Отсортируй мусор в коробку» — робот самостоятельно определил, что пустая банка из-под газировки и упаковка от снеков являются мусором, игнорируя огурец.

Исследование открывает путь к созданию роботов, способных работать в открытых средах с естественными языковыми инструкциями. Однако авторы отмечают ограничения: для достижения максимальной скорости потребуется уменьшение модели до 0.5 миллиарда параметров, что требует дополнительных исследований в области предобучения компактных моделей.

Источник новости и обложки: arxiv.org


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров