Ученые представили MoTVLA — робота с быстрым и медленным мышлением, который выполняет команды в 4 раза быстрее

Ученые создали MoTVLA — робота с быстрым и медленным мышлением, который выполняет команды в 4 раза быстрее

Исследователи из Гарвардского университета представили MoTVLA — новую архитектуру для роботов, которая объединяет визуальное восприятие, понимание языка и выполнение действий. Главная особенность модели — способность переключаться между быстрым и медленным мышлением, что позволяет роботу отвечать на вопросы через детальные рассуждения или мгновенно выполнять задачи через ускоренный анализ.

Архитектура MoTVLA построена на принципе mixture-of-transformers и состоит из трех компонентов: генералиста для понимания мультимодальной информации, доменного эксперта для быстрых рассуждений и эксперта действий для управления роботом. Модель использует 14 миллиардов параметров и обучается на датасете из 1.27 миллиона пар вопрос-ответ, включая 154 тысячи симуляций и 125 тысяч реальных демонстраций.

Ключевое преимущество MoTVLA — токен-wise предсказание вместо традиционного next-token подхода для быстрых рассуждений. Представьте, что обычные роботы думают как человек, читающий книгу слово за словом, а MoTVLA может «схватывать» смысл целых предложений сразу. Это позволяет модели генерировать в 4 раза быстрее инструкции для выполнения движений, сохраняя при этом точность понимания команд.

В экспериментах на платформе ManiSkill робот успешно выполнял сложные задачи: складывание кубиков с точностью 85%, вставку колышков в отверстия и манипуляции инструментами. В реальном мире MoTVLA показал впечатляющие результаты в сортировке овощей, где робот должен был различать морковь, кукурузу и баклажаны среди отвлекающих объектов. Особенно интересен тест с неоднозначной командой «Отсортируй мусор в коробку» — робот самостоятельно определил, что пустая банка из-под газировки и упаковка от снеков являются мусором, игнорируя огурец.

Исследование открывает путь к созданию роботов, способных работать в открытых средах с естественными языковыми инструкциями. Однако авторы отмечают ограничения: для достижения максимальной скорости потребуется уменьшение модели до 0.5 миллиарда параметров, что требует дополнительных исследований в области предобучения компактных моделей.

Источник новости и обложки: arxiv.org


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров