VLA-0-Smol: модель 0.5B против 3B в робототехнике

Команда исследователей представила VLA-0-Smol — модель на 500 млн параметров, которая достигла 94,1% успеха в бенчмарке LIBERO. Этот результат практически идентичен показателям модели VLA-0 с 3 млрд параметров (94,7%), несмотря на шестикратную разницу в размере. Разработка предлагает воспроизводимый рецепт для обучения роботов, доступный на потребительском оборудовании.

Большинство современных VLA-моделей находятся в диапазоне 3–7 млрд параметров, требуя для обучения распределенных сетапов и множества GPU. Такие требования создают высокий барьер входа и усложняют локальный инференс, а также эксперименты на реальных роботах. Авторы решили эту проблему, интегрировав архитектуру SmolVLM2-500M во фреймворк LeRobot.

В ходе абляции на задаче PushT выяснилось, что файнтюнинг визуального энкодера критичен: его заморозка снижала успех с 57,8% до 25%. Также значительный прирост дало маскирование действий (masked action augmentation), повысившее результативность с 70,3% до 78,1%. При этом использование системных промптов оказалось излишним, так как модель выучивает формат вывода непосредственно из данных.

Несмотря на высокие показатели в симуляции, исследователи предупреждают о риске оверфиттинга, так как бенчмарк LIBERO может тестировать память, а не навыки. В ближайших планах команды — перенос экспериментов на реальную платформу SO100 ARM для проверки работы в условиях шума и переменного освещения. Проект также нацелен на оптимизацию инференса для работы в реальном времени на пользовательском железе.

Источник новости и обложки: robot-learning-collective.github.io

Balakhnov et al., «VLA-0-Smol: A Reproducible Recipe for High-Performance, Sub-Billion Parameter VLAs», Robot Learning Collective blog, 2025.

0.5B вместо 3B: компактная VLA-модель показала 94,1% в бенчмарке LIBERO