Исследователи из Meta*, Университета Гюстава Эйфеля и EHESS разработали нейросеть V-JEPA*, которая демонстрирует впечатляющее понимание базовых законов физики. В тестах на интуитивное понимание физических явлений модель достигла точности в 98% на бенчмарке IntPhys и 62% на InfLevel, значительно превзойдя существующие решения.
Ключевая особенность V-JEPA — работа в абстрактном пространстве представлений, а не с пиксельными данными. Даже уменьшенная версия модели с 115 миллионами параметров показала результаты выше случайного угадывания, что опровергает необходимость встроенных физических знаний для понимания базовых законов природы.

В сравнительных тестах V-JEPA превзошла такие модели как VideoMAEv2, Qwen2-VL-7B и Gemini 1.5 pro при оценке понимания таких свойств, как постоянство объектов, непрерывность движения и гравитация. Модель обучалась на естественных видео без специальной настройки под конкретные задачи.
Несмотря на впечатляющие результаты, у V-JEPA есть ограничения — она пока не очень хорошо справляется со сложными взаимодействиями объектов. Исследователи считают, что улучшить производительность можно за счет расширения памяти модели и добавления обучения на основе действий.
*Компании и продукты, признанные экстремистскими и запрещены в РФ.
Источник новости и обложки: www.marktechpost.com