546 задач MIRA: ни одна модель ИИ не превысила 20% точности без визуальных подсказок

546 задач MIRA: ни одна модель ИИ не превысила 20% точности без визуальных подсказок

Исследователи из ByteDance, UNC-Chapel Hill, UC Santa Cruz и Stanford предложили бенчмарк MIRA для оценки мультимодальных моделей в задачах, где для успешного решения необходимо генерировать промежуточные визуальные изображения. Это имитирует то, как люди решают сложные проблемы через «рисование для размышления».

MIRA включает 546 мультимодальных задач с аннотированными промежуточными визуальными изображениями и финальными ответами. Задачи охватывают 20 типов из четырех доменов: евклидова геометрия, физическое рассуждение, абстрактные пространственные головоломки и причинно-следственные трансформации. Например, нужно отследить движение кубика на доске и суммировать значения граней, оказавшихся внизу после каждого броска.

Оценка проводится на трех уровнях: прямой ввод с изображением и вопросом, текстовый Chain-of-Thought с подсказками для размышления, и Visual-CoT с аннотированными визуальными подсказками и текстовыми промптами. Экспериментальные результаты показали, что существующие мультимодальные большие языковые модели показывают слабые результаты при использовании только текстовых промптов. Среди проприетарных моделей тестировались GPT-5, o3 и Gemini 2.5 Pro, среди открытых — Qwen2.5-VL и GLM 4.5V. Ни одна модель не превысила 20% точности при прямом вводе, а GPT-5 достиг только 16,5%.

Когда моделям предоставляются промежуточные визуальные подсказки, производительность стабильно улучшается, давая в среднем относительный прирост 33,7% по всем моделям и задачам. Например, GPT-5-mini улучшился с 13,7% до 23,2%, а задачи по физике почти удвоили точность для всех проприетарных моделей. Текстовый Chain-of-Thought оказался недостаточным: для Gemini 2.5 Pro и o3 он даже снизил точность на 18,3% и 14,0% соответственно.

Исследователи также проверили верхнюю границу возможностей моделей, расширив пространство поиска через pass@k и мажоритарное голосование. Производительность росла с k от 1 до 4 в среднем на 15,3%, но прирост между k=4 и k=8 составил лишь 3,0%. Более сильные модели показали меньший прирост: GPT-5 улучшился на 20,4% от pass@1 до pass@8, тогда как более слабый GPT-4o — на 23,6%. Это указывает на фундаментальное отсутствие способности у моделей решать задачи MIRA, а не на случайные ошибки рассуждения. Специализированные текстовые промпты, выровненные с Visual-CoT, дали лишь ограниченные улучшения в среднем на 1,4% для закрытых моделей по сравнению с 4,7% от Visual-CoT.

Источник новости и обложки: arxiv.org


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров