KnotGym: новый бенчмарк пространственного мышления ИИ

Исследователи из Cornell University представили KnotGym — интерактивную среду для проверки пространственного мышления агентов через манипуляции с узлами. Бенчмарк включает задачи по развязыванию и созданию узлов, требуя от моделей действий исключительно на основе визуальных наблюдений. Оценка показала, что даже передовые методы, такие как DreamerV3 и GPT-4.1-nano, сталкиваются с серьезными трудностями при увеличении сложности топологии.

В отличие от классических задач, где цель — минимизация евклидова расстояния, KnotGym использует топологическую структуру, определяемую кодом Гаусса. Агент не имеет доступа к состоянию мира, получая лишь частичные наблюдения в виде изображений. Для успеха необходимо абстрагироваться от визуального примера и выстроить план действий для достижения целевого класса эквивалентности.

Политика RL разворачивается на задачах «развязать» и «завязать». Все методы находят решение для «развязать», последовательно потянув (черные стрелки) за один сегмент веревки. Однако для «завязать» действия более разнообразны и распределены без единообразной схемы, что подчеркивает сложность этой задачи.

Эксперименты выявили критическую зависимость от числа пересечений: в задаче tie с 4 пересечениями ни один метод не превзошел случайную политику. Большинство подходов на основе промптинга также показали результаты хуже случайной политики, за исключением задачи unknot. VLM генерировали разумные планы, но действия оказывались слишком слабыми для реального изменения физики узла.

Число пересечений создает «лестницу обобщения», позволяя тестировать способность моделей выходить за пределы обучающей выборки. KnotGym нацелен на развитие агентов, способных рассуждать об интуитивной физике, а не просто запоминать траектории. Код бенчмарка и бейзлайны опубликованы под лицензией MIT.

Источник новости и обложки: arxiv.org

GPT-4.1 хуже рандома: бенчмарк KnotGym ломает ИИ