Рекурсивные языковые модели обработали более 10 миллионов токенов без потери качества

Рекурсивные языковые модели обработали более 10 миллионов токенов без потери качества

Исследователи из MIT представили Recursive Language Models (RLM) — новый подход к обработке сверхдлинных контекстов в языковых моделях. RLM на базе GPT-5-mini превзошла обычную GPT-5 более чем в 2 раза по количеству правильных ответов на сложном бенчмарке OOLONG, при этом обходясь дешевле по стоимости API-запросов.

Главная проблема, которую решают RLM — это так называемая «деградация контекста» (context rot). Представьте себе разговор с ChatGPT: чем дольше длится диалог, тем «глупее» становится модель. Это происходит потому, что при увеличении длины контекста модель хуже запоминает информацию. RLM решает эту проблему через рекурсивные вызовы модели — система может вызывать саму себя или другие языковые модели для промежуточных вычислений.

Технически RLM работает как тонкая обертка вокруг обычной языковой модели. Вместо того чтобы загружать весь контекст в одну модель, система использует Python REPL-среду, где контекст хранится как переменная в памяти. Корневая модель может просматривать части контекста, разбивать его на фрагменты и запускать рекурсивные подзапросы. При тестировании на бенчмарке OOLONG с контекстом более 128 тысяч токенов RLM показала прирост производительности на 33% по сравнению с базовыми моделями.

Особенно впечатляют результаты работы с огромными объемами данных. На бенчмарке BrowseComp-Plus, где нужно анализировать до 100 тысяч документов (~5 тысяч слов каждый), только RLM(GPT-5) смогла поддерживать идеальную производительность при масштабе в 1000 документов. Обычная GPT-5 может поместить в контекст лишь около 40 документов до превышения лимита в 272 тысячи токенов.

RLM демонстрирует несколько интересных стратегий работы с контекстом: «подглядывание» (просмотр первых символов для понимания структуры), поиск по ключевым словам, разбиение на части с параллельной обработкой и суммаризация. Система может обрабатывать контексты размером 10+ миллионов токенов без снижения качества — это открывает путь к анализу целых библиотек документов в рамках одного запроса.

Исследователи видят в RLM следующий этап развития после моделей с цепочками рассуждений (CoT) и агентных систем типа ReAct. Главное отличие от существующих агентов в том, что RLM позволяет самой языковой модели решать, как разложить задачу, а не полагается на предопределенные человеком алгоритмы. Правда, пока что система работает медленно из-за отсутствия оптимизации и блокирующих вызовов — каждый запрос может занимать от нескольких секунд до нескольких минут.

Источник новости и обложки: alexzhang13.github.io


Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Аватар пользователя Мирослав Кунгуров