RLM обработали 10+ млн токенов без потери качества

Исследователи из MIT представили Recursive Language Models (RLM) — новый подход к обработке сверхдлинных контекстов в языковых моделях. RLM на базе GPT-5-mini превзошла обычную GPT-5 более чем в 2 раза по количеству правильных ответов на сложном бенчмарке OOLONG, при этом обходясь дешевле по стоимости API-запросов.

Пример вызова рекурсивной языковой модели (RLM), который действует как отображение текст → текст, но является более гибким, чем стандартный вызов языковой модели, и может масштабироваться до практически бесконечной длины контекста. RLM позволяет языковой модели взаимодействовать со средой (в данном случае — средой REPL), которая хранит (потенциально огромный) контекст, где модель может рекурсивно выполнять подзапросы к «самой себе», другим вызовам языковых моделей или другим вызовам RLM для эффективного анализа этого контекста и формирования окончательного ответа.

Главная проблема, которую решают RLM — это так называемая «деградация контекста» (context rot). Представьте себе разговор с ChatGPT: чем дольше длится диалог, тем «глупее» становится модель. Это происходит потому, что при увеличении длины контекста модель хуже запоминает информацию. RLM решает эту проблему через рекурсивные вызовы модели — система может вызывать саму себя или другие языковые модели для промежуточных вычислений.

Технически RLM работает как тонкая обертка вокруг обычной языковой модели. Вместо того чтобы загружать весь контекст в одну модель, система использует Python REPL-среду, где контекст хранится как переменная в памяти. Корневая модель может просматривать части контекста, разбивать его на фрагменты и запускать рекурсивные подзапросы. При тестировании на бенчмарке OOLONG с контекстом более 128 тысяч токенов RLM показала прирост производительности на 33% по сравнению с базовыми моделями.

Рекурсивный вызов языковой модели заменяет стандартный вызов. Он создаёт у пользователя иллюзию работы с практически бесконечным контекстом, в то время как внутри система языковой модели управляет контекстом, разделяет его и рекурсивно вызывает саму себя или другую модель по мере необходимости, чтобы избежать деградации контекста.

Особенно впечатляют результаты работы с огромными объемами данных. На бенчмарке BrowseComp-Plus, где нужно анализировать до 100 тысяч документов (~5 тысяч слов каждый), только RLM(GPT-5) смогла поддерживать идеальную производительность при масштабе в 1000 документов. Обычная GPT-5 может поместить в контекст лишь около 40 документов до превышения лимита в 272 тысячи токенов.

RLM демонстрирует несколько интересных стратегий работы с контекстом: «подглядывание» (просмотр первых символов для понимания структуры), поиск по ключевым словам, разбиение на части с параллельной обработкой и суммаризация. Система может обрабатывать контексты размером 10+ миллионов токенов без снижения качества — это открывает путь к анализу целых библиотек документов в рамках одного запроса.

Исследователи видят в RLM следующий этап развития после моделей с цепочками рассуждений (CoT) и агентных систем типа ReAct. Главное отличие от существующих агентов в том, что RLM позволяет самой языковой модели решать, как разложить задачу, а не полагается на предопределенные человеком алгоритмы. Правда, пока что система работает медленно из-за отсутствия оптимизации и блокирующих вызовов — каждый запрос может занимать от нескольких секунд до нескольких минут.

Источник новости и обложки: alexzhang13.github.io

Рекурсивные языковые модели обработали более 10 миллионов токенов без потери качества