Orchestrator-8B превзошел GPT-5 на бенчмарке HLE при двукратной эффективности

Orchestrator-8B превзошел GPT-5 на бенчмарке HLE при двукратной эффективности

Исследователи из NVIDIA разработали Orchestrator-8B — модель с 8 миллиардами параметров, которая достигла 37.1% на бенчмарке HLE. Это превосходит результат GPT-5 (21.2%) при использовании в 2.5 раза меньших вычислительных ресурсов.

Большие языковые модели остаются дорогими в решении сложных агентных задач. Команда NVIDIA предложила парадигму оркестрации, где маленькая модель координирует специализированные инструменты и более мощные модели. Orchestrator динамически выбирает, какие инструменты вызывать, минимизируя стоимость и соблюдая пользовательские предпочтения.

Для обучения Orchestrator команда использовала обучение с подкреплением с наградами за корректность результата, эффективность и соответствие предпочтениям пользователя. Модель обучалась на датасете ToolScale — синтетических данных с верифицируемыми примерами использования инструментов в 10 доменах. В качестве алгоритма оптимизации применили Group Relative Policy Optimization (GRPO).

Обзор Оркестратора. Получив задачу, Оркестратор решает ее, чередуя рассуждения и вызов инструментов за несколько шагов. Оркестратор взаимодействует с разнообразным набором инструментов, включая базовые (веб-поиск, функции, такие как get_flight_status, и т. д.), специализированные языковые модели (модели для программирования, математические модели и т. д.) и универсальные языковые модели (GPT-5, Claude Opus 4.1 и т. д.). При обучении в среде ToolOrchestra, Оркестратор оптимизируется совместно по вознаграждениям за результат, эффективность и предпочтения с помощью обучения с подкреплением.
Доля вызовов инструментов, совершаемых LLM для решения задачи. Qwen-32B относится к Qwen3-32B, а Coder-32B — к Qwen2.5-Coder-32B-Instruct. По сравнению с другими сильными базовыми моделями, Orchestrator-8B совершает более сбалансированные вызовы инструментов и не демонстрирует сильной предвзятости в сторону какого-либо конкретного инструмента или модели.

На бенчмарке τ²-Bench Orchestrator достиг 80.2%, превзойдя GPT-5 (62.3%) при использовании около 30% стоимости. На FRAMES модель показала 76.3% против 57.5% у GPT-5. Orchestrator вызывал GPT-5 только в 40% шагов, используя для остальных более дешевые модели и инструменты.

Эксперименты показали, что Orchestrator обобщается на инструменты, не встречавшиеся в процессе обучения. Модель адаптируется к новым конфигурациям, понимая возможности инструментов из их описаний. Orchestrator также продемонстрировал способность следовать пользовательским предпочтениям при выборе инструментов во время тестирования.

Источник новости и обложки: arxiv.org


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров