Исследователи из NVIDIA разработали Orchestrator-8B — модель с 8 миллиардами параметров, которая достигла 37.1% на бенчмарке HLE. Это превосходит результат GPT-5 (21.2%) при использовании в 2.5 раза меньших вычислительных ресурсов.
Большие языковые модели остаются дорогими в решении сложных агентных задач. Команда NVIDIA предложила парадигму оркестрации, где маленькая модель координирует специализированные инструменты и более мощные модели. Orchestrator динамически выбирает, какие инструменты вызывать, минимизируя стоимость и соблюдая пользовательские предпочтения.
Для обучения Orchestrator команда использовала обучение с подкреплением с наградами за корректность результата, эффективность и соответствие предпочтениям пользователя. Модель обучалась на датасете ToolScale — синтетических данных с верифицируемыми примерами использования инструментов в 10 доменах. В качестве алгоритма оптимизации применили Group Relative Policy Optimization (GRPO).
На бенчмарке τ²-Bench Orchestrator достиг 80.2%, превзойдя GPT-5 (62.3%) при использовании около 30% стоимости. На FRAMES модель показала 76.3% против 57.5% у GPT-5. Orchestrator вызывал GPT-5 только в 40% шагов, используя для остальных более дешевые модели и инструменты.
Эксперименты показали, что Orchestrator обобщается на инструменты, не встречавшиеся в процессе обучения. Модель адаптируется к новым конфигурациям, понимая возможности инструментов из их описаний. Orchestrator также продемонстрировал способность следовать пользовательским предпочтениям при выборе инструментов во время тестирования.
Источник новости и обложки: arxiv.org