OpenAI представила систему DeepResearch, которая умеет искать информацию в интернете и отвечать на вопросы на основе найденных данных. В тестах на бенчмарке GAIA система показала впечатляющий результат — 67% правильных ответов в среднем и 47.6% на особо сложных вопросах третьего уровня.
В Hugging Face решили за 24 часа воспроизвести результаты OpenAI и создать открытую версию фреймворка. Используя агентов, описывающих свои действия в виде кода, вместо JSON-форматирования, команде удалось достичь точности в 54% на валидационной выборке, что значительно превышает предыдущий рекорд в 46% для открытых систем.

При переходе на стандартного агента, который записывает действия в формате JSON вместо кода, производительность той же настройки мгновенно снижается до 33% в среднем на валидационном наборе данных.
Это не только снижает стоимость работы системы, но и улучшает производительность благодаря более интуитивному способу выражения действий.
Источник новости и обложки: huggingface.co