Локальные LLM отвечают на 88.7% запросов с ростом эффективности в 5.3 раза за два года

Локальные языковые модели с ≤20B параметрами теперь обрабатывают 88.7% однократных чат-запросов и запросов на reasoning. Точность локальных LM улучшилась в 3.1 раза с 2023 по 2025 год.

Спрос на AI растет экспоненциально: Google Cloud сообщает о 1300-кратном увеличении обработки токенов, а NVIDIA — о 10-кратном годовом росте. 77% запросов к ChatGPT составляют практические guidance, поиск информации и writing — задачи, не требующие frontier-возможностей. Исследователи предлагают метрику intelligence per watt (IPW) для измерения эффективности преобразования энергии в полезные вычисления.

Исследование охватило 20+ современных локальных LM, включая Qwen3 4B-14B, gpt-oss-20b, Gemma3 4B-12B и IBM Granite 4.0 1B-7B. Тестирование проводилось на 3 локальных акселераторах 2023-2025 годов и 5 enterprise-акселераторах для сравнения. Ворклоуд включал 1 миллион реальных запросов из WildChat, Natural Reasoning, MMLU-Pro и SuperGPQA.

Локальные акселераторы демонстрируют 1.5x более низкий intelligence-per-watt по сравнению с enterprise-решениями. Qwen3-32B на M4 Max показал в 1.5 раза ниже IPW, чем на NVIDIA B200. Общая эффективность локального интеллекта улучшилась в 5.3 раза за два года: 3.1x от улучшений моделей и 1.7x от улучшений hardware.

Источник новости и обложки: hazyresearch.stanford.edu


Главред proglib.io. Опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры пишу Python.

Аватар пользователя Мирослав Кунгуров