Релиз DeepSeek-V3.2 и DeepSeek-V3.2-Speciale

DeepSeek-V3.2 достиг золотых медалей на IMO и IOI 2025 с новым механизмом внимания

Исследователи из DeepSeek-AI представили DeepSeek-V3.2-Speciale — модель, которая достигла золотой медали на Международной математической олимпиаде (IMO) 2025 с результатом 35 из 42 баллов. Модель также получила золото на Международной олимпиаде по информатике (IOI) 2025, набрав 492 из 600 баллов.

DeepSeek-V3.2 решает проблему растущего разрыва между открытыми и закрытыми моделями. Исследователи выявили три критических недостатка открытых моделей: неэффективность vanilla attention для длинных последовательностей, недостаточные вычислительные ресурсы на этапе пост-тренинга и отставание в агентских задачах.

Сравнение DeepSeek-V3.2 и аналогичных моделей. Для HMMT 2025 приводятся результаты февральского соревнования, что соответствует базовым показателям. Для HLE сообщаются результаты только текстового подмножества.
Внимание на архитектуру DeepSeek-V3.2, где DSA реализована в рамках MLA. Зелёная часть иллюстрирует, как DSA выбирает топ-k записей «ключ-значение» в соответствии с индексатором.

Для решения этих проблем команда разработала DeepSeek Sparse Attention (DSA) — механизм внимания, который снижает вычислительную сложность с O(L²) до O(Lk), где k значительно меньше L. DSA состоит из двух компонентов: lightning indexer для вычисления индексных оценок и механизма выбора токенов, который извлекает только top-k записей ключ-значение. На этапе warm-up обучался только индексер на 2.1 миллиарда токенов, затем на этапе разреженного тренинга обучались и основная модель, и индексер на 943.7 миллиарда токенов.

Команда разработала масштабируемый фреймворк обучения с подкреплением, выделив на пост-тренинг более 10% от бюджета пре-тренинга. Для интеграции рассуждений в агентские сценарии исследователи создали пайплайн синтеза задач, который сгенерировал 1,800 различных окружений и 85,000 сложных промптов. Пайплайн включает три типа агентов: code agent с 24,667 задачами из GitHub, search agent с 50,275 синтезированными промптами и general agent с 4,417 задачами в синтетических окружениях.

Механизм сохранения хода мыслей в сценариях с вызовом инструментов.

DeepSeek-V3.2 достиг 73.1% на бенчмарке SWE-Verified и 46.4% на Terminal Bench 2.0, превзойдя существующие открытые модели в агентских задачах программирования. На бенчмарке AIME 2025 модель показала точность 93.1%, на HMMT February 2025 — 92.5%, приближаясь к результатам GPT-5-High с 94.6% и 88.3% соответственно. В задачах поиска модель набрала 65.0% на BrowseCompZh и 51.4% на BrowseComp, при этом применение техники управления контекстом повысило результат BrowseComp до 67.6%.

Источник новости и обложки: huggingface.co


Главред proglib.io (01.2022-10.2025). Опубликовал более 800 статей и запустил имейл-рассылки о нейросетях и разработке. Пишу на Python.

Аватар пользователя Мирослав Кунгуров