Reasoning-модели вроде DeepSeek-R1 и QwQ-32B не просто генерируют длинные цепочки рассуждений — они симулируют внутренний диалог между несколькими «личностями» с разными характерами и экспертизой. Исследователи из Google и Чикагского университета обнаружили, что эти модели создают «общество мыслей» (society of thought): задают вопросы, переключаются между точками зрения, спорят и примиряют конфликтующие идеи. В отличие от обычных инструкционных моделей, которые выдают монологи, reasoning-модели показывают паттерны, характерные для человеческих дискуссий — и это напрямую связано с точностью решения задач.
Команда проанализировала 8,262 задачи из бенчмарков BigBench Hard, GPQA, MATH и других, сравнивая reasoning-модели с обычными инструкционными моделями разных размеров (от 8B до 671B параметров). DeepSeek-R1 показал на 34.5% больше паттернов «вопрос-ответ», на 21.3% больше смен перспектив и на 19.1% больше примирений конфликтующих идей по сравнению с DeepSeek-V3 — даже при одинаковой длине текста. Модели также демонстрируют социо-эмоциональные роли по классификации Бейлза: они не только «дают» информацию, но и «запрашивают» ее, проявляют как позитивные (согласие, солидарность), так и негативные эмоции (несогласие, напряжение). Интересно, что эти конверсационные паттерны активируются сильнее на сложных задачах: в GPQA (физика уровня аспирантуры) диалогичность максимальна, а в простых логических задачах модель работает почти без споров.
Чтобы доказать причинно-следственную связь, исследователи применили методы механистической интерпретируемости: использовали sparse autoencoders для выделения фичи 30939 в активациях модели DeepSeek-R1-Llama*-8B. Эта фича отвечает за маркеры удивления и смены перспективы в разговорах (типа «О!», «Постой-ка»). Когда исследователи усилили активацию этой фичи в 10 раз, точность решения задач Countdown (арифметические головоломки) выросла с 27.1% до 54.8% — удвоилась. При подавлении той же фичи точность упала до 23.8%. Steering конверсационной фичи не просто улучшил результат напрямую, но и запустил полезные когнитивные стратегии: верификацию ответов, откат к предыдущим шагам, декомпозицию на подзадачи и обратную цепочку рассуждений.
Анализ показал, что reasoning-модели генерируют гораздо более разнообразные «личности» внутри одной цепочки рассуждений. LLM-as-judge идентифицировал в трейсах DeepSeek-R1 до пяти различных перспектив с разными чертами по шкале Big Five: например, критичный верификатор (низкая доброжелательность, высокая добросовестность) и креативный генератор идей (высокая открытость опыту). Разнообразие по нейротизму и доброжелательности в DeepSeek-R1 выросло на 56.7% и 29.7% соответственно — именно эти черты связаны с конфликтом и эмоциональной реакцией, необходимыми для продуктивного спора. Интересно, что разнообразие по добросовестности, наоборот, снизилось на 29.1% — все «агенты» остались одинаково дисциплинированными и сосредоточенными на задаче, что соответствует исследованиям человеческих команд.
Финальный эксперимент с reinforcement learning показал, что конверсационные паттерны возникают спонтанно, даже если модель награждают только за правильные ответы. Исследователи обучили Qwen-2.5-3B решать задачи Countdown методом PPO, не давая никаких инструкций про диалоги — и модель сама начала задавать вопросы, переключаться между подходами и спорить с собой. Более того, модели, которых сначала файнтюнили на мультиагентных диалогах, достигли 38% точности уже на 40-м шаге обучения, тогда как модели с монологичным файнтюнингом застряли на 28%. Этот эффект воспроизвелся на Llama*-3.2-3B и даже перенесся на другую задачу — детекцию политической дезинформации, где модель никогда не видела примеров. Вывод исследователей: reasoning-модели создают вычислительный аналог коллективного интеллекта человеческих групп, где разнообразие и структурированное взаимодействие обеспечивают превосходное решение проблем — и это открывает новые возможности для дизайна мультиагентных систем.
*Компании и продукты, признанные экстремистскими и запрещены в РФ.
Источник новости и обложки: arxiv.org

