Исследователи из Alibaba Group представили новую модель START (Self-Taught Reasoner with Tools), которая значительно улучшает возможности рассуждения больших языковых моделей за счет интеграции внешних инструментов. Основное преимущество модели — способность выполнять сложные вычисления, самопроверку и самоотладку через выполнение кода Python, что позволило достичь точности 63.6% на PhD-уровневых научных вопросах (GPQA) и 95.0% на математических задачах уровня соревнований (AMC23).

Ключевая инновация START заключается в двух разработанных техниках. Первая — Hint-infer, которая вставляет искусственно созданные подсказки (например, «Подожди, может использование Python здесь — хорошая идея») во время процесса вывода, стимулируя модель использовать внешние инструменты без необходимости в демонстрационных данных. Вторая — Hint-RFT, объединяющая Hint-infer с отбором по отклонению (Rejection Sampling Fine-Tuning), что позволяет фильтровать и модифицировать траектории рассуждений с вызовом инструментов.
Исследователи дополнительно протестировали START на более сложных задачах, включая математические бенчмарки AIME24 и AIME25, где модель достигла точности 66.7% и 47.1% соответственно. На соревновательном кодовом бенчмарке LiveCodeBench результат составил 47.3%. Для сравнения, базовая модель QwQ-32B, на основе которой создавался START, показала значительно более низкие результаты с разницей до 16.7% на некоторых тестах.

Особенно впечатляющим является то, что START, несмотря на свой открытый характер, демонстрирует производительность, сопоставимую с проприетарной моделью o1-Preview от OpenAI и современной открытой моделью R1-Distill-Qwen-32B. Исследование показывает, что интеграция внешних инструментов в процесс рассуждения может значительно улучшить способности языковых моделей решать сложные задачи, требующие точных вычислений, где традиционные модели часто страдают от галлюцинаций из-за опоры исключительно на внутренние процессы рассуждения.
Источник новости и обложки: arxiv.org/abs/2503.04625