Как правильно писать промты для o1 и o3-mini

Разбираемся, когда использовать модели рассуждений и чем они отличаются от GPT-моделей.

OpenAI предлагает два типа моделей: модели рассуждений (например, o1 и o3-mini) и GPT-модели (такие как GPT-4o). И работают они совершенно по-разному.

Модели рассуждений vs GPT: в чем разница?

Если сравнивать с GPT, модели серии o отлично справляются с совершенно другими задачами и требуют иного подхода к формулировке запросов. Нельзя сказать, что какое-то семейство моделей лучше — они просто разные.

Модели серии o (назовем их «стратегами») обучены дольше и глубже анализировать сложные задачи. Они особенно хороши в стратегическом планировании, поиске решений комплексных проблем и принятии решений на основе большого объема неоднозначной информации. Эти модели способны выполнять задачи с высокой точностью, что делает их идеальными для областей, где обычно требуется человек-эксперт — математика, наука, инженерия, финансы и юриспруденция.

А вот GPT-модели созданы для более прямолинейного выполнения задач. В идеальном сценарии приложение может использовать o-серию для разработки стратегии решения проблемы, а GPT-модели — для выполнения конкретных задач, особенно когда скорость и стоимость важнее идеальной точности.

Модели GPT-4o и GPT-4o mini сортируют детали заказов с информацией о клиентах определяют проблемы с заказами и политику возврата а затем передают все эти данные в o3-mini для принятия окончательного решения о возможности возврата на основе политики. Источник: platform.openai.com

Как выбрать подходящую модель?

Все зависит от того, что критично в вашем случае:

Скорость и экономия → GPT-модели
Выполнение четко определенных задач → GPT-модели
Точность и надежность → модели o-серии
Решение сложных проблем → o-серии

В большинстве случаев оптимально использовать комбинацию обоих типов моделей: o-серию для планирования и принятия решений, а GPT — для выполнения конкретных задач.

Работа с неоднозначными задачами

Когда вы работаете с большими объемами неструктурированной информации, модели рассуждений отлично справляются с выделением действительно важных данных для ответа на конкретный вопрос.

Анализ связей в больших наборах данных

Модели рассуждений особенно эффективны при работе со сложными документами, содержащими сотни страниц неструктурированной информации — будь то юридические контракты, финансовая отчетность или страховые претензии. Они великолепно справляются с поиском параллелей между документами и принятием решений на основе неявных закономерностей в данных.

Эти модели умеют работать с нюансами правил, применяя их к конкретным задачам для достижения разумных выводов.

Многоэтапное планирование

В области планирования и разработки стратегий модели рассуждений играют ключевую роль. Наиболее эффективный подход — использовать модель рассуждений как «планировщика», который создает детальное, пошаговое решение проблемы. Затем для каждого этапа выбирается подходящая GPT-модель («исполнитель»), в зависимости от того, что важнее — интеллектуальная мощь или скорость отклика.

Визуальный анализ

На сегодняшний день o1 — единственная модель рассуждений с поддержкой компьютерного зрения. В отличие от GPT-4o, она хорошо справляется со сложными визуальными данными: будь то запутанные графики, таблицы со сложной структурой или фотографии низкого качества.

Внутреннее тестирование показало впечатляющие результаты: модель способна анализировать сложные архитектурные чертежи, идентифицируя материалы и составляя подробные спецификации. Как опытный прораб, только быстрее и без перекуров. Особенно удивительно то, что o1 может самостоятельно переносить обозначения с легенды одного чертежа на другой без дополнительных указаний — например, правильно интерпретируя аббревиатуру PT (pressure treated) для деревянных опор 4×4.

Анализ и улучшение кода

Модели рассуждений отлично подходят для ревью и оптимизации больших объемов кода. Учитывая их более высокую латентность, они особенно эффективны для фоновых проверок кода.

И хотя для непосредственного написания кода лучше подходят более быстрые GPT-4o и GPT-4o mini, мы заметили, что o3-mini показывает отличные результаты в задачах, где скорость отклика не критична.

Оценка и тестирование других моделей

Еще одна сильная сторона моделей рассуждений — оценка и тестирование ответов других моделей. Это особенно важно в таких чувствительных областях, как здравоохранение, где качество и надежность данных критичны. В отличие от традиционных методов валидации, основанных на предопределенных правилах, o1 и o3-mini способны учитывать контекст и применять более гибкий, интеллектуальный подход к проверке данных.

Как эффективно общаться с моделями рассуждений

Хотите получить максимум от работы с моделями o-серии? Давайте разберем основные принципы эффективного взаимодействия с ними. Спойлер: они не любят долгих предисловий, как некоторые людию

Ключевые принципы

Может показаться, что чем больше деталей мы предоставим модели, тем лучше будет результат. Однако на практике все наоборот — модели рассуждений демонстрируют наилучшие результаты при работе с краткими, четкими запросами. Прямо как некоторые руководители, которые ценят, когда суть излагают за пять минут, а не за час.
Избегайте промптов с цепочкой рассуждений: поскольку эти модели выполняют рассуждения внутренне, нет необходимости побуждать их «думать пошагово» или «объяснять свои рассуждения».
Используйте разделители, такие как markdown, XML-теги и заголовки разделов, чтобы четко обозначить различные части входных данных, помогая модели правильно интерпретировать разные секции.
Модели рассуждений часто не нуждаются в примерах для получения хороших результатов, поэтому сначала попытайтесь составить запросы без примеров. Если у вас есть более сложные требования к желаемому результату, может быть полезно включить несколько примеров входных данных и желаемых выходных данных в ваш запрос. Просто убедитесь, что примеры очень точно соответствуют инструкциям в вашем запросе, так как несоответствия между ними могут привести к плохим результатам.
Если существуют способы, которыми вы хотите явно ограничить ответ модели (например, «предложите решение с бюджетом менее 500 долларов»), четко обозначьте эти ограничения в запросе.
В своих инструкциях старайтесь задавать очень четкие параметры успешного ответа и побуждайте модель продолжать рассуждения и итерации до тех пор, пока она не достигнет ваших критериев успеха.
Начиная с версии o1-2024-12-17, модели рассуждений в API будут избегать генерации ответов с форматированием markdown. Чтобы сообщить модели, когда вы хотите использовать форматирование markdown в ответе, включите строку «Formatting re-enabled» в первую строку вашего сообщения разработчика.

Источник: platform.openai.com

Лучшие практики работы с моделями рассуждений: 7 правил написания промтов

Модели рассуждений vs GPT: в чем разница?

Как выбрать подходящую модель?

Работа с неоднозначными задачами

Анализ связей в больших наборах данных

Многоэтапное планирование

Визуальный анализ

Анализ и улучшение кода

Оценка и тестирование других моделей

Как эффективно общаться с моделями рассуждений

Ключевые принципы