Исследование OpenAI: даже лучшие нейросети не способны решить большинство задач по программированию

28.02.2025

#Claude 3.5 Sonnet, GPT-4o, OpenAI, ИИ-модели

Исследователи OpenAI признали, что даже самые продвинутые модели ИИ пока не могут конкурировать с программистами-людьми. В новом исследовании компания протестировала 3 ведущие языковые модели на более чем 1 400 реальных задачах по разработке ПО с платформы Upwork.

В тестировании участвовали флагманская модель GPT-4o и o1 от OpenAI, а также Claude 3.5 Sonnet от Anthropic. Модели решали два типа задач: исправление отдельных багов и управленческие задачи более высокого уровня. Важно отметить, что нейросети работали без доступа к интернету, чтобы исключить простое копирование готовых решений.

Хотя ИИ-модели справлялись с задачами в несколько раз быстрее людей, они смогли решить только поверхностные проблемы. При этом нейросети оказались неспособны находить баги в крупных проектах и определять их первопричины. Claude 3.5 Sonnet показал лучшие результаты среди тестируемых моделей, но большинство его ответов все равно оказались некорректными.

Результаты особенно интересны на фоне заявления CEO OpenAI Сэма Альтмана о том, что к концу 2024 года ИИ сможет превзойти программистов начального уровня. Однако исследование показывает, что даже самые передовые модели пока далеки от того, чтобы заменить реальных разработчиков.

Источник новости и обложки: futurism.com

Мирослав Кунгуров

Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Политика конфиденциальности / ВК