Исследователи OpenAI признали, что даже самые продвинутые модели ИИ пока не могут конкурировать с программистами-людьми. В новом исследовании компания протестировала 3 ведущие языковые модели на более чем 1 400 реальных задачах по разработке ПО с платформы Upwork.
В тестировании участвовали флагманская модель GPT-4o и o1 от OpenAI, а также Claude 3.5 Sonnet от Anthropic. Модели решали два типа задач: исправление отдельных багов и управленческие задачи более высокого уровня. Важно отметить, что нейросети работали без доступа к интернету, чтобы исключить простое копирование готовых решений.
Хотя ИИ-модели справлялись с задачами в несколько раз быстрее людей, они смогли решить только поверхностные проблемы. При этом нейросети оказались неспособны находить баги в крупных проектах и определять их первопричины. Claude 3.5 Sonnet показал лучшие результаты среди тестируемых моделей, но большинство его ответов все равно оказались некорректными.
Результаты особенно интересны на фоне заявления CEO OpenAI Сэма Альтмана о том, что к концу 2024 года ИИ сможет превзойти программистов начального уровня. Однако исследование показывает, что даже самые передовые модели пока далеки от того, чтобы заменить реальных разработчиков.
Источник новости и обложки: futurism.com