Компания HackerRank, известный разработчик инструментов оценки навыков программирования, представила новый бенчмарк ASTRA (Assessment of Software Tasks in Real-World Applications) для тестирования возможностей современных ИИ-моделей вроде ChatGPT, Claude и Gemini в реальных задачах разработки ПО.
Бенчмарк включает 65 проектных задач по программированию, охватывающих 10 основных областей разработки и 34 подкатегории. Каждая задача содержит в среднем 12 файлов исходного кода и конфигураций, что приближает тестирование к реальным условиям разработки.
По результатам первых тестов лидером стала модель o1 от OpenAI, хотя Claude-3.5-sonnet показала более стабильные результаты. Каждая задача в среднем требует написания 61 строки кода и проверяется через 6.7 тестовых сценариев.
HackerRank, обслуживающая более 2 500 клиентов и сообщество из 25 миллионов разработчиков, сделала бенчмарк открытым, чтобы способствовать прозрачности и развитию ИИ-технологий в сфере разработки ПО.
Источник новости и обложки: www.manilatimes.net