HackerRank представил новый бенчмарк ASTRA для оценки ИИ в разработке ПО

12.02.2025

Компания HackerRank, известный разработчик инструментов оценки навыков программирования, представила новый бенчмарк ASTRA (Assessment of Software Tasks in Real-World Applications) для тестирования возможностей современных ИИ-моделей вроде ChatGPT, Claude и Gemini в реальных задачах разработки ПО.

Бенчмарк включает 65 проектных задач по программированию, охватывающих 10 основных областей разработки и 34 подкатегории. Каждая задача содержит в среднем 12 файлов исходного кода и конфигураций, что приближает тестирование к реальным условиям разработки.

По результатам первых тестов лидером стала модель o1 от OpenAI, хотя Claude-3.5-sonnet показала более стабильные результаты. Каждая задача в среднем требует написания 61 строки кода и проверяется через 6.7 тестовых сценариев.

HackerRank, обслуживающая более 2 500 клиентов и сообщество из 25 миллионов разработчиков, сделала бенчмарк открытым, чтобы способствовать прозрачности и развитию ИИ-технологий в сфере разработки ПО.

Источник новости и обложки: www.manilatimes.net

Мирослав Кунгуров

Работаю главным редактором proglib.io — опубликовал более 800 статей и создал популярные рассылки о нейросетях и разработке. Помимо редактуры владею Python, с его помощью автоматизирую повседневные задачи.

Политика конфиденциальности / ВК