Результаты первого этапа нового соревнования для искусственного интеллекта в области программирования, K Prize, показало реальные возможности искусственного интеллекта в этой области. Оказалось, что в условиях, максимально приближенных к реальным, современные нейросети не способны справиться даже с 10% поставленных задач.
K Prize — это новый амбициозный бенчмарк, созданный сооснователем Databricks и Perplexity Энди Конвински. Его главная особенность — «защита от загрязнения». В отличие от других тестов, задачи для ИИ (основанные на реальных проблемах с GitHub) подбираются уже после того, как участники подали свои модели на соревнование. Это исключает возможность того, что нейросеть была заранее натренирована на конкретных тестовых данных.
Результаты оказались удручающими. Победитель, бразильский промпт-инженер Эдуардо Роша де Андраде, смог правильно решить всего 7,5% задач. И это лучший результат.
Сам организатор Энди Конвински не расстроен, а, наоборот, рад, что удалось создать по-настояшему сложный тест, который отражает реальные возможности ИИ, а не раздутый хайп.
— говорит Конвински.
Чтобы стимулировать прогресс в этой области, Конвински пообещал выплатить 1 миллион долларов создателям первой open-source модели, которая сможет преодолеть порог в 90% на его тесте. Однако текущие результаты показывают, что до появления полноценных ИИ-программистов еще очень далеко.

