Проверка ИИ: нейросети провалили сложный тест по программированию, решив менее 10% задач

Бразилия доллар выплаты

26.08.2025 - 09:32

Сейчас читают: 994

playground.ru:

Результаты первого этапа нового соревнования для искусственного интеллекта в области программирования, K Prize, показало реальные возможности искусственного интеллекта в этой области. Оказалось, что в условиях, максимально приближенных к реальным, современные нейросети не способны справиться даже с 10% поставленных задач.

K Prize — это новый амбициозный бенчмарк, созданный сооснователем Databricks и Perplexity Энди Конвински. Его главная особенность — «защита от загрязнения». В отличие от других тестов, задачи для ИИ (основанные на реальных проблемах с GitHub) подбираются уже после того, как участники подали свои модели на соревнование. Это исключает возможность того, что нейросеть была заранее натренирована на конкретных тестовых данных.

Результаты оказались удручающими. Победитель, бразильский промпт-инженер Эдуардо Роша де Андраде, смог правильно решить всего 7,5% задач. И это лучший результат.

Сам организатор Энди Конвински не расстроен, а, наоборот, рад, что удалось создать по-настояшему сложный тест, который отражает реальные возможности ИИ, а не раздутый хайп.

— говорит Конвински.

Чтобы стимулировать прогресс в этой области, Конвински пообещал выплатить 1 миллион долларов создателям первой open-source модели, которая сможет преодолеть порог в 90% на его тесте. Однако текущие результаты показывают, что до появления полноценных ИИ-программистов еще очень далеко.

Читать на playground.ru

Все новости от playground.ru

Об этом же в других СМИ

Google запустила новый Androidify для создания Android-ботов с помощью нейросетей vgtimes.ru /10 месяцев назад

Blizzard допускают использование ИИ в работе над своими играми, но только для тяжелых рутинных задач noob-club.ru /10 месяцев назад

Шрайер: Take-Two могла врятувати перезапуск Perfect Dark, але переговори з Xbox провалилисяФорум PlayStation ps4.in.ua /10 месяцев назад

Сайт playerone.cc - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

Проверка ИИ: нейросети провалили сложный тест по программированию, решив менее 10% задач

Похожие новости

Escape from Tarkov представит необычный мерч на Tokyo Game Show

Phantom Blade Zero обещает инновационный ИИ для боссов на максимальной сложности

Call of Duty: WWII: видео первого трейлера

Разработчик просит Valve удалить его собственную игру Please из Steam, называя ее плохой игрой

Вин Дизель показал свежее фото со съёмок нового «Риддика»

Новая игра — старые переживания: Как Death Stranding 2: On The Beach продолжает идеи Metal Gear Solid

Актриса озвучки сообщила, что новая игра серии Mafia уже находится в разработке

Как устроено артефактное оружие в Remix: Legion

PC-версию Dying Light: The Beast запустили на Android и показали, сколько FPS выдала игра

Hotel Tales достиг 30 тысяч вишлистов!

Davai Lama: «Китайская Дота мертва, остались лишь некоторые игроки из старой гвардии»

Wisper стал мидером HEROIC — киберспортсмен сменил роль

Раскрыты подробности игрового процесса и концепт-скрины отменённого перезапуска Perfect Dark

Разработчики 007 First Light сделают особый акцент на "гаджетах" Джеймса Бонда

В сети стали появляться спойлеры Silent Hill f, потому как некоторые игроки уже получили диски

Loda о рандоме в Доте: «Мне выпал Clinkz 2 игры подряд, потом Meepo, потом 2 раза Clinkz. СНОВА???»

Следующая God of War может перенести игроков в Древний Египет

В Windows 11 тестируют встроенную поддержку анимированных обоев

Tomb Raider: Anniversary возвращается? В сети появился список трофеев для PlayStation 4

Dying Light: The Beast получает высокие оценки, а GTA будет использоваться для изучения истории США

Разработчик Borderlands 4 показал более мрачную версию Хорнет из Hollow Knight: Silksong