Автор ролика на YouTube Мэтью Берман первым использовал LLM Colosseum, тестовую программу с открытым исходным кодом, которая позволяет пользователям оценивать качество больших языковых моделей и ранжировать их по различным характеристикам – например, мощностью. Colosseum представил несколько недель назад французский программист Стэн Жирар.
Смотрите также Долгожданная Stellar Blade еще не вышла, а разработчики уже заговорили о DLC: чего ждать
В своем первом тесте Жирар сравнил модели OpenAI и MistralAI, чтобы увидеть, какая из них работает лучше. Затем технический энтузиаст Мэтью Берман взялся проверять инструмент на играх. А еще позже за дело взялся инженер Amazon Банджо Обайоми. Он решил объединить 14 разных ИИ в 314 матчах Street Fighter III с помощью сервиса генеративного ИИ Amazon Bedrock.
Чтобы выполнить этот тест, Обайоми использовал приложение с открытым исходным кодом от Girard и эмулятор, запускающий Street Fighter 1997 года от Capcom на базе дуэльной арены с искусственным интеллектом Diambra. Для начала матча выбираются два случайных ИИ, которые управляют Кеном с помощью Colosseum, затем собирают данные о состоянии игры, получают ходы игроков с помощью ИИ и переходят к выполнению выбранных ими ходов в эмуляторе.
Этот новый бенчмарк предложил несколько интересных результатов, включая случаи, когда модели пытались применить свои знания для выполнения невозможных действий, таких как "Сильнейшая комбинация из всех". Кроме того, оказалось, что каждая модель выработала свой собственный стиль игры во время бенчмарка: некоторые использовали оборонительный подход, а другие - агрессивный. Некоторые модели даже отказывались от боя, говоря: "Я извиняюсь, после размышлений я не чувствую себя комфортно, рекомендуя