DOOM вновь становится полем для эксперимента. На этот раз шутер не запускали на тостере, зато дали ИИ во всю порезвиться на уровнях
DOOM не только запускают на всевозможных платформах (игровых и не очень), но и просто экспериментируют с легендарным шутером. Один исследователь решил попробовать посадить GPT-4 поиграть в DOOM. Адриан де Винтер (Adrian de Wynter) испытал возможности языковой модели (ИИ) в видеоигре.
Для работы он взял не OpenAI GPT-4, которая не может запустить DOOM из-за ограничения на объём входных данных, выбор пал на мультимодальный вариант GPT-4V, который способен принимать изображения в качестве входных данных.
Исследователь не проводил какое-нибудь специальное обучение ИИ игре в DOOM, но всё же пришлось поработать. Он разработал компонент Vision для того, чтобы делать скриншоты из игрового движка и возвращать структурные описания состояния игры и «объединил это с моделью агента, которая вызывает GPT-4 для принятия решений на основе визуального ввода и предыдущей истории. Модели агента было велено преобразовывать свои ответы в команды, которые имеют значение для игрового движка».
То есть на вход подаётся картинка —> она «превращается» в текстовое описание того, что происходит перед игроком —> GPT-4 анализирует и принимает решение —> это решение транслируется в команду, которая отправляется в DOOM.
Подобная конструкция на базе GPT-4 способна перемещаться по уровню и открывать двери, стрелять и сражаться с врагами. Однако это всё же не «полноценный игрок» — есть определённые недостатки:
Если противник выходит за пределы экрана, то о его существовании «забывают» (при этом враг остаётся в живых и может продолжить наносить урон).
С ориентацией в пространстве у ИИ всё не очень хорошо, порой GPT-4 застревал
С