Многие генеративные модели уже умеют создавать изображения по любому запросу пользователя. Исследователи из Google пошли ещё дальше и создали игровую ИИ-модель, которая умеет генерировать кадры для существующей игры в режиме реального времени. В качестве демонстрации возможностей был использован классический шутер 1993 года.
Особенность этого процесса в том, что нейросеть не использует исходный код игры. Вместо этого в реальном времени создаются новые изображения с частотой более 20 кадров в секунду. Новая модель называется GameNGen, и она стала предметом нового исследования учёных из Google и Тель-Авивского университета. Результаты подтверждают, что такие игры, как Doom можно запускать внутри нейросети.
В исследовании отмечается, что компьютерная игра работает следующим образом: игрок совершает действие или ввод, игровое состояние обновляется соответствующим образом, а затем отображает результат на экране.
Исследователи использовали версию 1.4 Stable Diffusion, генератора изображений с открытым исходным кодом. Они также разработали отдельную модель для игры в Doom, записывая игровой процесс общей продолжительностью 900 миллионов кадров. Полученные тренировочные данные затем используются Stable Diffusion для создания игровых изображений, которые адаптируются по мере получения входных данных от игрока.
Команда опубликовала несколько видеороликов, демонстрирующих работу GameNGen. Результаты показывают, что модель может симулировать открытие двери, когда игрок подходит к ней, и попадание огненного шара в игрока, что приводит к потере части здоровья.
Однако GameNGen имеет значительные ограничения. Модель позволяет запоминать события длиной чуть более трёх секунд. В результате этого, враги и объекты иногда могут внезапно