Исследовательское подразделение NVIDIA выложило в открытый доступ Lyra 2.0 — систему генеративного искусственного интеллекта, которая строит связные трехмерные сцены на основе всего одного статичного изображения.
Главная особенность релиза заключается не столько в факте преобразования 2D в 3D (подобные инструменты появлялись и раньше), сколько в способности Lyra 2.0 удерживать геометрическую согласованность окружения при длительном виртуальном перемещении камеры. Согласно сопроводительной документации к исследованию, модель способна генерировать сцены протяженностью примерно 90 метров без критического разрушения структуры объектов на заднем плане. Разработчики Lyra 2.0 выделили две фундаментальные проблемы, характерные для существующих видеогенеративных моделей при попытке создать эффект прогулки по виртуальному миру.
Первая — так называемая пространственная забывчивость. Когда виртуальная камера отворачивается от какого-либо участка и затем возвращается к нему, нейросеть склонна рисовать эту область заново. В Lyra 2.0 инженеры применили метод сохранения каркасной геометрии для каждого просчитанного кадра и при обратном движении камеры система обращается к этому «слепку» местности, что существенно снижает визуальную несогласованность. Вторая сложность — временной дрейф, то есть постепенное накопление микроскопических ошибок синтеза при автогенерации длинных последовательностей. Вместо того чтобы игнорировать собственные артефакты, модель в процессе обучения намеренно сталкивали с ее же искаженными данными, что позволило выработать механизм самокоррекции.
В основе пайплайна лежит диффузионный трансформер Wan 2.1 с 14 миллиардами параметров. Процесс работы разбит на два этапа. Сначала по загруженной фотографии и заданной