На конференции Google I/O 2026 компания Google официально представила Gemini Omni — новое семейство мультимодальных AI-моделей, способных создавать и редактировать видео, изображения и другой медиаконтент внутри экосистемы Gemini.
Первой моделью новой линейки стала Omni Flash. По словам Google DeepMind, система умеет генерировать ролики не только из текстовых запросов, но и на основе фотографий, аудио и уже существующих видеофайлов. Пользователи также смогут загружать собственные ролики и просить ИИ изменить атмосферу сцены, добавить визуальные эффекты или полностью переработать изображение.
Google заявляет, что Gemini Omni создавалась как универсальная мультимодальная модель для работы с разными типами контента одновременно. В отличие от предыдущих решений компании, новая система поддерживает video-to-video генерацию и использует расширенные возможности Gemini для понимания сцен, объектов и контекста.
На старте Omni Flash способна создавать короткие видео и аудиоклипы длительностью до 10 секунд, однако Google уже работает над увеличением продолжительности генерации. Технология будет интегрирована в приложение Gemini, платформу Google Flow и YouTube Shorts.
Анонс Gemini Omni стал частью масштабной презентации Google I/O 2026, посвящённой развитию так называемой «эры Agentic Gemini» — экосистемы ИИ-агентов, встроенных в сервисы Google, Android, Workspace и YouTube. Компания также представила обновления Gemini 3.5, новые инструменты генерации контента и расширенные средства маркировки AI-материалов через SynthID.