Google сделала неожиданный подарок для всех, кто мечтал о славе композитора, но так и не выучил ноты. Чат-бот Gemini обзавелся «музыкальным слухом» благодаря интеграции генеративной модели Lyria 3. Технически генерация работает на основе двух методов ввода: пользователь может либо отправить текстовый промпт с указанием жанра, темпа и настроения, либо загрузить фото или видео, которые модель проанализирует для создания музыкального сопровождения.
Ключевое архитектурное отличие Lyria 3 от предыдущих версий — возможность генерации вокальных партий с автоматически сгенерированным текстом. Ранее для создания треков с голосом требовалось прописывать его в ручную. Сейчас модель самостоятельно формирует семантически связанные с запросом тексты. Дополнительно пользователь может регулировать параметры стиля, темпа и наличия вокала, а обложка для сгенерированного трека создается отдельной моделью Nano Banana.
Все выходные данные маркируются встроенным водяным знаком SynthID, что позволяет идентифицировать контент как сгенерированный ИИ. Это техническое решение используется Google для соблюдения стандартов прозрачности и отслеживания происхождения контента. На старте поддерживаются запросы на английском, немецком, испанском, французском, хинди, японском, корейском и португальском языках. Доступ к генерации музыки открыт только для пользователей старше 18 лет. Подписчики тарифов Google AI Plus, Pro и Ultra получат расширенные лимиты на количество генераций.
Для авторов YouTube Shorts Lyria 3 интегрирована в инструмент Dream Track, позволяя создавать саундтреки непосредственно при монтаже коротких видео.
В компании подчеркивают, что модель обучена с учетом ограничений на прямое копирование тембров и голосов конкретных исполнителей. Если


