Google начала внедрение новой модели синтеза речи Gemini 3.1 Flash Live, которая предназначена для живого диалога в реальном времени. Разработчики уже получили доступ к ней через API и AI Studio, а обычные пользователи могут столкнуться с обновлением в сервисах Gemini Live и поисковой системе, где внедрение началось с 26 марта.
Новая модели получила более низкую задержку и более выразительные интонации, в классических голосовых ассистентах часто присутствует заметная пауза между окончанием вопроса пользователя и началом ответа, а также «роботизированный» ритм речи. В Google утверждают, что новая версия Gemini значительно сокращает этот разрыв, делая диалог более комфортным. В компании не раскрывают точные цифры задержки, но исследователи в области восприятия речи называют комфортным порогом около 300 миллисекунд, а по косвенным данным, новый движок приближается к этому показателю, ранее ИИ с функциями настройки голоса развернула NVIDIA.
Помимо скорости, модель демонстрирует лучшую устойчивость к «человеческим» помехам в разговоре. Согласно внутренним тестам и бенчмаркам, Gemini 3.1 Flash Live эффективнее справляется со сложными многошаговыми инструкциями (ComplexFuncBench Audio), а также корректнее реагирует на ситуации, когда собеседник колеблется, делает паузы или перебивает ответ (тест Audio MultiChallenge). Правда, в последнем испытании модель набрала 36,1%, в то время как узкоспециализированные недиалоговые системы могут достигать 50%.
Поскольку качество синтеза стало настолько близким к человеческому, что может ввести в заблуждение, Google внедрила систему маркировки и все сгенерированные аудиоданные будут содержать невидимые водяные знаки SynthID. Они неразличимы на слух, но позволяют технически определить

