NVIDIA опубликовала в открытом доступе голосовую ИИ-модель PersonaPlex, способную вести диалог с естественным для человека темпом. В отличие от большинства современных голосовых помощников, система обрабатывает речь собеседника и формирует ответ в реальном времени, что устраняет характерные для ассистентов неестественные задержки.
Традиционный подход предполагает последовательную цепочку: распознавание речи, её обработка языковой моделью и, наконец, синтез ответа, что приводит к паузам и «роботизированному» ритму беседы. PersonaPlex использует архитектуру полнодуплексного общения и умеет распознавать моменты для вступления в диалог, делать короткие подтверждающие реплики («угу», «ага») и даже корректно реагировать на прерывания со стороны собеседника.
Ключевой особенностью новой разработки стала гибридная система настройки персонажа. Пользователь может задать не только текстовое описание роли, но и предоставить голосовой образец для копирования тембра и манеры речи, что позволяет создать уникального собеседника.
Модель размером 7 миллиардов параметров обучалась на смеси реальных и синтетических данных. Для придания естественных речевых паттернов использовалось более 1 200 часов живых диалогов. Синтетические диалоги, сгенерированные с помощью других ИИ, помогли научить модель точнее следовать инструкциям и осваивать специализированные сценарии, например, работу в службе поддержки.
Модель и исходный код уже доступны на платформах Hugging Face и GitHub. Лицензии MIT и NVIDIA Open Model License разрешают их коммерческое использование. На текущий момент PersonaPlex поддерживает только английский язык. Открытая публикация такой модели может ускорить развитие голосовых интерфейсов в сервисных чат-ботах, интерактивных обучающих

