Голоса Amazon Alexa, Google Assistant и других помощников на основе ИИ звучат намного лучше старых, однако им по-прежнему не хватает ритма, интонации и других качеств, которые делают речь плавной и более «человечной». Компания NVIDIA представила на конференции Interspeech 2021 новые инструменты, которые помогут уловить естественные свойства голоса и натренировать систему.
Для этого исследовательская группа NVIDIA по преобразованию текста в речь разработала модель под названием RAD-TTS, которая победила в конкурсе по созданию наиболее реалистичного аватара на выставке NAB Show 2021.
Система позволяет человеку обучать модель синтеза речи собственным голосом, включая темп, тональность, тембр и другие характеристики. Ещё одной функцией RAD-TTS