Компания Microsoft сообщила о создании нейросети под названием VALL-E, которая имитирует любой голос. Для этого ей нужно не более 3 секунд записи оригинального голоса. Нейросеть способна не только имитировать голос, но и даже дублировать эмоциональный фон.
Система включает в себя нейронную языковую модель, в основе которой лежит EnCodec. Она разделает голос человека на компоненты и сопоставляет со своей базой данных. После этого нейросеть использует эти сведения для построения новых фраз.
Microsoft представила языковую модель на GitHub, но пока не публиковала исходный код. Ведь такой инструмент могут использовать мошенники.? 12-летний стример достиг «титанового» ранга в Dota 2