Человечество сделало еще один шаг к неизбежной войне с машинами (которую мы проиграем), создав Vall-E, ИИ, разработанный группой исследователей из Microsoft, который может воспроизводить человеческий голос высокого качества всего за несколько секунд обучения.
Vall-E - не первый голосовой ИИ-инструмент - например, xVASynth существует уже несколько лет, но он обещает превзойти их все по своим возможностям. В статье, исследователи Vall-E утверждают, что большинство современных систем преобразования текста в речь ограничены их зависимостью от "высококачественных чистых данных" для точного синтеза высококачественной речи.
("Нулевой выстрел" в данном случае означает способность ИИ воссоздавать голоса, не будучи специально обученным на них).
Vall-E, с другой стороны, обучается на гораздо большем и более разнообразном наборе данных: 60 000 часов англоязычной речи, полученной от более чем 7 000 уникальных дикторов, и все они расшифрованы программой распознавания речи. Данные, поступающие в ИИ, содержат "более шумную речь и неточные транскрипции", чем те, которые используются другими системами преобразования текста в речь, но исследователи считают, что огромный объем входных данных и их разнообразие делают систему гораздо более гибкой, адаптируемой и, что самое главное, естественной, чем ее предшественники.
Вы можете услышать Vall-E в действии на Github, где исследовательская группа поделилась кратким описанием того, как все это работает, а также десятками образцов. Качество варьируется: Некоторые голоса заметно роботизированы, в то время как другие звучат вполне по-человечески. Но как своего рода начальная техническая демонстрация, это впечатляет. Представьте, что будет с этой технологией через год, два или пять, по мере