Adobe Research совместно с Северо-Западным университетом разработали уникальную ИИ-модель Sketch2Sound, которая позволяет создавать высококачественные звуковые эффекты, используя голосовые подсказки и текстовые описания. Модель анализирует три ключевых аспекта голосового ввода: громкость, тембр и высоту тона. После этого алгоритм соединяет их с текстом для генерации нужного звука.
Особенность модели заключается в использовании технологии фильтрации, которая позволяет точно управлять создаваемыми звуками. Пользователи могут выбрать более детализированное управление или расслабленный подход в зависимости от потребностей. Эта технология может значительно упростить создание звуковых эффектов для фильмов, позволяя специалистам обходиться без физических объектов для записи звуков. Нейросеть позволяет создавать звуки, которые соответствуют как текстовому запросу, так и имитации голосовых или звуковых сигналов.
Ожидается, что Sketch2Sound будет доступна после завершения доработок, однако точная дата релиза и условия коммерческого использования пока неизвестны.