Китайская ByteDance, материнская компания TikTok, официально запустила мультимодальную версию своей нейросети для синтеза видео — Seedance 2.0. В отличие от предшественников и большинства западных аналогов, модель принимает на вход не только текст и изображения, но и готовые видеофрагменты, аудиодорожки, а также любые их комбинации вплоть до 12 файлов за один запрос.
Главное изменение коснулось не столько «картинки», сколько логики управления. Раньше, чтобы задать движение камеры или мимику персонажа, приходилось расписывать это десятками слов в промпте. Теперь достаточно загрузить референс — например, 5-секундный клип с нужным типом съёмки — и указать в запросе: «@видео1, повторить операторский приём». Модель выделяет не только композицию, но и темп монтажа, направление взгляда, а в случае с аудио — подстраивает визуальный ряд под ритм или интонацию.
Seedance 2.0 поддерживает до 9 изображений, 3 видео и 3 аудиофайла на сессию. Максимальная длина каждого ролика — 15 секунд, а разрешение до 2K. Но главная «фишка», которую сложно было реализовать раньше, — референсная склейка. Пользователь может попросить нейросеть не просто сгенерировать новый фрагмент, а вставить его между двумя существующими видео с сохранением общей стилистики, освещения и даже фонового шума.
Из-за ужесточения политик безопасности площадка наложила вето на генерацию с использованием реалистичных лиц. Система автоматически отклоняет загрузку фото или видео, где чётко идентифицируются живые люди, это касается и замены лиц в роликах.
Пока модель доступна только через китайскую версию Dreamina, привязанную к аккаунту Douyin (местный TikTok). В международных приложениях(CapCut и Imagine.Art) интеграцию обещают к концу февраля.
Сможет ли Seedance 2.0
