«Сбер» запустил нейросеть ruDALL-E, способную создавать изображения на основе текстов. На данный момент сервис перегружен, поэтому генерация картинок занимает около 40 минут. Утверждается, что изображения формируются в три этапа: сначала нейросеть преобразует текстовую информацию в визуальную, затем выбирает самые подходящие образы, а после масштабирует их в высоком качестве.
Используются две системы — ruDALL-E XL с 1,3 млрд параметров (загружается бесплатно с GitHub) и ruDALL-E 12B с 12 млрд. В «Сбер» утверждают, что ruDALL-E стала самым большим нейросетевым вычислительным проектом в России и СНГ. Мы проверили, как работает нейросеть.