Теперь и видео: «Сбербанк» выпустил обновлённую версию своей генеративной нейросети Kandinsky 3.0

На конференции AI Journey команда разработчиков «Сбербанка» анонсировала обновлённую генеративную модель искусственного интеллекта Kandinsky 3.0, предназначенную для создания изображений. Кроме того, была представлена нейросеть Kandinsky Video, способная создавать 8-секундные видеоролики на основе текстового описания.

По словам разработчиков, главным нововведением Kandinsky 3.0 стало обучение нейросети элементам отечественного культурного кода. В первую очередь это коснулось советских и российских знаменитостей и персонажей, архитектурных достопримечательностей, культурных объектов и объектов народного творчества. Например, нейросеть теперь знакома с гжелью. Усовершенствована функция редактирования изображения. Кроме того, появилась возможность дорисовки картины в режиме бесконечного полотна.

По умолчанию Kandinsky 3.0 создаёт картинки c разрешением 1024 × 1024 пикселей, но есть возможность выбрать другое соотношение сторон. При обучении команда разработки использовала массив из 1,5 млрд пар изображений с текстовыми описаниями. Нейросеть также получила поддержку генерации 4-секундных видеороликов по текстовому описанию — они имеют разрешение 640 × 640 пикселей с частотой 24 кадра в секунду. Генерация одной секунды видео занимает примерно 20 секунд. Модели анимации включают перемещения объектов, их приближение, удаление и другие приёмы. Основу алгоритма составляет перерисовка изображения по текстовому описанию.

Нейросеть Kandinsky Video позволяет генерировать видеоряд продолжительностью до 8 секунд с частотой 30 кадров в секунду. Архитектура Kandinsky Video включает в себя два основных блока. Первый блок отвечает за генерацию ключевых кадров, используемых для создания структуры сюжета видео, а второй — генерирует интерполяционные кадры, за счёт чего достигается плавность движения в финальном ролике. Оба блока построены на базе модели синтеза изображений по текстовым описаниям Kandinsky 3.0.

В настоящее время Kandinsky Video может создавать видео с разрешением 512 × 512 пикселей и разным соотношением сторон. Для обучения алгоритма использовался датасет из более чем 300 тыс. пар «текст-видео». Сам же процесс генерации ролика занимает до 3 минут. Алгоритм создаёт видео с движением как объекта, так и фона. Это отличает сгенерированные нейросетью видео от анимационных роликов, в которых динамика достигается за счёт моделирования полёта камеры относительно статичной сцены.

Отмечается, что ранее некоторые пользователи нейросети Kandinsky 2.2 в тестовом режиме получили доступ к функции создания анимационных роликов. Всего одного запроса достаточно для генерации видео продолжительностью до 4 секунд с выбранными эффектами анимации, частотой 24 кадра в секунду и разрешением 640 × 640 пикселей. Пользователи новой версии Kandinsky 3.0 также могут генерировать ролики по текстовому описанию в режиме анимации.

Поработать с моделью Kandinsky 3.0 можно на платформе fusionbrain.ai, на сайте rudalle.ru, при помощи ботов в Telegram и «ВКонтакте», в переписке с чат-ботом GigaChat, в приложениях «СберБанк Онлайн» и «Салют», а также в умных устройствах от «Сбербанка» по команде «запусти художника». Доступ к созданию анимации в Telegram производится по предварительной заявке.