Stable Video Diffusion

Generación de vídeo con IA

Stability AI ha diseñado Stable Video Diffusion (SVD) para servir a una amplia gama de aplicaciones de vídeo en ámbitos como los medios de comunicación, el entretenimiento, la educación y el marketing

Esta IA permite transformar textos e imágenes en escenas vivas, pasando del concepto a la creación cinematográfica en directo.

→ Probar Stable Video

→ Descargar SVD

Saber más sobre SVD

📌

La difusión de vídeo estable en pocas palabras

Stable Video Diffusion se presenta en dos modelos de imagen a vídeo, capaces de generar 14 y 25 imágenes y convertirlas en un vídeo con una frecuencia de imagen de 3 a 30 fotogramas por segundo.

Se trata de modelos de código abierto, cuyo código y pesos son de libre acceso.

→ Leer el artículos de investigación

Duración del vídeo

De 2 a 5 segundos

Imágenes por segundo

Hasta 30 FPS (fotogramas por segundo)

Tiempo de procesamiento

2 minutos o menos

Generación de vídeo por Stability AI

De la imagen al vídeo

SVD es una plantilla de imagen a vídeo (img2vid: usted proporciona la primera imagen y la plantilla genera un breve videoclip a partir de ella

Ejemplos de vídeos generados con SVD

continuación se muestran dos ejemplos de imágenes creadas con SDXL y los vídeos generados por Stable Video Diffusion a partir de estas imágenes

Diseño del modelo SVD

El artículo Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Dataset (2023) de Andreas Blattmann y sus colegas describe el modelo y su proceso de entrenamiento en detalle

La SVD se distingue por sus 1.500 millones de parámetros, lo que refleja su complejidad y su capacidad para procesar información detallada.

En la fase final de su desarrollo, el modelo se refinó y perfeccionó utilizando un conjunto de datos más pequeño pero de mayor calidad para optimizar su precisión y rendimiento.

Etapas de la formación de la SVD

El modelo SVD ha pasado por tres etapas formativas:

Creación de un modelo inicial a partir de imágenes.

Ampliación de este modelo para procesar secuencias de vídeo, seguida de un preentrenamiento intensivo utilizando un gran corpus de vídeos.

El perfeccionamiento de este modelo de vídeo con un conjunto más reducido de vídeos de alta calidad.

La calidad y pertinencia de la base de datos de vídeos han desempeñado un papel crucial en el éxito de este modelo.

punto de partida del modelo de vídeo fue el modelo de imagen Stable Diffusion 2.1, el predecesor menos conocido (y menos querido) del famoso SDXL. Este modelo de imagen preentrenado sirvió de base sólida para el desarrollo del SVD

Adaptar U-Net

Técnicamente, para adaptar el SVD a las especificidades del tratamiento de vídeo, se han integrado capas de convolución temporal y mecanismos de atención en el estimador de ruido U-Net.

En esta configuración, un tensor latente representa ahora una secuencia de vídeo completa, y la eliminación de ruido se realiza simultáneamente en todas las imágenes mediante un proceso de difusión inversa.

Este enfoque de difusión temporal es similar al utilizado en el modelo VideoLDM de NVidia

Un modelo versátil

Una de las principales características de la difusión estable de vídeo es su adaptabilidad a diferentes usos y aplicaciones.

Es una herramienta versátil que brilla en tareas como la generación de múltiples vistas a partir de una sola imagen, con la opción de refinar en conjuntos de datos multivista, y Stability AI está trabajando para ampliar sus capacidades y satisfacer una gama aún más amplia de aplicaciones.