Stable Video Diffusion

Todo lo que necesitas saber para entender y usar SVD

Generación de vídeo con IA

Stability AI ha diseñado Stable Video Diffusion (SVD) para servir a una amplia gama de aplicaciones de vídeo en ámbitos como los medios de comunicación, el entretenimiento, la educación y el marketing
Esta IA permite transformar textos e imágenes en escenas vivas, pasando del concepto a la creación cinematográfica en directo.
 
Video preview
 
📌
La difusión de vídeo estable en pocas palabras
Stable Video Diffusion se presenta en dos modelos de imagen a vídeo, capaces de generar 14 y 25 imágenes y convertirlas en un vídeo con una frecuencia de imagen de 3 a 30 fotogramas por segundo.
Se trata de modelos de código abierto, cuyo código y pesos son de libre acceso.
Duración del vídeo
De 2 a 5 segundos

Imágenes por segundo
Hasta 30 FPS (fotogramas por segundo)

Tiempo de procesamiento
2 minutos o menos
 

Generación de vídeo por Stability AI

De la imagen al vídeo

SVD es una plantilla de imagen a vídeo (img2vid: usted proporciona la primera imagen y la plantilla genera un breve videoclip a partir de ella

Ejemplos de vídeos generados con SVD

continuación se muestran dos ejemplos de imágenes creadas con SDXL y los vídeos generados por Stable Video Diffusion a partir de estas imágenes
notion image
notion image
 
 

Diseño del modelo SVD

El artículo Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Dataset (2023) de Andreas Blattmann y sus colegas describe el modelo y su proceso de entrenamiento en detalle
La SVD se distingue por sus 1.500 millones de parámetros, lo que refleja su complejidad y su capacidad para procesar información detallada.
En la fase final de su desarrollo, el modelo se refinó y perfeccionó utilizando un conjunto de datos más pequeño pero de mayor calidad para optimizar su precisión y rendimiento.

Etapas de la formación de la SVD

El modelo SVD ha pasado por tres etapas formativas:
  1. Creación de un modelo inicial a partir de imágenes.
  1. Ampliación de este modelo para procesar secuencias de vídeo, seguida de un preentrenamiento intensivo utilizando un gran corpus de vídeos.
  1. El perfeccionamiento de este modelo de vídeo con un conjunto más reducido de vídeos de alta calidad.
La calidad y pertinencia de la base de datos de vídeos han desempeñado un papel crucial en el éxito de este modelo.
punto de partida del modelo de vídeo fue el modelo de imagen Stable Diffusion 2.1, el predecesor menos conocido (y menos querido) del famoso SDXL. Este modelo de imagen preentrenado sirvió de base sólida para el desarrollo del SVD

Adaptar U-Net

Técnicamente, para adaptar el SVD a las especificidades del tratamiento de vídeo, se han integrado capas de convolución temporal y mecanismos de atención en el estimador de ruido U-Net.
En esta configuración, un tensor latente representa ahora una secuencia de vídeo completa, y la eliminación de ruido se realiza simultáneamente en todas las imágenes mediante un proceso de difusión inversa.
Este enfoque de difusión temporal es similar al utilizado en el modelo VideoLDM de NVidia

Un modelo versátil

Una de las principales características de la difusión estable de vídeo es su adaptabilidad a diferentes usos y aplicaciones.
Es una herramienta versátil que brilla en tareas como la generación de múltiples vistas a partir de una sola imagen, con la opción de refinar en conjuntos de datos multivista, y Stability AI está trabajando para ampliar sus capacidades y satisfacer una gama aún más amplia de aplicaciones.
 

Artículos y tutoriales sobre SVD

No posts found in this page! Try other pages.