Stable Cascade

Stable Cascade es un nuevo modelo de generación de imágenes de Stability, que ha sido calificado un 243% mejor que SDXL términos de calidad estética, comprende mucho mejor las instrucciones (prompts) y es hasta dos veces más rápido.

Con Stable Cascade, puede generar imágenes aún más bellas con indicaciones más cortas y un tiempo de cálculo reducido

→ Probar
Stable Cascade

Descargar Stable Cascade

Cascada estable en pocas palabras

Stable Cascade es un nuevo modelo de generación de imágenes publicado por Stability AI. Se basa en la arquitectura Würstchen extremadamente fácil de ejecutar y entrenar en hardware de consumo.

De hecho, una de las ventajas más significativas que ofrece Stable Cascade es su asequibilidad en términos de costes de formación sin comprometer la calidad ni la velocidad. En comparación con Stable Diffusion, que comprime imágenes de 1024×1024 a 128×128, Stable Cascade consigue una reducción notable, comprimiendo la misma resolución a 24×24. Esto se traduce en velocidades de inferencia más rápidas y menores costes de formación.

Stable Cascade también supera a Stable Diffusion XL en 1.400 millones de parámetros, prometiendo velocidades de inferencia más rápidas sin comprometer el detalle ni la calidad. Su estructura subyacente comprende tres etapas: la primera (A) se centra en el aspecto VAE con 20 millones de parámetros; la segunda (B) es una etapa de difusión, y puede utilizar un modelo de difusión de 700 millones de parámetros o una versión más detallada de 1.500 millones de parámetros; finalmente, la última etapa (C) ofrece modelos aún mayores para aplicaciones de ajuste fino.

📌

Puntos clave sobre Stable Cascade

La Stable Cascade no es un modelo de Stable Diffusion, sino que se basa en una arquitectura técnica completamente distinta.

Esta arquitectura facilita y aligera la conducción y la puesta a punto.

Está optimizado para generar imágenes de 1024x1024, igual que SDXL.

La licencia de Stable Cascade es exclusivamente para uso no comercial.

Imágenes creadas con Stable Cascade

He aquí algunos ejemplos de imágenes generadas con Stable Cascade por Stability AI y los primeros usuarios de esta nueva IA en Reddit.

https://www.reddit.com/r/StableDiffusion/comments/1apue8j/some_fresh_stable_cascade_images_for_you_to_enjoy/

https://www.reddit.com/r/StableDiffusion/comments/1ar359h/cascade_can_generate_directly_at_1536x1536_and/

https://www.reddit.com/r/StableDiffusion/comments/1aqpiv5/stable_cascade_text_rendering_is_a_huge_step_from/

https://www.reddit.com/r/StableDiffusion/comments/1aqgvsc/impressed_with_stable_cascade_in_following/

https://www.reddit.com/r/StableDiffusion/comments/1aq2vyp/testing_stable_cascade/

Demostración de Stable Cascade

La demo de Stable Cascade está disponible en HuggingFace

https://huggingface.co/spaces/multimodalart/stable-cascade

Presentación de Stable Cascade

Formación y puesta a punto

A diferencia de Stable Diffusion XL, que utiliza un único modelo de gran tamaño, Stable Cascade utiliza una secuencia de tres modelos más pequeños y distintos, denominados etapas A, B y C. Esta arquitectura modular ofrece importantes ventajas en términos de eficacia de la formación y personalización.

La primera etapa, la etapa C, transforma las instrucciones textuales en espacios compactados, el espacio latente, de 24×24 píxeles. A continuación, las etapas A y B descodifican estos espacios latentes en imágenes completas de alta resolución

Al separar la generación de imágenes a partir del texto de la descodificación de imágenes, el modelo inicial de texto condicional puede entrenarse y refinarse de forma mucho más eficiente, incluso para ControlNets y LoRAs. Según Stability AI, el refinamiento del paso C por sí solo ofrece una reducción de costes 16 veces mayor en comparación con el refinamiento de un modelo de Difusión Estable de tamaño equivalente.

Los pasos A y B pueden ser potencialmente ajustados para un control adicional, pero esto sería comparable al ajuste fino de la VAE en un modelo de difusión estable convencional. Para la mayoría de los usos, esto proporcionará un beneficio adicional mínimo y simplemente sugerimos entrenar el paso C y utilizar los pasos A y B en su estado original.

Calidad de la imagen

En las evaluaciones de Stability AI, Stable Cascade superó a otros modelos artísticos de IA líderes, incluido SDXL, tanto en calidad de imagen como en alineación con las instrucciones y adherencia a la indicación

Comparaisons entre Stable Cascade (30 étapes d'inférence) à Playground v2 (50 étapes d'inférence), SDXL (50 étapes d'inférence), SDXL Turbo (1 étape d'inférence) et Würstchen v2 (30 étapes d'inférence).

A pesar de contar con 1.400 millones de parámetros más que SDXL, Stable Cascade se beneficia de tiempos de inferencia más rápidos: según Stability AI, el espacio latente comprimido permite al modelo generar imágenes complejas de forma más eficiente gracias a su enfoque multipaso.

Otra mejora destacable es que Stable Cascade tiene unas capacidades tipográficas impresionantes, superando con creces a SDXL a la hora de generar texto dentro de imágenes.

Aunque otras tecnologías de IA para generar imágenes a partir de texto, como Ideogram y DALL-E 3, también han avanzado en los últimos meses para mejorar la generación de texto, los resultados han sido desiguales. Según las pruebas iniciales, Stable Cascade genera texto de forma más consistente, aunque aún está lejos de ser perfecta.