Lanzamiento de SDXL Turbo

Do not index

canonical-url

Publish

Flag

Tras el anuncio de Stable Video Diffusion la semana pasada, Stability AI vuelve a la actualidad con un nuevo modelo de generación de imágenes en tiempo real: SDXL Turbo.

Este nuevo modelo permite generar imágenes en tiempo real (o casi) mediante una nueva técnica denominada Adversarial Diffusion Distillation (ADD)

técnica permite la generación en un solopaso, mientras que modelos como SDXL 1.0 requieren docenas de pasos. El resultado es un enorme aumento del rendimiento, que reduce la necesidad de potencia de cálculo y el tiempo necesario para crear una imagen, sin sacrificar su calidad

⚡

SDXL Turbo en breve

SDXL Turbo alcanza el máximo rendimiento gracias a la tecnología de destilación ADD, que permite generar imágenes en un solo paso con una calidad sin precedentes, reduciendo el número de pasos necesarios de 50 a uno solo

creación del modelo se basa en una combinación de aprendizaje adversarial y destilación de puntuaciones que se detalla este documento compartido por los investigadores de Stability AI

El modelo está disponible en Hugging una licencia de investigación que permite su uso personal y no comercial

SDXL Turbo y su capacidad de generación en tiempo real también pueden probarse en Clipdrop, la plataforma de edición de imágenes de Stability AI

Exemples d’images générées avec SDXL Turbo

En las pruebas de comparación con otros modelos de dispersión de última generación, los revisores humanos calificaron sistemáticamente el resultado de imagen de SDXL Turbo como de mayor calidad, al tiempo que requería muchos menos pasos de inferencia.

Gracias a la técnica ADD, SDXL Turbo combina los puntos fuertes de los modelos de emisión conocidos por su calidad con los de los GAN conocidos por su velocidad.

En términos prácticos, la velocidad de SDXL Turbo es notable: en una GPU A100, el modelo puede generar una imagen de 512x512 en poco más de 200 milisegundos, un tiempo que incluye codificación, eliminación de ruido y descodificación rápidas.

En esta fase, SDXL Turbo tiene algunas limitaciones importantes:

Resolución fija: Una de las principales limitaciones es la resolución fija de las imágenes generadas. Actualmente, SDXL Turbo sólo puede producir imágenes con una resolución de 512×512 píxeles

Representación del texto: la plantilla tiene dificultades para representar el texto de forma legible y no alcanza el nivel de SDXL u otras plantillas en este

Renderizado de caras: La generación correcta de caras y personas también es muy imperfecta

Fotorrealismo: SDXL Turbo no consigue un renderizado fotorrealista perfecto

Autocodificación: El componente de autocodificación de SDXL Turbo es Lossy que significa que se pierde algo de información durante el proceso de codificación y descodificación de la imagen. Esto puede afectar a la fidelidad y el detalle de las imágenes generadas, especialmente cuando los matices sutiles son esenciales para la composición general de la imagen

A pesar de estas limitaciones, el SDXL Turbo es increíblemente prometedor, sobre todo en lo que se refiere al rendimiento, y aunque algunos pueden encontrar la menor resolución un paso atrás en comparación con otros modelos, la llegada de este modelo sigue siendo una noticia emocionante que abre nuevos casos de uso.

En cualquier caso, merece la pena probar SDXL Turbo, que ya está disponible para ComfyUi y se puede utilizar como cualquier otro punto de control enotras interfaces como Automatic1111 o Fooocus (modificando los parámetros para obtener una imagen de 512x512, con 1 paso y un cfg de 1)