AuraFlow, la nueva alternativa Open Soure

Do not index

canonical-url

Publish

Flag

Tras la tibia acogida del último modelo texto-imagen de Stability AI, Stable Diffusion 3, la comunidad de la IA generativa está cada vez más interesada en otros modelos fundacionales y en la posibilidad de crear un modelo que respete mejor los ideales de código abierto del proyecto original.

En este contexto se publica AuraFlow 0.1, un nuevo modelo más que prometedor...

AuraFlow v0.1

¿Qué es AuraFlow?

AuraFlow es un nuevo modelo de generación de imágenes basado en texto desarrollado por Simo (que ya ha integrado el concepto de LoRA en Stable Diffusion) y el equipo de Fal.ai.

Se trata de un modelo de generación de imágenes que pretende ser la mayor alternativa de código abierto a Stable Diffusion 3.

Según sus desarrolladores, ha sido diseñado para ofrecer un rendimiento de vanguardia sin dejar de ser completamente de código abierto. Se dice que es el mayor modelo completamente Open Source de su clase hasta la fecha.

Especificaciones técnicas

Según la información compartida en el Anuncio de AuraFlow v0.1, estas son algunas de las principales características técnicas del modelo:

Uso de bloques DiT (Diffusion Transformer) en lugar de los más complejos bloques MMDiT, para una mejor eficiencia computacional.

Optimizaciones mediante torch.compile para acelerar el entrenamiento.

Uso de la técnica zero-shot learning rate transfer para encontrar buenos hiperparámetros sin tener que escanearlo todo.

Recaptura completa de las imágenes del conjunto de datos para mejorar la calidad de la instrucción.

Arquitectura más grande y más corta, siguiendo las recomendaciones del trabajo sobre leyes de escalado.

Al final, el modelo entrenado tiene 6.800 millones de parámetros y alcanza puntuaciones de 0,703 en la métrica GenEval, con la ayuda de una tubería de mejora rápida.

https://www.reddit.com/media?url=https%3A%2F%2Fpreview.redd.it%2Ffal-drops-auraflow-v0-seu4eyc8j2cd1.png%3Fwidth%3D1024%26format%3Dpng%26auto%3Dwebp%26s%3Da53ef7c4dad39729ddffa9a6d9defe7ae91dadec

https://www.reddit.com/media?url=https%3A%2F%2Fpreview.redd.it%2Ffal-drops-auraflow-v0-z85j8ceif2cd1.png%3Fwidth%3D1024%26format%3Dpng%26auto%3Dwebp%26s%3Dce146802c4ba971df20a9bbfd31ebbf788d5fccb

https://www.reddit.com/media?url=https%3A%2F%2Fpreview.redd.it%2Ffal-drops-auraflow-v0-8732jn5cx6cd1.png%3Fwidth%3D1024%26format%3Dpng%26auto%3Dwebp%26s%3De42fd621ed88a71181e20ad92c16e5194c369519

¿Cómo utilizar AuraFlow v0.1?

AuraFlow en línea

Si desea probar algunas generaciones a toda velocidad, pruebe la demo en línea en el sitio web de Fal.AI: podrá generar imágenes gratuitamente y ver en pocos minutos lo que este nuevo modelo tiene bajo la manga...

AuraFlow en ComfyUI

Si quieres ir más allá, la plantilla ya es compatible con la última versión de ComfyUI. Actualiza tu instalación de ComfyUI y descarga el modelo en HuggingFace para integrarla en tus flujos de trabajo.

Bienvenida a la comunidad

El lanzamiento de AuraFlow ha sido bien recibido por la comunidad de usuarios de Stable Diffusion. Se han publicado muchos comentarios entusiastas en Reddit celebrando la llegada de un modelo de código abierto tan grande.

Del mismo modo, en Hacker News, los comentarios iniciales han sido positivos, aunque algunos han señalado que el modelo aún tiene algunos fallos con las manos y varias partes del cuerpo humano (un problema recurrente con los modelos de este tipo).

En resumen, AuraFlow es una excelente alternativa de código abierto a Stable Diffusion 3, con un rendimiento prometedor. Su llegada ha sido muy bien recibida por la comunidad, que parece encantada de contar con un modelo de código abierto como éste. Los desarrolladores tienen previsto seguir mejorándolo en los próximos meses.

🔗

Para saber más:

El anuncio detallado del modelo](https://blog.fal.ai/auraflow/) en el blog de Fal.ai

La página del modelo](https://huggingface.co/fal/AuraFlow) en HuggingFace (con el archivo .safetensor para descargar)

Vídeo : AuraFlow, un primer vistazo