Do not index
Do not index
canonical-url
Publish
Publish
Stability AI acaba de anunciar Stable Diffusion 3.5, una nueva generación de modelos de creación de imágenes que supone una importante evolución con respecto a la versión 3.0, lanzada el pasado mes de junio.
Un regreso inesperado
El lanzamiento de Stable Diffusion 3.5 por parte de Stability es toda una sorpresa.
En un panorama dominado por el meteórico ascenso de Flux, y tras la decepción de Stable Diffusion 3, pocos esperaban un anuncio así.
De hecho, la versión 3.0, lanzada el pasado mes de junio, no convenció. Su calidad no estuvo a la altura de las expectativas y sus restrictivas licencias de uso empujaron a muchos creadores hacia otras soluciones.
Esta situación, unida a los rumores sobre las dificultades financieras de Stability AI, hacía pensar que la serie Stable Diffusion iría decayendo poco a poco, mientras Flux se consolidaba como el heredero espiritual de SDXL a ojos de la comunidad.
Pero Stability AI reaparece de verdad, con una propuesta que parece haber aprendido las lecciones del pasado: modelos más potentes y una licencia más permisiva.
Stable Diffusion 3.5
Las tres variantes del modelo
Al igual que Flux y la mayoría de los modelos modernos, Stable Diffusion 3.5 se publica en varias variantes, adaptadas a diferentes usos.
- Stable Diffusion 3.5 Large (disponible inmediatamente): Un modelo de 8.000 millones de parámetros capaz de generar imágenes de 1 megapíxel de resolución. Esta versión emblemática destaca por su calidad y fidelidad a las indicaciones.
- Stable Diffusion 3.5 Large Turbo (disponible inmediatamente): Una versión optimizada del modelo Large que genera imágenes en sólo 4 pasos, priorizando la velocidad sin comprometer la calidad.
- Stable Diffusion 3.5 Medium (disponible el 29 de octubre): Una versión más ligera con 2.500 millones de parámetros que se adaptará mejor a las configuraciones de consumo. Admitirá resoluciones de 0,25 a 2 megapíxeles.
Aspectos destacados de SD 3.5
Esta versión aporta mejoras significativas en varias áreas clave:
- Fidelidad de los avisos:
- Mayor respeto de las descripciones de texto.
- Nuevas posibilidades de control mediante «resaltado» en las indicaciones para orientar con precisión las generaciones
- Compatibilidad con hashtags temáticos (#boho, #fashion...) para especificar estilos precisos
- Calidad de generación:
- Imágenes generadas más realistas
- Mejora significativa de la representación del texto en las imágenes
- Generación multiestilo que abarca 3D, fotografía, pintura y dibujo lineal
- Accesibilidad y rendimiento:
- Rendimiento optimizado en hardware de consumo, sobre todo en las versiones Medium y Large Turbo.
- Representación inclusiva y diversa sin necesidad de indicaciones complejas
- Compatibilidad con las principales herramientas del mercado
Personalización mejorada
La personalización es el tema central del desarrollo de esta nueva versión. La integración de la normalización Query-Key en los bloques transformadores mejora la estabilidad del proceso de accionamiento y simplifica las operaciones de ajuste. Este enfoque técnico allana el camino para múltiples adaptaciones y desarrollos futuros.
Sin embargo, esta elección arquitectónica conlleva ciertos compromisos. El modelo produce deliberadamente una mayor variedad de resultados para un mismo pronóstico, en función de la semilla utilizada. Esta característica, lejos de ser un defecto, preserva una base de conocimientos más amplia y una mayor diversidad estilística en los modelos básicos.
Sin embargo, los usuarios deben tener en cuenta dos particularidades:
- Las indicaciones imprecisas pueden generar resultados más inciertos.
- La calidad estética puede variar entre generaciones
Accesibilidad y licencias
Todos los modelos, incluida la versión Large, se comparten bajo la licencia comunitaria Stability AI, que autoriza :
- Uso gratuito para particulares e investigación
- Uso comercial gratuito para empresas que generen menos de un millón de dólares de ingresos anuales.
- Plena propiedad de las imágenes generadas
Los dos primeros modelos pueden descargarse de Hugging Face :
Uso de Stable Diffusion 3.5
Tan pronto como fue lanzada, Stable Diffusion 3.5 estuvo disponible en varias plataformas:
- Uso de SD3.5 a través de la API de Stability AI
- Uso de SD3.5 en el sitio web de Replicate
- Uso de SD3.5 en ComfyUI
La versión 3.5 marca un punto de inflexión estratégico para Stability AI. Tras el relativo fracaso de SD3, la empresa vuelve con un enfoque que prioriza la accesibilidad y la personalización.
El impacto real de estos nuevos modelos dependerá en gran medida de su adopción por parte de la comunidad.
La licencia más permisiva y la arquitectura modular podrían resultar atractivas para los desarrolladores, mientras que los artistas y diseñadores tendrán que esperar para ver la calidad real de las generaciones en el día a día.
Un ecosistema en el que Flux domina actualmente los debates, Stable Diffusion 3.5 tendrá que demostrar su relevancia más allá de sus promesas técnicas.
El sector de la IA generativa continúa su rápida transformación.
Cada gran lanzamiento redefine los estándares y las expectativas, obligando a los creadores a reevaluar constantemente sus herramientas. Aunque esta dinámica pueda parecer difícil para los usuarios, estimula la innovación y la diversidad de enfoques en este campo.