ControlNet, la guía completa

ControlNet, la guía completa

Do not index
Do not index
canonical-url
Publish
Publish
ControlNet es un modelo complementario para Stable Diffusion que permite copiar composiciones de imágenes o poses de personajes a partir de una imagen de referencia.
ControlNet es, por tanto, mucho más que una simple herramienta de imagen a imagen: ofrece una precisión sin igual, permitiendo a los usuarios elegir con precisión qué elementos de la imagen original desean conservar o ignorar.
Las herramientas estándar para generar imágenes de texto a imagen o incluso de imagen a imagen ofrecen poco control sobre la composición de las imágenes. Las imágenes siguen siendo aleatorias y hay que generar un gran número de ellas para poder elegir finalmente aquella en la que se encuentran el sujeto y los demás elementos y qué aspecto tienen.
ControlNet cambia por completo las reglas del juego
modelos actuales se centran sobre todo en las poses y la composición de las imágenes, pero ya hemos visto aparecer nuevos usos, como códigos QR y las imágenes pirateadas.
notion image
notion image

Descubra ControlNet

¿Qué puede hacer ControlNet?

Copia de la instalación

Con ControlNet, es posible mantener la pose o posición de un personaje mientras se genera una nueva imagen.
La photo de départ (freepik)
La photo de départ (freepik)
L’image générée avec ControlNet
L’image générée avec ControlNet
Incluso puede utilizar una imagen que muestre sólo la pose en forma de maniquí 3D o diagrama Open.
La version 3D créée par @Gilloute avec MagicPoser
La version 3D créée par @Gilloute avec MagicPoser
L’image générée avec ControlNet
L’image générée avec ControlNet
Un schema de positions proposé par @lekima
Un schema de positions proposé par @lekima
L’image générée avec ControlNet
L’image générée avec ControlNet
⚙️
Modelo utilizado para la conservación de la instalación: control_openpose-fp16 (OpenPose)

Preservación de la profundidad de la imagen.

ControlNet también puede utilizar un mapa de profundidad de imagen para generar imágenes que conserven las profundidades del original, lo que permite modificar el entorno o ambiente, por ejemplo, conservando las características principales de la imagen
a estas variaciones de la ciudad de Whiterun (Skyrim) creadas por @Lokitsar.
notion image
notion image
notion image
notion image
⚙️
Modelo utilizado para mantener las profundidades: control_depth-fp16 (Profundidad)

Imagen de un boceto

El boceto o dibujo de cualquier niño puede transformarse en una obra de arte con ControlNet.
Un dessin de @pjgalbraith et son rendu par ControlNet
Un dessin de @pjgalbraith et son rendu par ControlNet
Le ‘S’ d’origine par @leakime
Le ‘S’ d’origine par @leakime
Un chateau par @viniciusfdb
Un chateau par @viniciusfdb
Un prêtre par @nybbleth
Un prêtre par @nybbleth
⚙️
Modelo utilizado para los bocetos: t2iadapter_sketch-fp16

Copiar contornos

ControlNet también dispone de un modelo que extrae los contornos de una imagen en forma de líneas antes de redibujarla.
L’image de départ (générée avec Lexica.art)
L’image de départ (générée avec Lexica.art)
Les contours détectés
Les contours détectés
L’image générée avec ControlNet
L’image générée avec ControlNet
⚙️
Modelo utilizado para la detección de contornos: control_canny-fp16
Hay otros modelos ControlNet que se pueden utilizar para controlar img2img añadiendo restricciones, pero estos cuatro son los principales.

¿Qué es ControlNet?

es un modelo de red neuronal diseñado para controlar los modelos de generación de imágenes de DiffusionPuede utilizar ControlNet con diferentes puntos de control de Stable Diffusion.
El uso más básico de los modelos de Difusión Estable es el de texto a imagen: este método utiliza indicaciones textuales como elemento condicionante para guiar la creación de imágenes, con el objetivo de generar visuales acordes con las indicaciones proporcionadas.
Con ControlNet, a las indicaciones textuales se añade un elemento condicionante adicional, que puede adoptar diversas formas dentro de ControlNet.
Echemos un vistazo rápido a dos usos diferentes de ControlNet para entender cómo añade condicionamiento a la generación de imágenes: la detección de bordes y el reconocimiento de poses.

¿Cómo funciona ControlNet?

ControlNet funciona extrayendo una imagen procesada de una imagen de referencia que le proporciones. Esta imagen procesada se utiliza entonces para controlar el proceso de difusión que genera la imagen cuando utilizas img2img.
Técnicamente, esto funciona adjuntando módulos de red entrenables a diferentes partes de la red U de difusión estable (predicción de ruido). El peso del modelo se bloquea para que no se modifique durante el entrenamiento. Sólo se modifican los módulos adjuntos durante el entrenamiento de ControlNet.
El diagrama del modelo del trabajo de investigación resume cómo funciona: Inicialmente, los pesos del módulo de red conectado son todos cero, lo que permite al nuevo modelo aprovechar el modelo entrenado y bloqueado.
notion image
Durante el entrenamiento, cada imagen recibe dos envoltorios: un comando de texto y una anotación, como puntos clave OpenPose o bordes "Canny". De este modo, el modelo ControlNet puede aprender a generar imágenes basándose en estas dos entradas.
En última instancia, esto enseña a Stable Diffusion a imitar los patrones y estructuras observados en las imágenes anotadas, de modo que pueda generar imágenes realistas que cumplan los condicionantes especificados.
Cada método de anotación se entrena de forma independiente, lo que significa que si desea utilizar más de un acondicionamiento, deberá entrenar un modelo ControlNet diferente para cada método.
👉
explicación más completa e información más técnica sobre el ,consulte el repositorio oficial Github y la publicación de investigación

¿Cómo se instala ControlNet?

forma más sencilla de instalar y utilizar ControlNet es hacerlo con la WebUI de AUTOMATIC1111. De hecho extensión para esta interfaz que permite sacar el máximo partido de ControlNet y sus distintos modelos. Es tan práctica y está tan bien hecha que se ha convertido en el estándar de facto para cualquiera que desee utilizar ControlNet

Instalación de ControlNet en el AUTOMATIC1111

Si tiene instalado Automatic1111 en su ordenador, puede instalar fácilmente la extensión ControlNet.
Antes de empezar, compruebe que su versión de Automatic1111 está actualizada y, si es necesario, actualícela.
¿Cómo se instala la actualización?
Usa el terminal para ir al directorio donde está instalada tu versión de Automatic1111 y ejecuta el comando git pull origin master. Esto iniciará la descarga de la actualización que sustituirá a tu versión

Añadir la extensión ControlNet

ontrolNet se instala como extensión para la interfaz gráfica. He aquí cómo hacerlo: Haz clic en la pestaña principal Extensión y luego en la pestaña titulada Instalar desde URL. Introduce la dirección https://github.com/Mikubill/sd-webui-controlneten el primer campo (URL para el repositorio git de la extensión) y luego haz clic en el botón Instalar
notion image
A continuación, haga clic en la pestaña Instalado y pulse el botón grande Aplicar y reiniciar la interfaz de usuario para recargar la interfaz con la extensión activada
Si la instalación ha funcionado correctamente, verás una sección desplegable llamada ControlNet parte inferior de la pestaña txt2img (justo encima del selector scrips)
notion image

Descargar modelos ControlNet

Como hemos explicado, cada condicionamiento diferente (pose, contornos, profundidad, etc.) corresponde a un modelo distinto.
Para obtener las plantillas principales para su uso con Stable Diffusion 1.5, vaya página ControlNet 1.1 en HuggingFace y descargue los distintos archivos .pth; si le parecen demasiados archivos, probablemente pueda conformarse con las plantillas OpenPose (control_v11p_sd15_openpose.pth) y Canny (control_v11p_sd15_canny.pth), que son las que se utilizan con más frecuencia
Para los códigos QR y las ilusiones (como la famosa aldea en espiral) , necesitarás la plantilla QR Code Monster, que también puedes descargar de HuggingFace
último también están disponibles modelos compatibles con la nueva Stable Diffusion: descárguelos desde esta página de HuggingFace
A continuación, coloque todos los modelos descargados en el directorio models/ControlNet de su instalación
Si las plantillas del directorio no están visibles en la interfaz, haz clic en el icono 🔃 para volver a cargarlas.
notion image

Alternativa en la nube para Automatic1111

También puedes utilizar Automatic1111 en la nube con Google Colab o Diffus. Es realmente super sencillo: ambos vienen con la extensión preinstalada.
Sólo tienes que seguir nuestra Guía Diffus o nuestro tutorial sobre cómo utilizar Stable Diffusion con Google Colab (suscribiéndote a controlnet) ¡Así de fácil!

¿Cómo se utiliza ControlNet?

Para utilizar ControlNet, es necesario activarlo, elegir una imagen de referencia y una plantilla para utilizar además de los demás parámetros de configuración para su generación de imágenes :
Haga clic en la flecha pequeña para abrir los controladores ControlNet.
A continuación, marque la casilla Activado para activar ControlNet y seleccione un Preprocesador y el Modelo que lo acompaña (por ejemplo OpenPose + control_v11p_sd15_openpose)
notion image
últimas versiones de la extensión ControlNet le permiten aplicar varias restricciones diferentes a su generación. Estas son las restricciones "Unidad n" que puede activar (habilitar en el panel de control ControlNet. Cada restricción puede configurarse independientemente de las demás, con sus propios parámetros
Veamos dos ejemplos sencillos de utilización de ControlNet para generar una imagen a partir de un aviso o de otra imagen.

Ejemplos de uso de ControlNet

ControlNet en txt2img

Intentemos utilizar ControlNet y su modelo OpenPose para generar una imagen de Harley Quinn haciendo yoga. Para este experimento, he elegido el modelo ToonYou.
Empecemos con un prompt muy sencillo como "(obra maestra, mejor calidad), Harley Quinn haciendo yoga bajo la luna" al que añadimos un prompt negativo adaptado a la ilustración
Sin ControlNet, obtendré una variedad de imágenes con diferentes posturas de yoga que no son necesariamente muy realistas...
notion image
notion image
notion image
Para forzar una pose determinada en el personaje, tendremos que utilizar ControlNet :
  • Abrir la configuración ControlNet
  • Haga clic en Activar para activar la primera unidad
  • Arrastre y suelte una imagen de control con una persona en la pose deseada en el área de descarga.
  • Elija openpose_full como Preprocesador y control_v11p_sd15_openpose como Modelo
notion image
La imagen de referencia es importante porque se utilizará para determinar la posición del personaje. El preprocesador leerá esta imagen y determinará la pose. A continuación, el Modelo utilizará esta información para obligar a la generación a adoptar la pose
Estos son los resultados obtenidos con diferentes imágenes de control:
L’image de contrôle
L’image de contrôle
La pose reconnue
La pose reconnue
Le résultat
Le résultat
L’image de contrôle
L’image de contrôle
La pose reconnue
La pose reconnue
Le résultat
Le résultat
L’image de controle
L’image de controle
La pose reconnue
La pose reconnue
Le résultat
Le résultat
Como puede ver, lo único importante es la pose del personaje; el resto de la imagen, colores como el fondo o incluso la ropa, no influyen en la imagen generada.

ControlNet en img2img

Esta vez, vamos aempezar con una imagen del Capitán América y a utilizar ControlNet para ponerlo en posición de Yoga. El punto de control utilizado será ReV Animated
Arrastre y suelte la imagen que desea utilizar como fuente principal en el área normal para img2img.
notion image
Añada una pregunta correspondiente a esta imagen ,por ejemplo "Capitán América de pie delante de un cielo azul y nublado, Americo Makk, arte conceptual, Universo Cinematográfico Marvel". Añada también una pregunta negativa estándar
Prueba unas cuantas generaciones de img2img sin cambiar nada más. Obtendrás imágenes como éstas, que reproducen más o menos la composición de la imagen original. Como ves, es un poco aleatorio.
notion image
notion image
notion image
Una forma de mantener la composición aún más cerca del original sería utilizar ControlNet utilizando el modelo de profundidad de campo:
  • Abrir la configuración ControlNet
  • Haga clic en Activar para activar la primera unidad
  • Elija depth_midas como Preprocesador y control_v11f1p_sd15_depth como Modelo
notion image
Ejecute ahora la generación y obtendrá una imagen que muestra cómo se ha entendido la profundidad además de la imagen generada. Esta última respeta mucho mejor la composición. ControlNet ha obligado a la generación a utilizar las mismas profundidades en los mismos lugares, lo que influye mucho en la imagen final.
L’image des profondeurs
L’image des profondeurs
Le résultat 1
Le résultat 1
Le résultat 2
Le résultat 2
Ahora vamos a ver cómo podemos usar el mismo mando para cambiar la posición del Capitán América. Vamos a intentar que adopte una postura de yoga.
, haz clic en la opción Cargar imagen de control independiente: aparecerá una zona de carga justo encima. Arrastra hasta ella una imagen con una postura de yoga antes de lanzar una nueva generación
notion image
sólo utilizarálo que reconozca preprocesador: los colores u otros elementos de la imagen no tienen importancia aquí, ya que estamos analizando su profundidad
Esta vez, no es la imagen principal la que se utiliza como referencia, sino la nueva imagen añadida como control de imagen
L’image de controle
L’image de controle
L’image des profondeurs
L’image des profondeurs
Le résultat
Le résultat
Ahora ya sabes cómo utilizar ControlNet para generar imágenes de texto a imagen y de imagen a imagen, pero si quieres llevar esta herramienta más lejos, querrás saber más sobre las plantillas y los preprocesadores que vienen con ellas.
A continuación hablaremos de los principales modelos de ControlNet.

Modelos ControlNet

Modelos y preprocesador

Si son los modelos ControlNet los que se utilizan para generar la imagen, necesitan información específica para hacerlo. Esta información -denominada "anotaciones" en el artículo de investigación- procede de los preprocesadores.

¿Qué es un preprocesador?

El preprocesador es un pequeño programa que lee la imagen de referencia que has elegido y la procesa para obtener la información específica que ControlNet necesita.
El preprocesador es, por tanto, un componente esencial de ControlNet, ya que desempeña un papel crucial a la hora de convertir la imagen descargada en datos que puedan ser utilizados por ControlNet para guiar la generación con Stable Diffusion.

Combinación de preprocesador y modelo

Dado que el preprocesador determina los datos que utilizará el modelo ControlNet, comprenderás que cada modelo necesitará un preprocesador adecuado que pueda extraer la información relevante para él.
Desde la versión V1.1, los creadores de ControlNet han nombrado sus modelos de forma que incluyan un nombre correspondiente al preprocesador utilizado para el modelo. Normalmente, éste es el nombre que aparecerá al final del nombre del modelo, como puede verse en los ejemplos siguientes.
Modelo
Preprocesador
control_v11p_sd15_canny
canny
control_v11p_sd15_openpose
openpose_xyz
control_v11p_sd15_scribble
scribble_xyz
control_v11p_sd15_lineart
lineart_xyz
Con la extensión ControlNet, puede filtrar los modelos y preprocesadores que los acompañan seleccionando un tipo de control. Cuando se selecciona un tipo, sólo se muestran los preprocesadores y modelos correspondientes en los menús desplegables Preprocesador y Modelo.
notion image

Vista previa del resultado del preprocesador

En Automatic1111, puede activar la vista previa del resultado del preprocesador para ver cómo se procesará la imagen:
  • Haga clic en Permitir vista previa para activar la opción de vista previa
  • Haz clic en el icono 💥 situado a la derecha del Preprocesador para iniciarlo y visualizar la imagen procesada
    • notion image

Canny

La detección Canny técnica relativamente antigua para detectar contornos en una imagen, lo que permite extraerlos de forma fiable y bastante clara
Los modelos Canny de ControlNet pueden utilizarse para conservar tanto la composición como los detalles de la imagen.
L’image de référence
L’image de référence
Le résultat du préprocesseur Canny
Le résultat du préprocesseur Canny
ControlNet Canny et le checkpoint ToonYou
ControlNet Canny et le checkpoint ToonYou
ControlNet Canny et le checkpoint Reliberate
ControlNet Canny et le checkpoint Reliberate

Profundidad

Cuando hablamos del Mapa de Profundidad de una imagen, estamos hablando de una representación gráfica de la distancia de los distintos objetos y superficies de la escena desde el punto
distintos preprocesadores profundidad para adivinar esta información de profundidad y crear dicho Mapa de Profundidad del preprocesador elegido, el nivel de precisión de este Mapa de Profundidad será más o menos fino
  • profundidad Midas es la más clásica y la que se utiliza por defecto
  • profundidad Leres fama de ser más precisa, pero se corre el riesgo de tener en cuenta elementos del paisaje
  • Depth Leres++ es aún más detallado
  • La Profundidad Zoe se encuentra aproximadamente a medio camino entre Midas y Leres
Image de référence
Image de référence
Depth Midas
Depth Midas
 
Depth Midas et le checkpoint Reliberate
Depth Midas et le checkpoint Reliberate
 
Depth Leres
Depth Leres
Depth Leres et le checkpoint Reliberate
Depth Leres et le checkpoint Reliberate
Depth Leres++
Depth Leres++
Depth Leres+++ et le checkpoint Reliberate
Depth Leres+++ et le checkpoint Reliberate
Depth Zoe
Depth Zoe
Depth Zoe et le checkpoint Reliberate
Depth Zoe et le checkpoint Reliberate

Mapa normal

Un Mapa deNormales es una imagen en la que cada píxel representa un vector que proporciona información sobre la elevación e inclinación de su superficie. Suelen utilizarse para mejorar el renderizado de imágenes 3D con la aplicación de texturas
Con ControlNet, el color de cada píxel indica la dirección en la que está orientada la superficie que representa, lo que permite transferir la composición tridimensional de la imagen original a Stable Diffusion.
Dos pre-procesadores, utilizando diferentes métodos Midas y Bae, para obtener una tabla de normales que el modelo ControlNet puede utilizar
Image de référence
Image de référence
Normal_midas
Normal_midas
Normal midas et le checkpoint reliberate
Normal midas et le checkpoint reliberate
Normal_bae
Normal_bae
 Normal Bae et le checkpoint reliberate
Normal Bae et le checkpoint reliberate

OpenPose

OpenPose detecta las posiciones del cuerpo humano, como la posición de la cabeza, los hombros, las manos, etc. Es la ControlNet ideal para copiar poses sin copiar otros detalles (peinados, ropa, etc.).
Existen diferentes preprocesadores de OpenPose que detectarán diferentes detalles de la pose, con distintos grados de precisión para diferentes partes del cuerpo.
  • OpenPose es el preprocesador básico: evalúa la pose del cuerpo identificando la posición de los ojos, la nariz, el cuello, los hombros, los codos, las empuñaduras, las rodillas y los tobillos
  • OpenPose_face añade una detección de caras más detallada mediante una serie de puntos, de modo que se conservan las expresiones faciales
  • OpenPose_faceonly detecta sólo puntos de la cara, sin otras partes del cuerpo identificadas por el preprocesador básico
  • OpenPose_hand añade el reconocimiento detallado de las posiciones de manos y dedos
  • OpenPose_full combina el preprocesador básico con la detección precisa de caras y manos
  • DW_OpenPose_full un nuevo preprocesador basado en investigaciones más recientes. Hace lo mismo que OpenPose_full pero mejor, así que utilícelo con preferencia al preprocesador antiguo
Veamos ahora cómo, en la práctica, los distintos preprocesadores de OpenPose interpretan la misma foto original y pueden utilizarse para generar nuevas imágenes.
 
L’image d’origine
L’image d’origine
Open Pose
Open Pose
Open Pose et le checkpoint Reliberate
Open Pose et le checkpoint Reliberate
OpenPose Face
OpenPose Face
Open Pose Face et le checkpoint Reliberate
Open Pose Face et le checkpoint Reliberate
OpenPose Face Only
OpenPose Face Only
Open Pose et le checkpoint Reliberate
Open Pose et le checkpoint Reliberate
OpenPose Hand
OpenPose Hand
OpenPose Hand et le checkpoint Reliberate
OpenPose Hand et le checkpoint Reliberate
Open Pose Full
Open Pose Full
Open Pose Full et le checkpoint Reliberate
Open Pose Full et le checkpoint Reliberate
DW OpenPose Full
DW OpenPose Full
DW OpenPose Full et le checkpoint Reliberate
DW OpenPose Full et le checkpoint Reliberate

Inpaint

ControlNet inpainting le permite combinar alto nivelde eliminación de ruido(que permite fuertes variaciones) con la máxima coherencia con la imagen de referencia
Actualmente existen 3 preprocesadores para este tipo de ControlNet:
  • Inpaint_global_harmonious mejora la coherencia general y permite utilizar altos niveles de eliminación de ruido
  • npaint_only no modifica el área no enmascarada de la imagen (En Automatic1111, esto es lo mismo que conInpaint_global_harmonious)
  • Inpaint_only+lama procesará la imagen utilizando el modelo lama, que a menudo produce resultados más limpios y es muy eficaz para eliminar objetos
📢
Cubriremos el uso de ControlNet Inpait con más detalle en un próximo artículo dedicado al inpaintingnuestro boletín para que le avisemos cuando se publique

MLSD

El preprocesador MLSD (Multi-Scale Line Descriptor) destaca por su capacidad para resaltar bordes rectos, delinear con nitidez edificios, interiores y mucho más, por lo que resulta especialmente adecuado para diseños arquitectónicos o cualquier proyecto que requiera líneas rectas de precisión.
El inconveniente es que el MLSD tiende a descuidar las curvas, ya que su diseño está orientado a capturar líneas rectas, lo que lo hace menos ideal para imágenes con muchas curvas.
Image d’origine
Image d’origine
Le résultat MLSD
Le résultat MLSD
Image générée avec MLSD
Image générée avec MLSD
Image d’origine
Image d’origine
Le résultat MLSD
Le résultat MLSD
Image générée avec MLSD
Image générée avec MLSD

LineArt

El ControlNet Line Art es similar al Canny sentido de que también detecta los contornos de la imagen, pero el preprocesador utiliza algoritmos diferentes para producir resultados más próximos a un dibujo de línea
Es la ControlNet ideal para transformar una imagen en un dibujo o pintura, aunque también funciona con imágenes fotográficas.
Existen varios preprocesadores de Line Art:
  • LineArt estándar es la versión básica
  • Invertir es la versión básica, pero para una imagen blanca sobre fondo negro
  • LineArt Anime genera funciones de estilo manga/anime
  • LineArt Anime Denoise hace lo mismo con menos detalle
  • LineArt Realistic proporcionará un dibujo de estilo realista
  • LineArt Coarse hace lo mismo que Realistic pero con líneas más gruesas
Image de réfèrence
Image de réfèrence
También hay dos modelos de control, _lineart y _lineart_anime, que se utilizarán en función del preprocesador elegido.
LineArt Standard
LineArt Standard
LineArt Standard et le checkpoint ToonYou
LineArt Standard et le checkpoint ToonYou
LineArt Anime
LineArt Anime
LineArt Anime et le checkpoint ToonYou
LineArt Anime et le checkpoint ToonYou
LineArt Anime Denoise
LineArt Anime Denoise
LineArt Anime Denoise et le checkpoint ToonYou
LineArt Anime Denoise et le checkpoint ToonYou
LineArt Realistic
LineArt Realistic
LineArt Realistic et le checkpoint ToonYou
LineArt Realistic et le checkpoint ToonYou
LineArt Coarse
LineArt Coarse
LineArt Coarse et le checkpoint ToonYou
LineArt Coarse et le checkpoint ToonYou

SoftEdge

Similar a los métodos Canny y LineArt, Soft Edge reconoce los contornos de una imagen, pero es más "suave" en el sentido de que ofrece un resultado más liso. Soft Edge es ideal para imágenes en las que se desea una detección de bordes menos quebradiza o dura, lo que garantiza un aspecto visual más liso y suave
Softedge tiene cuatro preprocesadores, pero hay pocas diferencias entre ellos:
  • softhedge_hed
  • softedge_hedsafe
  • softhedge_pidinit
  • softhedge_pidsafe
 
L’image de référence
L’image de référence
Softhedge HED
Softhedge HED
Softhedge Hed et le checkpoint Reliberate
Softhedge Hed et le checkpoint Reliberate
Softhedge Hedsafe
Softhedge Hedsafe
Softhedge Hedsafe et le checkpoint Reliberate
Softhedge Hedsafe et le checkpoint Reliberate
Softhedge Pidinet
Softhedge Pidinet
Softhedge Pidinet et le checkpoint Reliberate
Softhedge Pidinet et le checkpoint Reliberate
Softhedge Pidisafe
Softhedge Pidisafe
Softhedge Pidisafe et le checkpoint Reliberate
Softhedge Pidisafe et le checkpoint Reliberate

Garabato

Garabato " también podría traducirse como "esbozo", lo que quizá describa mejor el efecto que se consigue con estos preprocesadores: el de un dibujo apresurado
En función del preprocesador elegido, el boceto será más o menos detallado, con líneas más o menos precisas:
  • Scribble HED utiliza la detección de bordes anidados holísticamente (HED) para producir contornos como lo haría una persona real, y es el preprocesador recomendado para colorear bocetos
  • Scribble Pidinet detecta curvas y bordes rectos mediante una red de diferencia de píxeles (Pidinet). El resultado es bastante similar a HED, pero generalmente con líneas más nítidas y detalladas
  • Scribble xdog utiliza un sistema de detección llamado EXtended Difference of Gaussian, cuya configuración puede modificarse ajustando el umbral xDoG para obtener un resultado más o menos detallado
L’image de référence
L’image de référence
 
Sribble HED
Sribble HED
Scribble HED et le checkpoint reliberate
Scribble HED et le checkpoint reliberate
Scribble Pidinet
Scribble Pidinet
Scribble Pidinet et le checkpoint Reliberate
Scribble Pidinet et le checkpoint Reliberate
Scrible xdog
Scrible xdog
Scribble xdog et le checkpoint reliberate
Scribble xdog et le checkpoint reliberate

Segmentación

La segmentación es una técnica utilizada para separar e identificar distintos objetos o regiones dentro de una imagen o escena etiquetando cada píxel o grupo de píxeles para crear un "mapa" de las distintas zonas presentes en la imagen.
La segmentación puede utilizarse para generar nuevas imágenes con una composición coherente, conservando la disposición de los objetos pero modificando sus atributos visuales, reconstruyendo la información que falta o deduciendo la forma y el aspecto de los objetos.
Hay tres preprocesadores disponibles para la segmentación:
  • seg_ofade20k: Genera mapas de segmentación utilizando el conjunto de datos ADE20K es un completo conjunto de datos para comprender escenas y categorizar objetos
  • seg_ofcoco: Produce mapas de segmentación utilizando el conjunto de datos COCO, ampliamente utilizado para tareas de visión por ordenador como la detección de objetos, la segmentación y la generación de leyendas
  • seg_ufade20k: También genera mapas de segmentación utilizando el conjunto de datos ADE20K, pero se considera que tiene un rendimiento inferior a los otros dos
L’image de référence
L’image de référence
 
seg_ofade20k
seg_ofade20k
seg_ofade20k et le checkpoint reliberate
seg_ofade20k et le checkpoint reliberate
seg_ofcoco
seg_ofcoco
seg_ofcoco et le checkpoint reliberate
seg_ofcoco et le checkpoint reliberate
seg_ufade20k
seg_ufade20k
seg_ufade20k et le checkpoint reliberate
seg_ufade20k et le checkpoint reliberate

Parámetros ControlNet

Imagen

Aquí es donde selecciona la imagen de referencia, que puede arrastrar y soltar en el marco o hacer clic en el área y seleccionar un archivo utilizando el navegador.
notion image
La imagen de referencia será procesada por el preprocesador seleccionado a continuación.
El icono 📝 te permite crear una imagen vacía sobre la que puedes dibujar directamente un boceto a través de la interfaz.
El icono 📷 te permite hacer una foto con tu webcam o con la cámara del dispositivo que estés utilizando (tendrás que permitir su uso en el navegador).

Opciones

notion image

Activar

Debe marcar la casilla para activar ControlNet.
Si no está marcada, se ignoran los demás parámetros y no se utilizará ControlNet para generar su imagen.

VRAM baja

Si tienes una GPU con menos de 8 GB de VRAM, marca esta opción para utilizar una función experimental que utiliza menos VRAM.
También puedes marcarlo para ahorrar memoria cuando generes varias imágenes a la vez con ControlNet.

Píxel perfecto

Cuando esta opción está marcada, ControlNet utiliza la altura y la anchura configuradas para su generación de texto a imagen para preprocesar la imagen de referencia con el preprocesador.

Permitir vista previa

Utiliza el icono 💥 situado junto al menú desplegable del preprocesador para previsualizar su efecto en la imagen de referencia.

Elección de modelos

notion image

Tipo de control

Para ayudarle a elegir qué modelo de ControlNet utilizar y qué preprocesador emplear, puede seleccionar un tipo de controlador de esta lista. A continuación, los menús desplegables sólo mostrarán las opciones pertinentes.

Preprocesador

En este menú desplegable, puede elegir el preprocesador que se utilizará con ControlNet.
También es posible evitar el uso de un preprocesador utilizando directamente una imagen de referencia adaptada al modelo ControlNet elegido.
Tenga en cuenta que algunos tipos de controlador no tienen un preprocesador asociado.

Modelo

Aquí se elige el modelo que se va a utilizar con ControlNet.

Peso de control

Es el peso, o la fuerza, del control aplicado por ControlNet.
Cuanto menor seaPeso menos exigirá ControlNet que la imagen siga a la imagen de
notion image

Paso ControlNet

Puede configurar cuándo (Paso) funciona la generación de texto a imagen para ControlNet

Paso inicial

El Paso en el que ControlNet comienza a aplicarse. 0 significa que ControlNet interviene desde el inicio de la generación

Paso final

El Paso en el que se detiene ControlNet. 1 significa que ControlNet está funcionando hasta el final de la generación
Dependiendo del tipo de controlador que elijas, puedes adaptar los Pasos de Inicio y Fin de ControlNet
ejemplo, dado que las primeras etapas de la generación definen la composición global de la imagen, un controlador OpenPose ya puede definir la pose de un personaje con un Paso de finalización de 0,2 y, por tanto, sólo intervenir durante el primer 20% de la generación

Opciones del preprocesador

En función del preprocesador elegido, se mostrarán una o varias opciones en forma de barra deslizante.
notion image

Resolución del preprocesador

Esta opción está disponible para muchos preprocesadores y corresponde a la resolución de la imagen preprocesada. Sin embargo, queda oculta si se selecciona Píxel perfecto más arriba, ya que en este caso se aplican las dimensiones definidas en texto-a-imagen

Opciones del preprocesador

En función del preprocesador elegido, se mostrarán una o varias opciones en forma de barra deslizante.
notion image

Resolución del preprocesador

Esta opción está disponible para muchos preprocesadores y corresponde a la resolución de la imagen preprocesada.

Modo de control

Esta opción define el modo de funcionamiento de ControlNet, que afecta a la importancia del control aplicado en la generación de la imagen.
notion image

Equilibrado

es el modo equilibrado: ControlNet se aplica tanto al acondicionamiento (aplicación de la señal) como al decondicionamiento (aplicación de la señal negativa) de las etapas de muestreo
Este es el modo de funcionamiento estándar de ControlNet.

Mi mensaje es más importante

En este modo, el efecto de la ControlNet disminuye gradualmente en relación con las instancias de inyección de la U-Net (hay 13 en una etapa de muestreo).
En la práctica, esto significa que su aviso será más importante que el efecto del modelo ControlNet.

ControlNet es más importante

Con este modo, desactivará ControlNet durante el desacondicionamiento.
Como resultado, el valor CFG elegido para texto a imagen actuará como multiplicador del efecto ControlNet, que será más importante que la indicación.

Modo Redimensionar

El modo de cambio de tamaño determina cómo tratar las diferencias en la relación de dimensiones entre la imagen de referencia y la imagen o imágenes que se van a generar.
notion image
En principio, no hay que preocuparse por estas opciones si las imágenes tienen la misma relación de aspecto, y menos aún si son del mismo tamaño.

Cambiar tamaño

Redimensiona independientemente la anchura y la altura de la imagen de referencia para ajustarla al lienzo de la imagen.
Por lo tanto, esta operación modifica la relación de aspecto de la imagen.

Recortar y redimensionar

Recorte la imagen de referencia cortándola de modo que su lado más pequeño coincida con la imagen que se va a generar.

Redimensionar y rellenar

Redimensiona toda la imagen de referencia para que pueda ser contenida dentro de la imagen que se va a generar. Se añade un espacio vacío alrededor de la imagen de referencia para que coincida con la relación de aspecto de la imagen que se va a generar.

Preguntas frecuentes y solución de problemas de ControlNet

¿Cómo puedo utilizar varias ControlNet al mismo tiempo?
notion image
La extensión ControlNet para Automatic1111 puede utilizarse para configurar varias Unidades su propia ControlNet
Cada Unidad le permite seleccionar un modelo ControlNet y configurarlo. Haga clic en la pestaña de una Unidad y marque la opción Activado para activarla
ControlNet no parece utilizar correctamente la imagen del controlador, ¿por qué?
  1. ha marcado la casilla Activar en el panel ControlNet
  1. de haber seleccionado un preprocesador y el modelo correspondiente
  1. Asegúrese de que su extensión ControlNet está totalmente actualizada. Vaya a Extensiones y haga clic en Buscar actualizaciones. Actualice su extensión si es necesario y reinicie la WebUI