Genera imágenes con IA

Te traemos otro artículo más sobre la generación de imágenes con IA, en esta ocasión se trata de la solución ComfyUI, un programa que podrás instalar localmente y utilizarlo sin necesidad de Internet.

Índice de este artículo

Este programa utiliza la inteligencia artificial de Stable Diffusion instalable en el PC de forma que tu confidencialidad es mucho más alta que si utilizases las páginas web con generadores de imágenes por IA.

Además, esta IA te permite tener un gran control sobre las imágenes generada.

La utilidad de instalar una IA en tu PC

Nosotros, en la redacción de tiroriro.com necesitamos dominar estas herramientas IA para así poder generar imágenes exclusivas para nuestros artículos, fotografías que sólo sean nuestras para nuestros artículos originales, por ese motivo sometemos a estas herramientas a pruebas en profundidad.

Si utilizásemos imágenes generadas por IA pero en una web, como DAll-e esa imagen sería primero de esa página o generador online y los buscadores lo sabrían, penalizando la originalidad de nuestros artículos; sin embargo, si las imágenes salen inicialmente de nuestros PC serán 100% nuestras.

Por supuesto también del mismo, generando nuestras propias imágenes, tal y como lo hacemos con por ejemplo las pruebas de hardware modo podemos estar más tranquilos por temas de derechos de imagen y copyright de fotos en la revista.

Y es que nos han llegado a denunciar por publicar en algún artículo la portada de una serie de TV o un fotograma de la misma, y eso es siempre algo que hacemos en un artículo de opinión sobre dicha serie, lo hemos recurrido alegando que es la forma habitual, y que si no lo ven bien en lugar de la portada de la serie podemos poner la fotografía de un bocadillo de chorizo o un zapato roto, pero que eso no tendría sentido alguno, total, que por el momento siempre hemos ganado el recurso, pero claro, mientras tanto nos quedamos es ascuas y nos hacen perder tiempo con reclamaciones.

¿Qué es ComfyUI?

Esta inteligencia artificial puede darte muy buenos resultados

ComfyUI es un ingenioso sistema de nodos que permite ajustar los diferentes parámetros que afectan a la generación de imágenes por IA de una forma mucho más visual e inteligible para la mayoría de usuarios.

Si bien estos nodos de ajuste afectan en gran medida a como se genera la imagen, el contenido en sí sigue estando totalmente dirigido por la orden o prompt que le lanzamos.

ComfyUI es utilizados por los creadores de StableDiffusion para el testeo de su inteligencia artificial, lo cual de por sí es una total garantía de la potencia de este sistema de generación de imágenes por inteligencia artificial.

Por qué instalar una IA en local

El poder instalar una IA localmente hará que nuestras creaciones permanezcan en el anonimato no quedando expuesta en Internet como sí que sucede con muchos generadores de imágenes por IA online.

Si bien no todo son ventajas ya que para poder generar estas imágenes precisaremos de un equipo relativamente potente.

Instalar la IA para generar imágenes en tu PC

Esta IA tiene la ventaja de que es «portable», es decir de alguna forma no precisa instalación alguna, es decir, que te descargas un fichero comprimido en formato ZIP, lo descomprimes y ya casi estará listo para usar, podrás moverlo de ubicación en tu PC e incluso tener una copia perfectamente ejecutable en un pendrive y así poderla ejecutar en diferentes ordenadores con tan sólo pinchar el USB.

Lo de «casi lista para usar» se debe a que además de descargar y descomprimir el archivo de Comfy precisa descargar como mínimo un modelo de lenguaje ya entrenado, algo que, si bien es fácil, necesitarás saber desde donde se descarga y en que directorio instalarlo, así que toma nota.

Lo primero, el programa portable en sí, el cual viene en formato comprimido ZIP y que puedes descargar desde la siguiente dirección: ComfyUI una vez descargado descomprímelo y el directorio que te crea es donde estará el programa.

Ahora te faltará otro archivo, que deberás descargar de otra dirección y que contiene el modelo y checkpoint de IA de Stable Diffusion, indispensable para que funcione ComfyUI, la descarga se realiza desde esta otra dirección: https://direccion.online/a0chp

El archivo se llama v1-5-pruned-emaonly.ckpt y ahora deberás copiar el archivo en un directorio interno de la carpeta donde hemos descomprimido anteriormente ComfyUI.

La subcarpeta concreta donde debes pegarlo es: ComfyUI – models – checkpoints

Verás que en dicha carpeta hay un archivo llamado «put_echeckpoints_here».

El programa ya está listo para ser lanzado.

Ejecutar la IA de ComfyUi en tu PC

Volvemos a la carpeta de Comfy y observamos que disponemos de 2 ficheros de lotes, los que tienen extensiones .bat:

run_cpu.bat
run_nvidia_gpu.bat

por cierto, si no ves las extensiones de archivo, ya que tanto W11 como W10 las ocultan por defecto, recuerda hacer aquello de marcar la casilla de Mostrar los elementos ocultos, para ello desde un: Explorador de archivos, ves al menú Ver desplázate hasta la opción Mostrar y en el desplegable deberá tener una marca o visé la opción de Elementos Ocultos

Uno de estos archivos hace uso intensivo de la CPU y el otro de la GPU, aunque este último sólo es compatible con gráficas Nvidia, así que si tienes una integrada o una gráfica de AMD deberás utilizar la potencia de la CPU en lugar de la GPU para generar imágenes por IA en tu PC.

Obviamente la opción por GPU es la más rápida de las dos, aunque los resultados serán idénticos conllevará más tiempos de espera.

Lanza pues el archivo .bat que se adecue más a tu PC, en unos segundos podrás generar tus imágenes con IA en tu PC.

En muchas de las aplicaciones hace falta ejecutarlas como administrador, ya sabes, aquello de botón de la derecha sobre el archivo a ejecutar y seleccionar «Ejecutar como administrador», este no es el caso, funciona perfectamente sin la necesidad de tener que elevar los permisos.

Uso de ComfyUI para generar imágenes

Tras lanzar el archivo .bat correspondiente se iniciará un proceso en una ventana de terminal de nuestro PC para acto seguido abrir el navegador de Internet que tengamos definido por defecto en el sistema con la dirección 127.0.0.1:8188

No podremos cerrar la ventana de terminal mientras utilicemos la generación de imágenes por IA ya que esto haría que se cerrase el programa ComfyUI que debe estar escuchando las órdenes que introducimos en el navegador.

La interfaz de usuario de ComfyUI se nos mostrará en el navegador de internet como una especie de página web.

La interfaz para generar imágenes mediante IA en tu PC

En dicha interfaz se muestran diferentes cajas, un total de 8, una de ellas flotante e independiente del resto, ya que no está conectada por ningún nodo, es la caja de Queue o «cola», y desde donde se ejecuta el prompt que introduzcamos en la IA para generar aquello que necesitemos.

El resto de cajas están unidas por conectores, líneas de diferentes colores que van pasando por las diferentes cajas de propiedades hasta llegar a la última llamada «Save Image» y donde se generará la imagen.

El nodo principal para la introducción del prompt

Cajetín para la introducción del *prompt* a generar

El nodo más importante de la interfaz de ComfyUI es el CLIP Text Encode de mayor tamaño, ojo que hay dos, por suerte de diferente tamaño.

Aquí que es donde entraremos el prompt positivo, sí positivo, porque también podemos añadir un prompt negativo mediante el cual le decimos lo que no queremos para esa imagen.

Si te fijas con detalle en el conexionado de nodos, el prompt positivo es el que conecta con una línea amarilla con el módulo KSampler en la posición de «positive».

En cambio, el prompt negativo donde podemos eliminar cosas que no queramos en las imágenes generadas por IA conectan con un conector en color blanco y en la posición «negative».

Los nodos y las configuraciones de la IA

Modificar el tamaño de la imagen generada por IA.

Por defecto ComfyUI genera las imágenes en un tamaño de 512 x 512 píxeles, aunque puedes modificar dicho tamaño a voluntad en el cajetín de «Empty Latent Image».

Tampoco le exijas mucha resolución durante las pruebas iniciales ya que a mayor tamaño más tiempo de proceso.

Por supuesto el tamaño lo deberás de definir antes de lanzar el proceso, el re-escalado no se puede hacer tras generar la imagen, si lo volvemos a poner en proceso la imagen siempre será algo diferente.

Otras cajas que nos encontramos son la de «Load checkpoint» desde donde podremos elegir el modelo/checkpoint que deseemos utilizar, si bien tal cual las instrucciones de instalación que te he proporcionado rtan sólo tendremos un modelo disponible.

Los prompts de IA para generar imágenes

Vamos a explicar lo que es el denominado prompt, es una palabra inglesa para definir aquella orden o «petición descripción» que damos una IA para que genere una imagen.

Esta petición descriptiva es una frase o un texto que la IA interpretará para generar la correspondiente imagen.

Por ejemplo, un prompt sería: genera una persona sentada en posición de gran pensador con una bombilla por cabeza

Si bien puedes utilizar ComfyUI directamente en español, en todas nuestras pruebas hemos obtenido mejores resultados cuando el prompt es en inglés.

Una ayuda o truco siempre s la utilización de algún sistema de traducción online, como por ejemplo el de Deepl, que es muy superior al tosco Google Translator.

Con DeepL puedes traducir los prompts al inglés

Bajo el mismo prompt se pueden obtener diferentes imágenes, sin modificar ni una palabra, así que si no consigues lo que quieres a la primera o en el ángulo de la cámara no es el correcto también puedes probar a regenerar la imagen a ver si esta vez hay más suerte.

Los mejores prompts para imágenes con IA

Quizá te estés preguntando cuales son los mejores prompt para generar imágenes con IA, hay multitud de páginas web que los recopila y hablan, la verdad es que sin mucho acierto sobre ello.

Cada IA funciona mejor con unos tipos de prompts, e incluso cada estilo, cada concepto variará mucho en función de las palabras.

Lo mejor es ir de menos a más comenzar a buscar una imagen bastante simple pero que más o menos se asemeje en concepto a lo que queremos como base, aunque repitamos el renderizado que esta pueda variar sin perder su concepto.

Posteriormente iremos añadiendo diferentes adjetivos y acciones sobre la imagen, así como pidiéndole un estilo determinado, una iluminación etc.

Nosotros durante las pruebas decidimos hacer una especie de engendro semihumano y robot donde la cara era mitad robot al estilo C3-Po y la otra mitad un cráneo humano, algo que resulta complejo a la hora de pedírselo a la IA.

No lo conseguimos, ni con prompts en español ni en inglés. Conseguir que la IA hiciese un engendro con una mitad de cada fue poco menos que imposible.

La verdad es que durante las horas dedicadas y en el camino de nuestro propio aprendizaje hemos conseguido algunas imágenes sugerentes y espectaculares.

Salir de Comfy

Recuerda que para salir de ComfyUI, además de cerrar la pestaña de navegador que estés utilizando deberás cerrar la ventana de terminal desde donde lanzaste el archivo de lotes o .bat.

Esta ventana deberías cerrarla haciendo un CTRL+C para finalizar el proceso por lotes de forma correcta en lugar de hacer un cerrar mediante clic en la X de dicha ventana.

Los tiempos de proceso

La verdad es que hay un gran trabajo de optimización en ComfyUI y los tiempos son bastante rápidos, siempre de unos pocos segundos, claro que cuando tienes un trabajo por delante donde debes realizar cuarenta o cincuenta pruebas y modificaciones de prompts costantes hasta dar con el ojetivo que buscabas esos pocos segundos se convierten en un espera larga.

Estos tiempos variarán dependiendo de muchos factores, los principales son los relativos a la potencia gráfica de tu equipo, en las pruebas hemos utilizado un portátil Omen con un procesador Ryzen 7 5800H y una gráfica RTX 3050 Ti de 4Gb de RAM.

Por supuesto también variarán dependiendo de la cantidad de aplicaciones que tengas abiertas en ese momento, en mi caso son bastantes,

Los tiempos de renderizado de una imagen de 512 x 512 segundos son de aproximadamente 6,4 segundos, lo que está francamente bien.

Al subir la resolución a 1024 x 1024, los tiempos se disparan hasta los 45 segundos por imagen y es que le estamos pidiendo que piense el cuádruple de información, no el doble, pues pasamos de pedirle que piense 262.000 píxeles a más de 1.000.000, si no me crees multiplica 512 por 512 y compara el resultado con el que obtienes al hacer lo propio con 1024 por 1024.

800 x 400 píxeles obtienen 7,20 segundos de media

Con 800 x 512 que ha sido la resolución escogida durante la mayoría de las pruebas que hemos realizado los tiempos de generación han sido de entre 9 y 12 segundos.