¿Qué es un generador de imágenes de IA y cómo funciona?

En 2022, hemos visto la llegada de algunos generadores de texto a imagen increíbles. El primero en desencadenar la gran ola fue Dall-E 2, y Stable Diffusion llegó poco después. Desde entonces, también hemos visto llegar otras herramientas, como Midjourney, Craiyon e incluso TikTok hasta cierto punto. Existe una creciente preocupación en lo que respecta a las herramientas de generación de imágenes con IA, relacionadas principalmente con la ética de dichas herramientas cuando pueden generar imágenes de personas reales en lugares o situaciones en las que no estaban realmente.

Sin embargo, no solo hay que tener en cuenta cuestiones éticas. Los generadores de imágenes de IA se entrenan con millones y millones de fotos y han aprendido a identificarcosasa partir de fotos reales creadas por personas reales. ¿Cuándo se convierte en una violación de los derechos de autor? Si tu IA genera accidentalmente una imagen que se parece mucho a otro diseño y el creador de esa imagen la comparte posteriormente con fines comerciales, ¿alguien es responsable de los daños? Si es así, ¿quién? ¿Quién es el "artista" en este caso?

Hay unmontónde razones para desconfiar de los generadores de imágenes de IA, y estas preocupaciones éticas y de seguridad son apenas la punta del iceberg. Estas herramientas se pueden utilizar para crear imágenes falsas que se pueden utilizar para impulsar una narrativa, y además, con el tiempo, la situación solo empeorará. Dadas las increíbles capacidades de estas herramientas de generación de imágenes, da miedo pensar en lo que serán capaces de hacer muy pronto. Sin embargo, si quieres crear imágenes bonitas y divertirte un poco, no hay absolutamente ningún problema en ello.

Relacionado

Los mejores generadores de imágenes con IA: DALL-E 3, Stable Diffusion y más

Si quieres probar algunos generadores de imágenes, estos son los mejores que hay actualmente en el mercado.

Publicaciones

Difusión estable

El original gratuito

Fuente: Stability AI

Stable Diffusion es la inspiración detrás de este artículo y una herramienta con la que he estado jugandomuchoúltimamente. Se ejecuta localmente en tu computadora (para que no tengas que pelearte por los recursos con otros usuarios de alguna herramienta en línea) y es una de las más poderosas que puedes usar actualmente. No solo te permite ajustar un montón de parámetros, sino que también puedes controlar todo el proceso de generación.

Stable Diffusion sufre de los mismos problemas de IA, con el "peligro" añadido de la accesibilidad. Cualquiera con un ordenador lo suficientemente potente puede configurarlo y ponerlo en funcionamiento rápidamente. Con un i7-12700KF, una RTX 3080, 32 GB de RAM e Internet gigabit, pude configurar Stable Diffusion y generar mis primeras imágenes en una hora. Mi PC es definitivamente de gama alta,pero puedes salirte con la tuya ejecutándolo enun hardware más débil(aunque no puedes generar imágenes tan grandes con una VRAM más baja y tardará más).

Lo mejor de Stable Diffusion es que es completamente de código abierto. Puedes implementar soporte para él en cualquiera de tus proyectos hoy mismo si lo deseas, y ya existen complementos como Alpaca que puedes usar para integrarlo con Photoshop. Aún no es perfecto, pero estamos en una etapa muy temprana del desarrollo de estos programas. Puedes usarDream Studiosi lo deseas, aunque cuesta dinero y es un poco restrictivo en comparación con la configuración local.

Además, si configuras Stable Diffusion localmente, existen forks comoStable Diffusion WebUI de AUTOMATIC1111que vienen con una herramienta de ampliación de escala incorporada que puede aumentar la resolución hasta cuatro veces más. Si bien puedes generar imágenes a resoluciones más altas, a menudo es mucho más rápido generar una imagen a una resolución más baja y luego ampliarla. Todas las imágenes a continuación se han ampliado a partir de resoluciones más pequeñas.

Stable Diffusion se entrenó en un clúster de 4000 GPU Nvidia A100 que se ejecutaban en AWS y se llevó a cabo durante un mes. Tiene la capacidad de generar imágenes de celebridades y también tiene un filtro NSFW incorporado. Puede desactivar este filtro NSFW en instalaciones locales, ya que ahorra recursos al disminuir el uso de VRAM. En cuanto a lo que significa "Difusión", es el proceso de comenzar con ruido puro y refinarlo con el tiempo. Hace que la imagen se acerque cada vez más al mensaje de texto con el tiempo hasta que no queda ruido. Esta es la misma forma en que funciona Dall-E 2.

Por último, otra característica divertida que tiene Stable Diffusion es "img2img". En esta, le das una imagen como indicación, describes lo que quieres que sea la imagen y luego dejas que te dé un dibujoadecuado.

Le di una plantilla con la que trabajar y obtuve una imagen bastante decente. Estoy seguro de que con mejores indicaciones (las mías son un tanto contradictorias), podrías mejorar aún más. De todos modos, no está nada mal para algo que me llevó unos cinco minutos hacer.

En resumen, Stable Diffusion es gratuito, fácil de configurar y el mayor problema es su accesibilidad. Si no tienes un PC lo suficientemente potente, tendrás que pagar para usarlo a través de programas como Dream Studio.

Lápices de color

DALL-E Mini, aunque no tiene relación con DALL-E

Craiyon se conocía anteriormente como DALL-E Mini, aunque a pesar del nombre no tiene relación con DALL-E 2. Fue creado para reproducir los resultados del modelo de texto a imagen DALL-E de OpenAI. Craiyon está disponible para el público y se puede utilizar para generar imágenes sorprendentemente decentes, aunque las imágenes no son tan precisas ni de tan alta calidad. Las resoluciones de imagen máximas son de 256x256 y tampoco hay herramientas de ampliación.

Craiyon es completamente gratuito y se puede acceder a él a través de su sitio web. Puedes generar cualquier imagen mediante cualquier mensaje, y el único problema es que las imágenes son de menor calidad y tendrás que esperar dos minutos aproximadamente para cada lote de imágenes generado. Craiyon comenzó como un modelo de código abierto destinado a reproducir los resultados del modelo DALL·E inicial. El modelo que se utiliza ahora se conoce como DALL·E Mega y contiene varias mejoras.

A diferencia de las otras opciones que se ofrecen aquí, Craiyon se sustenta con los ingresos por publicidad. Como resultado, verás patrocinios pagos y otros anuncios ensu sitio webcuando lo visites. También hay una aplicación para teléfonos inteligentes Android. No es la más sofisticada, pero es divertida, fácil de usar y accesible.

DESDE-E 3

El más famoso

Pedirle a ChatGPT que convierta un campo en arbustos al atardecer

DALL-E 3 es un producto del laboratorio de investigación OpenAI y es el generador de imágenes de IA más conocido que la gente conoce. Su predecesor estuvo cerrado y tenía un acceso limitado, pero hoy en día se puede acceder a él a través de Microsoft Copilot y ChatGPT Plus. Para quienes pueden acceder a él, algunos de los resultados que puede ofrecer son increíbles. Inicialmente estuvo cerrado debido a preocupaciones en torno a la ética y la seguridad de una herramienta de este tipo, aunque se ha ido expandiendo gradualmente con el tiempo.

Una de las mayores ventajas que tiene DALL-E 3 es la capacidad de crear imágenes fotorrealistas que, a simple vista, son indistinguibles de las fotografías reales, y puede incorporar texto, algo con lo que los modelos históricamente han tenido dificultades. Puede generar pinturas, imágenes que parecen haber sido capturadas con cámaras reales y escenarios completamente inventados. Representó un gran salto en las capacidades de la IA cuando se anunció por primera vez, tanto en sus habilidades para crear imágenes como en su procesamiento del lenguaje natural, conocido como NLP. Esto se debe a su implementación de GPT-4, que es uno de los modelos de lenguaje más avanzados que existen y también está creado por OpenAI.

Al igual que con Stable Diffusion, DALL-E 3 también tiene la capacidad de tomar imágenes existentes y modificarlas según una solicitud. Puede editar fotos a través de él pidiéndole que agregue algo a una imagen, o incluso pedirle que elimine algo o que cambie la iluminación.

DALL-E 3está disponible para que todos lo prueben, ya sea a través de la versión gratuita de Microsoft Copilot o mediante una suscripción paga a ChatGPT Plus.

Logotipo de ChatGPT, Copilot y Gemini sobre un fondo con un tejido

Relacionado

ChatGPT vs Microsoft Copilot vs Google Gemini: ¿Cuáles son las diferencias?

Si ha estado tratando de averiguar qué herramienta de IA generativa es mejor, ha llegado al lugar correcto.

Publicaciones

A mitad de camino

Prepara tu cuenta de Discord

Midjourneyes una plataforma interesante, ya que es pública y permite generar imágenes, aunque lo haces a través de un servidor de Discord. Si bien antes era gratuita, debido al abuso de la plataforma, ahora incluso el nivel de uso más bajo es de pago, a partir de $10 al mes. Esa es una barrera de entrada bastante alta cuando otras opciones son gratuitas, como ejecutar Stable Diffusion localmente o usar Microsoft Copilot.

Para que te hagas una idea de lo potente que es Midjourney, un usuario del servicio, Jason Allen, creó una pieza que denominó "Théâtre D'opéra Spatial". La presentó en el concurso de arte de la Feria Estatal de Colorado...y ganó.

A diferencia de estos otros proyectos, Midjourney es un programa de inteligencia artificial propietario. No hay código fuente que se pueda consultar y su propósito en este momento se limita a su uso dentro de un servidor de Discord. En cuanto a por qué es solo un servidor de Discord, David Holz, fundador de Midjourney, dijo lo siguiente aThe Vergeen una entrevista.

Empezamos a probar la tecnología en bruto en septiembre del año pasado y de inmediato descubrimos cosas realmente diferentes. Descubrimos muy rápidamente que la mayoría de las personas no saben lo que quieren. Si les dices: “Aquí tienes una máquina, puedes imaginar cualquier cosa con ella. ¿Qué quieres?”, te responden: “Un perro”. Si les preguntas: “¿En serio?”, te responden: “Un perro rosa”. Entonces les das una foto de un perro y te responden: “Está bien”, y luego se ponen a hacer otra cosa.
Mientras que si los pones en un grupo, dirán "perro" y alguien más dirá "perro espacial" y alguien más dirá "perro espacial azteca", y entonces, de repente, la gente entiende las posibilidades y estás creando esta imaginación aumentada, un entorno donde la gente puede aprender y jugar con esta nueva capacidad. Así que descubrimos que a la gente realmente le gusta imaginar juntos, así que hicimos que [Midjourney] sea social.

En aquella época, también era difícil alejarse del estilo "Midjourney" por defecto, por así decirlo. Eso es lo que dice Holz en la misma entrevista.

[T]enemos un estilo y una apariencia predeterminados, que son artísticos y hermosos, y es difícil alejar [a la modelo] de eso.

Sin embargo, desde entonces, la empresa ha estado trabajando en la actualización y ajuste de Midjourney. La versión 6 del modelo Midjourney es la última versión del modelo, que se basa en los modelos que Midjourney implementó para alejarse del aspecto "predeterminado". Hoy en día, Midjourney es significativamente mejor que en aquel entonces, pero también lo son todos estos modelos.

Los peligros y la ética del arte generado por IA

El arte generado por inteligencia artificial, aunque interesante, implica una serie de peligros para la sociedad en general. En una época en la que a veces resulta difícil saber si una noticia está sacada de contexto o es inventada, existe el peligro de que se puedan crear imágenes en cuestión de minutos que parezcan y parezcan reales. Por ejemplo, eche un vistazo a las fotos que generé a continuación. Una se generó con Stable Diffusion y la otra con Craiyon.

Indicación: "OVNI estrellado en Roswell, 1947, iluminación, general del ejército investigando, iluminación de estudio"

Las fotografías de arriba muestran un OVNI estrellado en Roswell y la primera imagen muestra lo que parece una persona caminando sobre el OVNI estrellado. Si bien la imagen que se muestra aquí se generó con el propósito de mostrar una foto falsa, parece que podría ser real. Cualquier defecto puede explicarse por el hecho de que las fotos de 1947 habrían sido de peor calidad de todos modos, y ambas imágenes podrían pasar la prueba visual con un vistazo rápido y demostrar que son reales. Ni siquiera necesitas una de lasmejores computadoraspara hacer algo como esto, ya que Craiyon es una aplicación gratuita.

Lo que se vuelve aún más turbio es que en realidad puedesespecificarun artista en el que quieres que se inspire el algoritmo. Un artista común es Greg Rutkowski, quien se ha pronunciado abiertamente en contra del uso de su nombre en el arte generado por IA. Su nombre se clasifica como uno de los mensajes más comunes utilizados en la generación de imágenes. "La IA debería excluir a los artistas vivos de su base de datos",dijo Rutkowskia artneten una entrevista, "centrarse en obras de dominio público". Al buscar el nombre de Rutkowski, a menudo se obtendrán resultados de arte de IA que se han generado para parecerse a su trabajo, pero queen realidadno lo son.

Peor aún es que el arte generado por IA a menudo puede resaltar los prejuicios de la raza humana. Craiyon incluso tiene una advertencia en la parte inferior de su página de inicio en las Preguntas frecuentes, que indica que "debido a que el modelo fue entrenado con datos sin filtrar de Internet, puede generar imágenes que contengan estereotipos dañinos". Como resultado, al ingresar indicaciones como "ejecutivo de la empresa" la mayoría de las veces se obtendrán imágenes de hombres blancos con traje. Del mismo modo, al ingresar "maestro" como indicación casi siempre se obtendrán imágenes de mujeres en las aulas.

El futuro del arte generado por IA

Dado que parece que la industria no está perdiendo ritmo (y la regulación no se está poniendo al día), esperamos ver aún más avances en estas áreas. El hecho de que hayamos pasado de las capacidades de DALL-E 2 a Stable Diffusion y luego a DALL-E 3, capaz de generar texto, en solo un año, muestra cuán grande es esta industria y cuán grande puede llegar a ser. Las imágenes que antes se podían encargar a un equipo de artistas ahora se pueden generar en segundos, con un solo artista involucrado en el proceso con fines correccionales. Ya hemos visto cómo Midjourney puede ayudarte a ganar un concurso de arte, por ejemplo, aunque la Oficina de Derechos de Autor de los EE. UU.dice actualmenteque ni siquiera se pueden registrar los derechos de autor de las imágenes generadas por IA.

Como Holz también afirmó en su entrevista, el costo de entrenar cada modelo en ese momento era de alrededor de $50,000, o más. Las imágenes también cuestan dinero, ya que se generan en servidores increíblemente potentes, especialmente cuando una gran cantidad de usuarios vienen a generar sus propias imágenes. Va a ser enormemente prohibitivo en términos de costos para cualquier nuevo jugador que ingrese al espacio, lo que a su vez puede desanimar también a algunas empresas. Sin embargo, los esfuerzos iniciales, como el hecho de que Stable Diffusion sea de código abierto, son un buen augurio y los usuarios pueden ejecutar modelos en sus propios equipos. Democratizar la generación de imágenes de esta manera, como sucedió con LLMs y LM Studio, nivela un poco el campo de juego.

Por supuesto, desde entonces, también hemos visto el lanzamiento de Sora, el modelo de conversión de texto a video de OpenAI que puede generar videos de 60 segundos a partir de una simple indicación. Eso es aterrador y significativamente más impactante que la generación de imágenes, y con el lanzamiento reciente de Stable Video Diffusion también, es probable que podamos generar videos en masa en el futuro.

Como resultado, estaremos esperando con ansias ver el futuro de las imágenes con IA. El espacio ha evolucionado tan rápidamente en el último año y parece que se están logrando nuevos avances a diario. Sin embargo, con atisbos de manipulación de imágenes basada en IA queincluso están llegando a nuestros teléfonos inteligentes, hay mucho que podría suceder en el próximo año o dos.