¿Cómo Genera la IA esas Imágenes tan Realistas? Parte 1
Respuesta corta: Duelos, Cálculo y MUCHA Álgebra.
Este primer boletín del Semanario (que dividí en dos partes) se trata de cómo la Inteligencia Artificial genera imágenes como la que ves arriba. También voy a hablar sobre algunas aplicaciones en la medicina, la arquitectura y la moda. Así como también sobre los riesgos asociados a esta tecnología —al menos, los que hasta ahora se conocen—. Si te interesa, sigue bajando que esto va a estar bueno.
¿Pintura, Fotografía o Matemáticas?
Supongo que en algún momento por estos días te habrá pasado que estabas en redes sociales, viste una foto que te llamó la atención y luego resultó que no era una foto sino una imagen creada con una IA (si no sabes lo que es la IA, te lo explico fácil en mi anterior publicación). A mí me ha pasado y creo que a todos nos ha pasado.
Ahora, si eres curiosa o curioso y te preguntaste —¿cómo lo hace?, entonces sigue leyendo que te lo voy a explicar —sí, yo te lo voy a explicar, no ChatGPT ni ninguna IA por las razones que di en mi primer ensayo—.
Hoy en día, la generación de imágenes realistas se hace principalmente a través de dos técnicas. Una es usando Redes Generativas Adversas (GAN por sus siglas en inglés) y la otra por medio de lo que se conoce como Modelos de Difusión. No te dejes intimidar por los nombres raros, entenderlos es más sencillo de lo que parece. Vamos allá.
¿Cómo funcionan las Generative Adversarial Networks (GANs)?
Las GANs aparecieron en 2014, y se refieren básicamente a una estructura de trabajo que funciona de la siguiente manera:
Imagínate que son como un juego que se compone de dos participantes donde los jugadores son nada menos que dos robots (sí como el par de arriba) con roles completamente diferentes y opuestos.
Uno de los robots debe actuar como una especie de dibujante al que le vamos a llamar “El Generador” y el otro debe hacer las veces de una especie de juez al que vamos a llamar “El Discriminante” —sí, suena raro, pero de hecho, es el nombre técnico—.
El objetivo de cada uno es ganarle al otro en una serie sucesiva de duelos hasta agotarse mutuamente (hasta que el computador no aguante más o hasta que el programador decida que fue suficiente).
El primer paso del juego es la preparación del Discriminante, este tiene que analizar un álbum completo con muchísimas fotos reales y ficticias, cada una cuidadosamente etiquetada, con el fin de que pueda luego ser capaz de inferir en cada duelo del juego si la foto que El Generador le entrega es real o es falsa.
Y aquí hay una cuestión importante, que antes de comenzar el juego al Discriminante se le dice una pequeña mentira. Se le dice que El Generador le va a entregar en cada duelo una foto, la cual podrá ser real o falsa y que él como Discriminante ganará cada duelo al elegir la opción correcta.
¿Dónde está la mentira? En que las fotos que el Generador le va a mostrar, en realidad, serán… todas falsas.
El segundo paso es el comienzo de los duelos, donde el primer movimiento lo hace, por supuesto, El Generador, que comienza creando su primera pintura desde cero, sin saber absolutamente nada sobre lo que el Discriminante espera ver ni tampoco sabe cómo se ve una imagen real; él solo sabe que debe pintar algo y que ese algo debe ser suficientemente bueno como para engañar al Discriminante en su elección, de lo contrario, perderá el juego.
En las primeras rondas, el juego sería algo así. El Generador comienza literalmente a pintar formas al azar en la pantalla y se las va a mostrar al Discriminante quién muy fácilmente se da cuenta de que las fotos no son reales, porque son muy malas.
Pero con el pasar de las rondas, el Generador empieza a experimentar con distintos patrones hasta que llega a un punto en que —PUM! Logra engañar al Discriminante.
A partir de ahí, el juego se vuelve más dinámico, el Generador aprende a engañar al Discriminante y este a su vez se vuelve mejor al elegir, lo que convierte al juego en un bucle de miles de duelos sucesivos tras los cuales cada jugador se vuelve mejor, todo en cuestión de segundos —¿te acuerdas de la habitación del tiempo de Dragon Ball Z? (por si te lo has visto, los personajes entraban a esa habitación y se peleaban como por un mes pero afuera “en la realidad” solo había pasado un segundo) Bueno algo así pero versión robot—.
Al final del juego lo que se obtiene es un Generador de imágenes que tras haber ganado miles de duelos se ha hecho experto en el arte de crear imágenes para engañar a un experto en distinguir fotos reales de fotos falsas. Y ese Generador es el que luego crea algunas de las imágenes que ves por ahí en internet, que jurarías que son reales pero… no lo son. Como estas que puse acá abajo.

Apuesto a que nunca te hubieras imaginado que todo este cuento de las mil y un batallas entre dos Redes Neuronales estaba detrás de la creación de estas imágenes—sí, en realidad no eran robots sino Redes Neuronales, pero esos son detalles menores y ya las explicaré en una publicación aparte—. La verdad, yo tampoco me lo hubiera imaginado.
La explicación de los Modelos de Difusión la dejo para la Parte 2…
Si te gustó el artículo y no te quieres perder la Parte 2 sobre Modelos de Difusión, Aplicaciones y Riesgos que sale este domingo, suscríbete al semanario dónde cada domingo (si es muy largo el tema publicaré una parte a mitad de semana y otra el domingo) voy a estar explicando métodos de IA y artículos científicos de una manera accesible para un público no tan técnico pero al que le gustaría aprender cómo es que funciona todo este rollo de la IA.
Además, si me quieres apoyar para que siga escribiendo más contenido accesible sobre IA en español dale me gusta, suscríbete y compártelo con tus amigos. También tengo un trabajo normal de 8 a 5 y estos artículos los escribo y publico porque me nace compartir mi conocimiento con los demás, así que tu suscripción, tus comentarios y tus me gusta son un gran impulso para continuar con esta misión.
Nota: El presente artículo fue escrito por mí en su totalidad, ni una sola palabra fue producto de un prompt de IA (tipo ChatGPT o Grok). Todas las imágenes del artículo que no tienen descripción debajo fueron generadas con la IA del editor de Substack.
Interesante, uno ve el resultado pero no sé imagina el proceso que realiza la máquina.