Como Dall·e 2 YA ha cambiado el mundo

June 16, 2022 Juan Pablo de Miguel

Puede que no sepas de qué te hablo: Dall·e 2.

Como aficionado a las nuevas tecnologías en general, de diseño, artísticas y esas cosillas, ando siempre al loro de las cosas que van saliendo. Pero en este caso concreto, me interesa también como fotógrafo. Si sigues diferentes blogs de tecnología y quizá de fotografía, habrás leído algo al respecto y visto unas fotos de gatitos, perritos, pandas y mapaches. Contenido copiado, traducido de parents americanos que se limitan a repetir como papagayos sin aportar nada en absoluto y únicamente preocupados con las visitas del blog. Vamos el día a día de Internet visites lo que visites.

Empezamos con algo bonito y sencillo: Una preciosa reinterpretación de un clásico del arte.

Desde inicios de 2021 vengo siguiendo con fascinación la evolución de este programa basado en un modelo de inteligencia artificial que es capaz de generar imágenes basadas únicamente en una descripción textual; vamos que tu le das un par de frases y el "programa" te da la imagen que las ilustra. Con una variedad de estilos y calidad variable. Por ejemplo: una de las primeras publicadas a inicios de 2021.

La única frase que hace falta para generar todas esas imágenes es "Una foto de Alamo Square, San Francisco, desde la calle por la noche".

Otro ejemplo: "Un ibis en la naturaleza pintado con el estilo de John Audubon."

Otro: "Foto de un gran oso pardo con gafas de sol y chaqueta de cuero siendo entrevistado en el podcast de Joe Rogan."

Aquí se ha usado la frase: "Pez anzuelo" nadando en un vaso de leche, retrato de estudio, fondo oscuro".

Ahora mismo, está en manos de una pequeña comunidad que esta probando todo tipo de cosas y se divierte con fantasías como esta: "Foto de la Darth Vader como invitado en un episodio de 1975 de "Vacaciones en el mar".

Aquí quiero detenerme para que asegurarme de que entiendes una cosa: esto no es una búsqueda en internet. No son retales ni collages de diferentes fotos unidas con gracia por este programa. Son imágenes que antes no existían y esta inteligencia genera desde 0 las imágenes porque "entiende" en esencia lo descrito. Y lo pinta. Las frases no son descripciones posteriores a la imagen. Las frases son lo que genera la imagen.

¿Como funciona? Con modelos entrenados con nuestras propias imágenes. Trillones de imágenes descritas y etiquetadas con precisión. Los fotógrafos llevamos un poco de tiempo aprovechándonos de este tipo de tecnología a través de los programas de eliminación de ruido, enfoque y redimensionado.

¿Pero esto de los montajes no se hacía ya? Si, más o menos y con intervención humana. De un especialista en fotomontajes concretamente pero es mucho más complicado y costoso en términos de tiempo y esfuerzo y por supuesto talento. La creatividad no siempre va ligada a la habilidad. Hay millones de personas que tienen ideas increíbles, buenas y malas, que están a años luz de crear algo creíble con los métodos actuales que tienen a mano sencillamente porque no saben como hacerlo. Dentro de poco aparecerán millones de imágenes por segundo en manos de todos ellos, y tuyas. Generadas a la velocidad de la luz solo con una frase.

Twitter cambió el mundo de la información porque democratizó la libertad de prensa. Esta tecnología viene a dar, no voz, si no realidad ilustrada a todos y cada uno de los que tengan algo que mostrar. Sea algo arrebatadoramente hermoso o sacado de tus peores pesadillas no es algo que podamos ahora juzgar.

Si durante los últimos años hemos aprendido a filtrar el contenido escrito con más o menos intuición y escaso éxito, a partir de que esta inteligencia sea libre y fácilmente accesible, será imposible confiar en nada. Puedes pensar que exagero y que esos ejemplos que te he mostrado antes son poco absurdos y no redefinen el concepto de certidumbre en las imágenes, pero los he elegido solo para que veas las posibilidades de este modelo en casos extremadamente raros y complejos. También puedes pensar que a ti nadie te la pega y que eres capaz de distinguir a 10 leguas entre un montajazo y una foto real. Yo me incluyo entre esos y últimamente me como mis palabras día si y día también.

Para muestra, un botón. Las descripciones "sencillas" que generan imágenes fotorrealistas son naturalmente indistinguibles de las reales. Mira:

Foto en hora azul de una casa moderna en ambiente natural.

El monopatín de la familia real inglesa.

Aquí se ha especificado que la lente es una 85mm f1.

Foto de una alpaca hecha de madera flotante con objetivo de 35 mm.

oto de un grabado Maya encontrado que explica por qué siempre te sobran tornillos en los muebles del Ikea. Es divertido y es una idea de olla, pero las implicaciones en la ciencia son inimaginables todavía.

Como por ejemplo en la creación de esta mascada del gato de Tutankhamon.

De nuevo quiero recordarte que nada de lo que estas viendo existe de verdad. Ni remotamente encontrarás algo parecido en Internet. Cada una de esas imágenes es una creación original de esta inteligencia basada en ese modelo. Puede que comiences a intuir el impacto de esta tecnología. No es casualidad que casi todo lo que se ha mostrado de momento en los grandes canales de difusión de la potencia de esta Inteligencia son fotos de gatitos y mapaches; imágenes desenfadadas y muy desprovistas de cualquier posible realidad. Por si no lo recuerdas, el motor de Internet siempre han sido las tetas y los gatitos.

Pero esto va mucho mas allá.

¿Que ocurre con supuestas imágenes filtradas de de un indecente mortal en el que un famoso está involucrado? Raperos cuyo odio público genera millones de dólares, abrazándose en la intimidad, el politico de turno esnifando cocaína, con billetes saliendo de su cartera o ese juez que investiga la corrupción de un partido político fotografiado en una situación sexual comprometida; la carrera de la actriz que se quiere arruinar fotografiada en una manifestación que acosa a una minoría étnica protegida, o peor, tirando plástico al contenedor de residuos, mostrando una incorrección y perversión hacia tu planeta digna de hoguera en plaza publica. ¿Y que tal si presidente de tu país asistiera a una reunión secreta con el dictador del pais más recóndito del planeta para tratar el tema de la acumulación de residuos nucleares ilegales a bajo costo; o qué se yo! la trata de mujeres para fines aún más espurios? Para cuando te des cuenta, el gobierno puede que haya caído. ¿Veremos nuevas y desconocidas obras de Rembrandt, Picasso... sorprendentemente descubiertas y vendidas por millones de $, diseños "perdidos" de Balenciaga...?

¿Crees que esto no tiene nada que ver contigo y solo podría afectar a las altas esferas, gente conocida con algo que perder? Nada más lejos de la realidad, y nunca mejor dicho ¿Podría un maltratador que está siendo juzgado por malos tratos e intento de asesinato, presentar una fotografía de su mujer empuñando un arma contra él y alegar defensa propia?

La lista es infinita y el límite solo es la imaginación desbordante y a la vez perversa del ser humano.

...

De momento la empresa no ha publicado el programa sencillamente porque no controlan los resultados (Google ha publicado algo parecido referido a su IA, llamada IMAGEN). El comunicado que han emitido viene a decir que los resultados son impredecibles y apunta principalmente a que han identificado sesgos, estereotipos, falta de representación, contenido sexual y desinformación en general (sea lo que sea que significa eso).

¿Que aparecen más hombres en puestos de responsabilidad? ¿Mujeres en trabajos estereotipados? ¿Contenido sexual demasiado abundante en los resultados? ¿Odio y violencia? ¡Es el puto mundo, estúpidos! (Parafraseando a Bill Clinton: ¡Es la economía, estúpido!)

Esto es un sistema basado en un modelo entrenado a base de trillones de imágenes generadas por nosotros, pequeños seres humanos, generadas como reflejo de nuestra propia sociedad, sin trampa ni cartón. Esperar que se comporte de manera políticamente correcta solo obedece a ese deseo pútrido de manipulación extrema bajo el que vivimos sometidos y por otro lado al infantilismo rosa, profundamente ignorante, obtuso y necio que invade nuestra sociedad, especialmente a la juventud que sufre dicha manipulación.

Por supuesto habrá intentos desesperados por "curar el contenido"; barbarismo bochornoso y sin sentido, que viene a decir: "filtrar solo lo que nos interesa". Tengo un libro fantástico que me ha venido a la cabeza ahora mismo:

Esto si que era "filtrar el contenido".

Los intentos típicos, regados con millones de Euros, con cientos de horas de "evaluaciones de riesgo" y "comités de investigación" bañados con caros vinos en aún más caros restaurantes como esa "Recomendación sobre la Ética de la Inteligencia Artificial" de la Unesco o los documentos en pañales del casi imaginario (por lo vago de sus páginas) marco legislativo para la IA de la Unión Europea (UE) llegarán tarde y mal y creo que sin tener idea de qué va el asunto, porque no parece que dentro de esos grupos haya nadie que sepa que la batalla ya esta perdida y solo les quedará matar moscas a cañonazos. Algo así como cuando se dedicaban a cerrar la web de tu vecino que se sacaba 4 perras con los enlaces de publicidad en su foro de descargas de pelis y series, mientras el mundo pirateaba a dolor hasta la boda de mi primo el de Villapeillos de Arriba. O como cuando se dedicaron durante un tiempo a chapar las webs de subtítulos que se curraba la gente; que putos genios.

Todo esto está referido a un intento de control imposible. Ninguna de esas medidas acabó con la piratería ni por asomo. El sistema se autorreguló cuando la tecnología permitió la oferta competitiva que el consumidor abrazó feliz de la vida. iTunes y Spotify acabaron con la piratería de música y Netflix con la de películas; tanto que tu, si eres un joven lector, ni siquiera recordarás lo que es un DivX o si me apuras un Torrent.

El sistema, una vez más tendrá que regularse por si mismo como ya ocurrió: por un lado esta nueva tecnología abrirá una puerta a la manipulación masiva, lo que ahora llaman Fake News, pero ya te auguro que habrá que buscar un nuevo y más impactante nombre para lo que se nos viene encima una vez se libere el código de todo esto porque Fake News parecerá un juego de niños en comparación. Pero será imposible de contener ni controlar como lo es ahora. Pero por otro lado, tal como ocurre también ahora, esa ausencia de control, junto con la propia naturaleza pura del modelo, que nos representa como nunca antes de una manera tan sangrantemente honesta, abre la otra puerta a enfrentarnos una vez más a nosotros mismos y a esa verdad incómoda. Esa si, y no la de Al Gore.

...

Esos absurdos comunicados que te comentaba más arriba, explicando textualmente que: "su misión es crear una IA que beneficie a la humanidad" no son más que un intento postizo de maquillar lo que saben desde que vieron los primeros resultados innegables en un despacho: que lo que tienen entre manos está a punto de cambiar la información visual en Internet tal y como la conocemos y por tanto nuestra percepción de la realidad y el pequeño mundo que nos muestra. Y están acojonados, probablemente sufriendo presiones de todo tipo desde todos los frentes.

OpenAI y Google (esos dos de momento, porque esto va a ser un no parar de Inteligencias generadoras de imágenes, hasta que veamos la App para IPhone), están reteniendo el futuro sin saber muy bien qué hacer con él porque, no olvides querido lector, detrás de esto hay dinero, mucho dinero. Miles de millones invertidos y esperando a multiplicarse en billones y trillones sin parar.

¿Entiendes ya de qué va esto? ¿Vas siendo consciente de lo que se nos viene encima en los próximos años? ¿Ves ahora lo ridículo de los artículos que hablan de que esta tecnología será genial para el mundo del arte?

¿Ves por fin que los gatitos y perritos son solo la punta, por decir algo, del iceberg?

...

¿Como me afecta como fotógrafo?

Sinceramente no lo se. Creo que las imágenes reales seguirán siendo necesarias, claro. Una retrato de una persona real seguirá sin tener alternativa (...) pero ¿Y como fotógrafo de paisaje? La verdad es que no tengo ni remota idea. Se me ocurren dos escenarios posibles:

1. Que desaparezca definitivamente la figura, ya demostrada, de "fotógrafo de paisaje" sencillamente porque el consumidor no valore nuestro trabajo, que hoy mismo se sigue describiendo como "apretar un botón", adornado con ideas como "si yo viajara tanto...".

2. Que vivamos una especie de edad dorada durante la cual la sociedad comience a valorar de manera completamente nueva la "veracidad" de lo que mostramos: El mundo real, que quien sabe si se convertirá en una rareza. Mientras lo escribo me parece más ciencia ficción que todo lo que llevo escrito hasta ahora, pero oye, nunca se sabe... ;)

Me considero un humanista y confío en las capacidades y bondad innata del hombre, pero tal como decía Socrates, solo accesible mediante mediante la razón. Solo entonces somos libres y consecuentes ante nuestros actos. Socrates atribuía el mal a la ignorancia y me temo que el mundo está lleno de imbeciles y egoístas muy poco razonables. Por lo tanto me inclino en general por la primera opción, aunque no dudo de que algunos harán fortuna explotando la segunda. No seré yo, ya te lo digo. Siempre he sido malo haciendo fortunas... pero si que he hecho este meme para compensar 😅

Este nuevo futuro visual no me da miedo, al contrario. No se el tiempo que voy a estar por aquí pero te diré algo que creo con total y absoluta sinceridad:

Querido lector, si vives de la fotografía, agárrate que vienen curvas, clava las uñas, cierra los puños y entorna los ojos mientras giras la cabeza (aunque, como le decía Guybrush Treephwood al barquero fantasma, mientras lo haces parezcas un conejo), y esfuérzate para vislumbrar el futuro nuevo para tu fotografía basado en algo más. Busca ese algo con todo lo que tengas porque corres el riesgo de cumplir una macabra actualización de lo cantado en aquel adagio que decía: “el que solo de fotografía sabe, ni de fotografía sabe”.

Buenas y futuristas noches querido lector.

...

PD: Por cierto ¿Quién crees que paga esta fiesta? No es gratis, esos equipos de gente lista cobra buenos sueldos, no hacen esto por amor al arte. La tecnología que hay detrás es millonaria y adelantada una vez más a su tiempo.

PD2: ¿Esta tecnología va más allá de los límites de la imaginación humana? No del todo, a largo plazo, si el modelo no se alimenta, acabará generando una y otra vez imágenes repetitivas, pero ¿a corto plazo? Watson venció a Ken Jennings y Deep Blue a Kasporov, ahora DALLE-2 nos espera con una soga y ninguna pregunta.

PD3: ¿Puedes imaginar la herramienta de "rellenar según el contenido" de Photoshop basada en este modelo? Di adiós a tus praderas clonadas de plantitas y piedras repetidas. Las posiblidades siquiera han empezado vislumbrarse. ;)

PD4: OpenAI ha liberado DALL-E Mini que es una especie de juguete para niños, una broma de mal gusto, que poco tiene que ver con el resultado de su hermano mayor, imagino que para ir puliendo algunos detalles antes de liberarlo al mercado.