Dibujitos de cuando era pequeño II, ahora que llegó la IA

Hace nueve años encontramos unos dibujitos infantiles hechos con rotuladores y se nos ocurrió la idea de modelar y renderilzar con Blender los mismos edificios para darles realismo y disfrutar las ventajas de tenerlos en 3D. Sin meternos en muchas complicaciones fue un proyecto rápido y muy satisfactorio. Te lo explicamos todo en este artículo de Inforserranía, que te recomendamos leer, aunque sea por encima, para entender lo que hemos hecho hoy.



Aquí están los tres dibujitos. Y como ahora estamos en el futuro en la era de la inteligencia artificial, en vez de molestarnos en dibujarlos en 3D para darles un estilo realista, vamos a hacerlo con las IAs generativas. A ver si merece la pena desinstalar Blender y hacerlo todo a golpe de prompt.

Ya lo habíamos intentado hacer. Desde que empezaron a aparecer IAs con reconocimiento de imágenes, lo que se ha dado en llamar "image to image", pero no habíamos obtenido resultados aceptables. Buscamos la perfección y nada de nada.

Pero ahora el modelo "Nano Banana" de Google ha dado un importante paso adelante. Hemos obtenido imágenes que sí podrían compararse con los dibujitos originales. Lo que queremos es una imagen foto-realista, como si fuera una fotografía, de cada uno de estos tres edificios. Pensábamos que le íbamos a tener que explicar a la IA algunos detalles que no se entienden bien o que no están bien representados en los dibujitos, pero no ha sido necesario. Ha entendido la estructura de los tres edificios a la perfección. Con todos sus recovecos y la mayoría de de elementos y características. Lo que ha costado mucho más trabajo de explicarle es que queremos ver el edificio real, no una foto realista del papel con el dibujo. Ha habido que medir las palabras y darle muchas vueltas a las instrucciones como si se lo estuvieras explicando al niño más torpe de la clase.

Curiosamente han tenido peor efecto los prompts de tipo "Convierte este dibujo a una foto realista del edificio". Ha sido mejor darle la vuelta a la idea y pedir algo así como "Una foto del edificio real en que está basado este dibujo".

Hemos usado Nano Banana desde Google AI Studio en primer lugar. En este caso no hemos usado las potentes capacidades de edición de imágenes pidiéndole que haga cambios. Lo que queríamos probar hoy es el "image to image" y hacer cambio de estilo.

A continuación te enseñamos las mejores imágenes obtenidas, por lo tanto ha habido mucho "cherry picking" y se han descartado muchas. Te contamos también las particularidades de cada edificio y los prompts usados.

Parque Atlántico Nano Banana 

Del primer edificio lo más raro pueden ser los dos ascensores panorámicos de cristal. Parece que ha entendido la idea bastante bien, con leves errores, y ha representado la transparencia siempre muy bien. En muchas de las fotos obtenidas ha aparecido en algún sitio una garita del conserje estilo "Aquí no hay quien viva", no sabemos si será por culpa del cartel de "Portería→". Lo que le ha costado mucho trabajo de corregir ha sido la perspectiva caballera, que en el dibujo original es muy forzada. La gran mayoría de las imágenes obtenidas han estado muy deformadas e incluso en estas se nota bastante que las azoteas están inclinadas.

El prompt que mejor resultado ha dado ha sido así de simple: A photo of the real building that should have inspired this drawing. Mientras más explicaciones, peor.

Torre Azul Nano Banana

Este otro edificio más sencillo ha sido especialmente difícil sacarlo del dibujo y llevarlo a la realidad. Muy difícil que entendiera que las ventanas tienen que ser de cristal y no estar simplemente dibujadas en la pared. Los jardines y las verjas salen bien siempre, pero el edificio parece estar siempre hecho de cartón por más imágenes que saquemos. Un detalle sencillo que no ha dibujado correctamente son los balcones, puede ser porque en el dibujito original no están bien centrados. 

También le ha costado trabajo corregir la perspectiva del dibujo y ha habido que pedírselo expresamente en los prompt. A photo of the real building that should have inspired this drawing. Realistic lighting, environment, building materials and perspective.

Shop Nano Banana

El dibujito de este tercer edificio no tiene perspectiva, se ve de frente. Menos información. Por eso esperábamos que fuera más problemático al convertirlo a una foto real. Las terrazas de la esquina izquierda pueden ser especialmente confusas y hay que tirar de imaginación. Pero ha sido especialmente fácil y se han obtenido resultados muy presentables desde el primer momento. Ha sabido interpretar perfectamente las terrazas escalonadas, aunque quizás le ha dado muy poca profundidad. Otro detalle complicado es la cristalera del lado derecho que en el dibujo original es una simple cuadrícula. Aunque también podían ser los lavaderos, ha entendido perfectamente que corresponde a las escaleras o rellanos. A través de los cristales transparentes se puede ver el interior con las plantas y todo. No ha entendido que los cuadrados amarillos en las terrazas serían focos de luz. Los dos arbolitos los ha dibujado siempre en su sitio.


Ha servido el primer prompt que probamos. Hemos repetido muy pocas veces porque san salido resultados bastante buenos. Transform this child's sketch of a building into a hyper-realistic photograph. Use realistic materials, natural lighting, and detailed textures as if this building existed in real life. 

Maquetas de papel

Antes de abandonar Nano Banana, le hemos pedido que convierta los dibujitos en maquetas de cartulina. Si tantas ganas tenía de pegar el dibujo de las puertas y ventanas sobre las paredes, esto lo tendría que hacer bien. Y ha salido perfecto. La estructura de cada edificio totalmente correcta y sin problemas con la perspectiva. Incluso para el último edificio del que solo vemos la fachada frontal, ha sabido inventarse las terrazas laterales con bastante éxito, aunque le podía haber dado un poco más de profundidad.


 

El prompt, muy simple. Draw a realistic photo of a papercraft model of this building.

No nos hemos querido entretener en pedirle que dibuje acuarelas o planos arquitectónicos, seguro que también lo hará con precisión.

Otros modelos de IA. ChatGPT.

Hemos probado otros modelos generativos "Image to image" como Qween o Seeart y no hemos sido capaces de obtener resultados presentables, usando prompts sencillos ni detallados.

Donde sí ha salido "algo" ha sido con ChatGPT. draw a ultra realistic photo of this same building in real life. use real materials and elements.


Los resultados son llamativos. Sin graves defectos de dibujado. Pero se parecen a los dibujitos originales como un huevo a una castaña. Todo es tan triste. Un hospital de la unión soviética. Tienen la misma expresión de pena que la cara de muchos personajes dibujados con este modelo. Pero sobretodo, con muchas alucinaciones. Por que no dibujas por lo menos el mismo número de ventanas.

Los tiempos de respuesta son exageradamente lentos, muchos minutos, mucho más que un rénder con Blender de la imagen 3D. Además con el plan gratuito está todo muy limitado y no ha sido posible hacer muchas repeticiones sin llegar al tope diario de imágenes. No conseguido. Nos olvidamos de ChatGPT para estos trabajos.

Nano Banana en Dreamina 

Probando otros modelos hemos llegado a Dreamina, la plataforma de IA generativa de ByteDance. Usando su modelo más reciente "Image 3.1" no es posible subir imágenes de referencia. Así que ha habido que hacerlo con el anterior "Image 3.0", que para otras generaciones nos ha dado siempre resultados muy buenos. Pero en este caso partiendo de las imágenes de nuestros dibujtos no ha sido capaz de entender lo que queríamos hacer. Sólo ha sacado fotografías perfectas del papel con el correspondiente dibujo, o este con mínimas correcciones de trazos y colores. Prueba no superada.

Pero lo que no sabíamos es que desde dentro de Dreamina también se puede usar Nano Banana. Y además de forma ilimitada ya que no se consumen créditos de uso diario. Solamente algo más lento porque hay que hacer cola. Hemos repetido la operación y los resultados han sido sorprendentes.


 


En Dreamina, al usar Nano Banana se dificulta la función estrella de irle pidiendo correcciones o ediciones de la imagen. Pero parece que el modelo de Nano Banana está configurado de alguna forma más óptima para generar imágenes desde texto o desde otra imagen de referencia. Se obtienen resultados muy detallados, con más creatividad, pero sin perder la esencia de la imagen original. Muy bueno. Es lo que esperábamos obtener en las pruebas desde Google AI Studio, pero allí algo parece estar más limitado. Ha tenido también problemas para corregir la perspectiva de los dibujitos y para controlar esos entornos urbanos tan abarrotados hemos tenido que hacérselo saber en los prompts.

Los prompts más eficaces, con leves variaciones, han sido de este tipo: draw a ultra realistic photo of this same building in real life. use real materials and elements. seaside scene. take the photo in a good perspective. Seleccionando el modelo Nano Banana en el menú

En resumen

Que estas técnicas de IA generativa son espectaculares. Pueden ser de utilidad en situaciones concretas, para imágenes únicas con un resultado muy rápido y donde queramos ganar riqueza en detalles inesperados. Si le pedimos que dibuje un astronauta cabalgando por la Luna, da igual como sea el caballo y como sea el suelo de la Luna; lo va a hacer muy bien.

Pero en el caso de querer representar con precisión algo ya existente todavía no tienen la eficacia esperada. Y mucho menos si quisiéramos repetir imágenes en diferentes posiciones, lo que se conoce como "consistencia" en el caso de personajes. Aunque se parezcan, en cada iteración se van introduciendo modificaciones no deseadas.

Así que con mucho gusto nos seguimos quedando con Blender para representar escenas en 3D conservando todas sus ventajas. Al menos durante unas pocas semanas más, en lo que tarde en aparecer la próxima novedad disruptiva de la inteligencia artificial.


Comentarios

Entradas populares de este blog

El chalet de Médico de Familia

Cómo ganar siempre al buscaminas

Reciclando calendarios. Cuando se repiten los días de la semana