Cómo funcionan los generadores de imágenes de IA

0

Tél ráfaga de imágenes generadas por inteligencia artificial (AI) se siente como el producto de una herramienta completamente moderna. De hecho, las computadoras han estado en el caballete durante décadas. A principios de la década de 1970, Harold Cohen, un artista, enseñó a dibujar usando un AI sistema. “AARÓN” podría instruir a un robot para dibujar formas en blanco y negro en papel; dentro de una década Cohen había enseñado AARÓN para dibujar figuras humanas.

Hoy “generativo AILos modelos ponen pincel al papel virtual: aplicaciones disponibles públicamente, como Midjourney y OpenAI’s DALL-E, cree imágenes en segundos según las indicaciones de texto. Los productos finales a menudo engañan a los humanos. En marzo AI-Las imágenes generadas de Donald Trump siendo esposado por la policía se volvieron virales en línea. Y los generadores de imágenes están mejorando rápidamente. ¿Cómo trabajan y cómo están refinando su oficio?

Generativo-AI Los modelos son un tipo de aprendizaje profundo, una técnica de software que utiliza capas de nodos interconectados que imitan vagamente la estructura del cerebro humano. Los modelos detrás de los generadores de imágenes están entrenados en enormes conjuntos de datos: LAION-5B, el más grande disponible públicamente, contiene 5.850 millones de imágenes etiquetadas. Los conjuntos de datos a menudo se extraen de Internet, incluso de plataformas de redes sociales, bibliotecas de fotos y sitios web de compras.

Los generadores de imágenes más avanzados suelen utilizar un tipo de generador AI conocido como modelo de difusión. Agregan “ruido” visual distorsionador a las imágenes en el conjunto de datos, haciéndolas parecer un análogo TELEVISOR todavía interrumpida por la estática, hasta que las imágenes se oscurecen por completo. Al aprender a deshacer el desorden, el modelo puede producir una imagen similar a la original. A medida que mejora en el reconocimiento de grupos de píxeles que corresponden a conceptos visuales particulares, comienza a comprimir, categorizar y almacenar este conocimiento en un bolsillo de código matemático conocido como “espacio latente”.

Supongamos que le pide a una aplicación generadora que cree una imagen de un hipopótamo. Un modelo que haya aprendido qué tipos de disposición de píxeles se correlacionan con la palabra “hippopotamus” (ver imagen a la izquierda) debería poder tomar muestras de su espacio latente para crear una imagen realista del mamífero. Agregar más detalles a la indicación, por ejemplo, “una pintura al óleo de la era renacentista de un hipopótamo verde, en algún lugar a lo largo del río Nilo” (ver imagen a la derecha), requiere que el modelo obtenga capas adicionales de detalles visuales, como estilo de imagen , textura, color y ubicación, y combinarlos correctamente.

Un díptico con imágenes de hipopótamos creado por un sitio generador de IA.  A la izquierda, una foto de un hipopótamo, a la derecha, una pintura al óleo de un hipopótamo verde en el río Nilo.

Las respuestas a las indicaciones complicadas pueden ser erráticas, especialmente si la indicación no está redactada con claridad o si la escena que describe no está bien representada en el conjunto de datos de entrenamiento. Incluso la tarifa aparentemente simple puede hacer tropezar a los modelos. Las manos humanas a menudo se representan con dedos faltantes o adicionales, o proporciones que parecen torcer las reglas de la física. Debido a que las manos suelen ser menos prominentes que las caras en las fotografías, hay conjuntos de datos más pequeños para AI modelos para perfeccionar su técnica. La simetría facial sospechosa, especialmente las inconsistencias en el color y la forma entre los ojos, los dientes y las orejas, es otra señal del trabajo de una máquina. Y los generadores de imágenes luchan con el texto, a menudo creando letras inexistentes o palabras imaginarias.

Los desarrolladores pueden ayudar a los modelos a aprender de sus errores refinando los conjuntos de datos de los que están aprendiendo o ajustando los algoritmos. Midjourney se actualizó recientemente para mejorar la forma en que genera manos. Las rápidas mejoras significan que decirle a un AI-La imagen generada a partir de una fotografía o pintura real pronto puede volverse imposible.

Leave A Reply