Siete cosas que los modelos de imagen antiguos hacían mal, y cómo este las corrige.
99 % de precisión de renderizado de texto
Los modelos de imagen anteriores podían dibujar un cartel pero no el titular sobre él. Las formas de las letras se torcían, el kerning se colapsaba, las líneas derivaban, y cualquier glifo fuera del alfabeto latino se convertía en ruido decorativo. La salida estándar era generar el fondo en una herramienta, enmascarar un área limpia y reinsertar el texto a mano. Funcionaba, pero no era generación; era composición disfrazada de generación.
GPT Image 2 cierra esa brecha. El propio benchmark de OpenAI reporta una precisión de renderizado de texto en torno al 99 % sobre texto imprimible — párrafos, precios, pies de foto y etiquetas. Las letras mantienen sus proporciones, las palabras se asientan sobre una línea base coherente y el texto corto se lee como tipografía intencionada en vez de formas aproximadas.
En la práctica, el arte y las palabras salen del mismo paso. Puedes iterar sobre un cartel de película, un menú de café, una pantalla de app o una infografía como un copywriter itera sobre borradores ― cambia el prompt, regenera, lee el resultado. El texto ahora es parte de la imagen, no una capa que añades después.
Planifica el diseño antes de dibujar
GPT Image 2 trae un paso de razonamiento nativo. Antes de generar cualquier píxel, el modelo desglosa el prompt en un plan estructurado: qué va dónde, qué elementos están en primer plano, cómo se relacionan los paneles entre sí, dónde colocar el espacio negativo. Solo después de fijado ese plan el modelo empieza a dibujar píxeles dentro. El razonamiento es invisible para ti, pero hace la mayor parte del trabajo estructural que los modelos más antiguos intentaban falsificar a nivel de píxel.
Ese paso extra es la razón por la que las composiciones densas finalmente sostienen. Los cómics multi-panel mantienen los bocadillos atados al personaje correcto. Las infografías ponen las etiquetas en las barras correctas y los títulos en la jerarquía correcta. Los mockups de UI agrupan los controles en patrones reconocibles en lugar de esparcir botones y etiquetas uniformemente por el lienzo. La salida se lee como algo que un diseñador pensó a fondo, no como un promedio que un modelo juntó.
También cambia cómo se escriben los prompts. Con los modelos anteriores, los prompts complejos producían imágenes comprometidas, así que el estilo de trabajo era mantener los prompts estrechos y apilar generaciones para ensamblar complejidad. Con GPT Image 2, el modelo puede absorber un brief más largo y aun así producir un diseño coherente, así que puedes describir toda la composición en un prompt y confiar en que él planifique las partes.
Multilingüe por diseño
La calidad de renderizado de texto se sostiene en las escrituras CJK (chino simplificado y tradicional, japonés y coreano) además de los idiomas con alfabeto latino. No hay un modelo distinto al que cambiar ni una bandera de idioma que configurar. Escribe el prompt en el idioma que quieres que aparezca en la imagen y el modelo trata esa escritura como ciudadana de primera clase.
Los modelos de imagen anteriores se lanzaban con el supuesto implícito de que el texto dentro de las imágenes estaría en inglés. Cualquier otro idioma se degradaba en trazos con forma vagamente de letra. Los equipos en mercados CJK respondieron evitando la generación de texto dentro de la imagen, volviendo a los flujos de superposición o pagando por ajustes finos específicos de región. Nada de eso hace falta aquí.
Si produces contenido localizado para mercados de Asia Oriental —rótulos, artes de embalaje, publicaciones sociales, tarjetas de recetas, cartas de restaurante— esta es la diferencia práctica entre usar el resultado generado tal cual y rehacer la capa de texto en Photoshop o Figma. La diferencia de horas se acumula rápido en una línea de trabajo que produce decenas de variantes localizadas por semana.
Personajes consistentes a través de ejecuciones separadas
Vuelve a ejecutar el mismo prompt y el personaje regresa reconocible generación tras generación — misma forma de rostro, mismo cabello, misma paleta, mismos detalles de vestuario. En prompts distintos, el modelo no arrastra automáticamente al sujeto: copia el párrafo de descripción del personaje en cada prompt de escena como un brief de casting, y el modelo se aferrará a él. No hace falta LoRA propio, ni fine-tune, ni imagen de referencia.
Para storyboards, mascotas de marca, secuencias instructivas, ilustraciones de libros infantiles, series de cómic social y cualquier trabajo narrativo donde un personaje deba aparecer más de una vez, esto elimina el ida y vuelta de entrenar un modelo personalizado o un LoRA solo para mantener una cara estable. Escribes una descripción cuidadosa del personaje una vez, luego reutilizas ese párrafo como ancla del personaje en cada prompt de escena y dejas que el modelo haga el trabajo de consistencia.
Hay límites a conocer. La consistencia es más fuerte cuando la descripción del personaje es detallada y concreta: color y largo de pelo específicos, gafas, ropa reconocible, accesorios distintivos. Es más débil cuando el personaje se describe vagamente, cuando la escena cambia radicalmente de iluminación o estilo de renderizado, o cuando las pistas del personaje quedan enterradas al final del prompt. Trata la descripción como un brief de casting, no como una sugerencia blanda.
Composiciones densas que realmente se sostienen
La combinación de razonamiento nativo y renderizado de texto mejorado significa que GPT Image 2 maneja composiciones donde los sistemas más antiguos se degradaban en silencio: infografías basadas en datos con múltiples valores etiquetados, mockups de UI móvil con barras de herramientas, pestañas y listas de bandeja, carteles de marketing multi-elemento con jerarquía, mockups de packaging con varios SKU en el mismo cuadro. Estas eran las composiciones que hacían sentir la generación de IA como obviamente asistencial en lugar de utilizable.
Donde DALL·E 3 o gpt-image-1 comprimían la complejidad a una impresión vaga ― «imagen con forma de infografía con marcas con forma de números» ― GPT Image 2 trata la densidad como el brief y trata de honrarla. Las barras reciben etiquetas. Las pestañas reciben nombres. Los iconos de barra de herramientas reciben formas distinguibles. El resultado es algo a lo que un diseñador puede reaccionar y refinar en lugar de algo que tiene que tirar y empezar de cero con un layout manual.
La advertencia honesta es que los layouts muy densos ― una doble página completa de revista, paneles de control complejos con veinte widgets distintos, escenas atestadas con una docena de utilería etiquetada ― aún se benefician de dividir el brief en pasos más pequeños. Genera el gráfico, luego el contexto circundante, y compón las capas en una herramienta que te dé control a nivel de píxel. El umbral en el que la composición manual gana se ha movido considerablemente hacia arriba, pero todavía existe en el extremo alto de la complejidad.
Uso comercial, con las advertencias habituales
Las imágenes que generas con GPT Image 2 son tuyas para usarlas en proyectos personales y comerciales, sujetas a la política de contenido de OpenAI y la ley aplicable. No hay un nivel de licencia separado al que tengas que actualizar, ningún modelo de regalías que leer, ninguna tarifa de uso encima del coste de generación. La salida es tuya desde el momento en que llega a tu cuenta, y aigazou no reclama derechos posteriores sobre lo que produces.
Alcance práctico: assets de marketing, ilustraciones de blog, mockups de producto, conceptos de packaging, contenido de redes sociales, arte dentro de la app, materiales de cursos, documentos internos, miniaturas de vídeo, diapositivas de presentación. Donde habrías contratado un ilustrador o pagado por stock, puedes usar una imagen generada en su lugar, con los mismos pasos de diligencia debida que aplicarías a cualquier asset visual de terceros.
Las advertencias habituales siguen aplicando — nada de parecidos con personas reales sin su consentimiento, nada de infracciones de marca ni personajes con derechos de autor, nada de imágenes engañosas de figuras públicas. Si tratas la política de contenido de OpenAI como el contrato, estás trabajando dentro de una licencia limpia para uso comercial cotidiano.
Ediciones a nivel de píxel sin re-render
Los modelos anteriores trataban cada edición como una regeneración completa. Cambias una palabra en un póster y toda la imagen se vuelve a tirar — el fondo se mueve, los colores se desvían, los detalles que acababas de aprobar desaparecen. Iterar era un juego de azar.
GPT Image 2 permite ediciones localizadas que tocan solo la región que señales: cambiar un titular, recolorear una chaqueta, corregir la etiqueta mal puesta en una barra, volver a dibujar una mano. El resto de la imagen queda idéntico píxel a píxel, así que iterar se vuelve acumulativo — fijas una composición que te gusta y después arreglas el único detalle que no encaja, sin tener que volver a arriesgar todo lo demás.
En la práctica, esto sustituye el viaje de ida y vuelta a Photoshop para los retoques pequeños. Junto con el paso de razonamiento, la generación de imagen se acerca a un flujo borrador-y-revisión: generas una composición con la que estás conforme y luego editas los detalles sobre la marcha hasta que encajan con el brief, en lugar de tirar todo el cuadro en cada pasada.