El modelo de imagen más reciente de OpenAI · ya en aigazou

GPT Image 2: texto que sale correcto, ediciones que se quedan en su sitio, detalles que aguantan el zoom

Los modelos de imagen por IA llevan años tropezando con tres cosas: texto ilegible en los carteles, tener que redibujar todo el cuadro para cambiar una zona pequeña y manos con dedos de más. GPT Image 2 resuelve las tres — alrededor del 99 % de precisión en el renderizado de texto en escrituras latinas y del este de Asia (benchmark oficial de OpenAI), ediciones locales reales que solo tocan la región que seleccionas y un anclaje en conocimiento del mundo para que física y anatomía aguanten incluso al ampliarlas.

Qué es GPT Image 2

GPT Image 2 es el modelo de imagen nativo de segunda generación de OpenAI, lanzado en abril de 2026 como sucesor de gpt-image-1. Es el primer modelo de imagen de OpenAI con un paso de razonamiento integrado: antes de producir píxeles, planifica la composición, decide dónde va cada elemento y resuelve cómo debería maquetarse el texto dentro de la imagen. La salida es una sola imagen renderizada a partir de un prompt en lenguaje natural, sin editor aparte ni paso manual de maquetación. En aigazou, GPT Image 2 corre por el flujo estándar de generación de la página principal: elige el modelo en el desplegable, escribe el prompt y recibe la imagen.

La forma más directa de entender para qué sirve GPT Image 2 es mirar dónde fallaban de forma constante los modelos anteriores. Pósters con una tagline legible, cartas con precios y nombres de platos, infografías con etiquetas de ejes, viñetas de cómic con bocadillos, maquetas móviles con copy de interfaz realista: todas son composiciones en las que el texto forma parte de la imagen. Los modelos basados en difusión de antes deformaban los glifos o alucinaban un texto plausible que se caía al mirarlo dos veces. La solución no es más resolución, sino el paso de razonamiento: el modelo trata «texto y layout» primero como un problema de planificación y luego como un problema de renderizado. OpenAI reporta una precisión de texto cercana al 99 % en las escrituras admitidas —chino (simplificado y tradicional), japonés y coreano—, escrituras del este asiático que la generación anterior trataba como formas decorativas. Además del texto, GPT Image 2 aporta edición a nivel de píxel para retoques precisos sobre imágenes existentes y un realismo con conocimiento del mundo que mantiene creíbles física, materiales y anatomía.

GPT Image 2 también mantiene personajes y estilos estables a lo largo de generaciones hechas con el mismo prompt — misma forma de rostro, mismo vestuario, misma paleta. En prompts distintos, sin embargo, el modelo no arrastra automáticamente al sujeto: el patrón de trabajo consiste en escribir la descripción del personaje una vez como un párrafo y pegar ese párrafo en cada prompt de escena como un brief de casting. Este flujo «párrafo como ancla» es lo que hace utilizable el modelo para trabajos que necesitan más de una imagen — storyboards, secuencias de cómic, assets de marketing con tono de marca consistente, hojas de personaje — sin tener que entrenar un LoRA propio. GPT Image 2 no es la herramienta adecuada para toda imagen; para un estilo anime acuarela suave, una selfie pulida o una tarjeta navideña con stickers, las herramientas dedicadas de aigazou te llevarán ahí más rápido. Las salidas son tuyas para proyectos personales y comerciales, sujetas a la política de contenido de OpenAI.

Qué cambia GPT Image 2

Siete cosas que los modelos de imagen antiguos hacían mal, y cómo este las corrige.

99 % de precisión de renderizado de texto

Los modelos de imagen anteriores podían dibujar un cartel pero no el titular sobre él. Las formas de las letras se torcían, el kerning se colapsaba, las líneas derivaban, y cualquier glifo fuera del alfabeto latino se convertía en ruido decorativo. La salida estándar era generar el fondo en una herramienta, enmascarar un área limpia y reinsertar el texto a mano. Funcionaba, pero no era generación; era composición disfrazada de generación.

GPT Image 2 cierra esa brecha. El propio benchmark de OpenAI reporta una precisión de renderizado de texto en torno al 99 % sobre texto imprimible — párrafos, precios, pies de foto y etiquetas. Las letras mantienen sus proporciones, las palabras se asientan sobre una línea base coherente y el texto corto se lee como tipografía intencionada en vez de formas aproximadas.

En la práctica, el arte y las palabras salen del mismo paso. Puedes iterar sobre un cartel de película, un menú de café, una pantalla de app o una infografía como un copywriter itera sobre borradores ― cambia el prompt, regenera, lee el resultado. El texto ahora es parte de la imagen, no una capa que añades después.

Planifica el diseño antes de dibujar

GPT Image 2 trae un paso de razonamiento nativo. Antes de generar cualquier píxel, el modelo desglosa el prompt en un plan estructurado: qué va dónde, qué elementos están en primer plano, cómo se relacionan los paneles entre sí, dónde colocar el espacio negativo. Solo después de fijado ese plan el modelo empieza a dibujar píxeles dentro. El razonamiento es invisible para ti, pero hace la mayor parte del trabajo estructural que los modelos más antiguos intentaban falsificar a nivel de píxel.

Ese paso extra es la razón por la que las composiciones densas finalmente sostienen. Los cómics multi-panel mantienen los bocadillos atados al personaje correcto. Las infografías ponen las etiquetas en las barras correctas y los títulos en la jerarquía correcta. Los mockups de UI agrupan los controles en patrones reconocibles en lugar de esparcir botones y etiquetas uniformemente por el lienzo. La salida se lee como algo que un diseñador pensó a fondo, no como un promedio que un modelo juntó.

También cambia cómo se escriben los prompts. Con los modelos anteriores, los prompts complejos producían imágenes comprometidas, así que el estilo de trabajo era mantener los prompts estrechos y apilar generaciones para ensamblar complejidad. Con GPT Image 2, el modelo puede absorber un brief más largo y aun así producir un diseño coherente, así que puedes describir toda la composición en un prompt y confiar en que él planifique las partes.

Multilingüe por diseño

La calidad de renderizado de texto se sostiene en las escrituras CJK (chino simplificado y tradicional, japonés y coreano) además de los idiomas con alfabeto latino. No hay un modelo distinto al que cambiar ni una bandera de idioma que configurar. Escribe el prompt en el idioma que quieres que aparezca en la imagen y el modelo trata esa escritura como ciudadana de primera clase.

Los modelos de imagen anteriores se lanzaban con el supuesto implícito de que el texto dentro de las imágenes estaría en inglés. Cualquier otro idioma se degradaba en trazos con forma vagamente de letra. Los equipos en mercados CJK respondieron evitando la generación de texto dentro de la imagen, volviendo a los flujos de superposición o pagando por ajustes finos específicos de región. Nada de eso hace falta aquí.

Si produces contenido localizado para mercados de Asia Oriental —rótulos, artes de embalaje, publicaciones sociales, tarjetas de recetas, cartas de restaurante— esta es la diferencia práctica entre usar el resultado generado tal cual y rehacer la capa de texto en Photoshop o Figma. La diferencia de horas se acumula rápido en una línea de trabajo que produce decenas de variantes localizadas por semana.

Personajes consistentes a través de ejecuciones separadas

Vuelve a ejecutar el mismo prompt y el personaje regresa reconocible generación tras generación — misma forma de rostro, mismo cabello, misma paleta, mismos detalles de vestuario. En prompts distintos, el modelo no arrastra automáticamente al sujeto: copia el párrafo de descripción del personaje en cada prompt de escena como un brief de casting, y el modelo se aferrará a él. No hace falta LoRA propio, ni fine-tune, ni imagen de referencia.

Para storyboards, mascotas de marca, secuencias instructivas, ilustraciones de libros infantiles, series de cómic social y cualquier trabajo narrativo donde un personaje deba aparecer más de una vez, esto elimina el ida y vuelta de entrenar un modelo personalizado o un LoRA solo para mantener una cara estable. Escribes una descripción cuidadosa del personaje una vez, luego reutilizas ese párrafo como ancla del personaje en cada prompt de escena y dejas que el modelo haga el trabajo de consistencia.

Hay límites a conocer. La consistencia es más fuerte cuando la descripción del personaje es detallada y concreta: color y largo de pelo específicos, gafas, ropa reconocible, accesorios distintivos. Es más débil cuando el personaje se describe vagamente, cuando la escena cambia radicalmente de iluminación o estilo de renderizado, o cuando las pistas del personaje quedan enterradas al final del prompt. Trata la descripción como un brief de casting, no como una sugerencia blanda.

Composiciones densas que realmente se sostienen

La combinación de razonamiento nativo y renderizado de texto mejorado significa que GPT Image 2 maneja composiciones donde los sistemas más antiguos se degradaban en silencio: infografías basadas en datos con múltiples valores etiquetados, mockups de UI móvil con barras de herramientas, pestañas y listas de bandeja, carteles de marketing multi-elemento con jerarquía, mockups de packaging con varios SKU en el mismo cuadro. Estas eran las composiciones que hacían sentir la generación de IA como obviamente asistencial en lugar de utilizable.

Donde DALL·E 3 o gpt-image-1 comprimían la complejidad a una impresión vaga ― «imagen con forma de infografía con marcas con forma de números» ― GPT Image 2 trata la densidad como el brief y trata de honrarla. Las barras reciben etiquetas. Las pestañas reciben nombres. Los iconos de barra de herramientas reciben formas distinguibles. El resultado es algo a lo que un diseñador puede reaccionar y refinar en lugar de algo que tiene que tirar y empezar de cero con un layout manual.

La advertencia honesta es que los layouts muy densos ― una doble página completa de revista, paneles de control complejos con veinte widgets distintos, escenas atestadas con una docena de utilería etiquetada ― aún se benefician de dividir el brief en pasos más pequeños. Genera el gráfico, luego el contexto circundante, y compón las capas en una herramienta que te dé control a nivel de píxel. El umbral en el que la composición manual gana se ha movido considerablemente hacia arriba, pero todavía existe en el extremo alto de la complejidad.

Uso comercial, con las advertencias habituales

Las imágenes que generas con GPT Image 2 son tuyas para usarlas en proyectos personales y comerciales, sujetas a la política de contenido de OpenAI y la ley aplicable. No hay un nivel de licencia separado al que tengas que actualizar, ningún modelo de regalías que leer, ninguna tarifa de uso encima del coste de generación. La salida es tuya desde el momento en que llega a tu cuenta, y aigazou no reclama derechos posteriores sobre lo que produces.

Alcance práctico: assets de marketing, ilustraciones de blog, mockups de producto, conceptos de packaging, contenido de redes sociales, arte dentro de la app, materiales de cursos, documentos internos, miniaturas de vídeo, diapositivas de presentación. Donde habrías contratado un ilustrador o pagado por stock, puedes usar una imagen generada en su lugar, con los mismos pasos de diligencia debida que aplicarías a cualquier asset visual de terceros.

Las advertencias habituales siguen aplicando — nada de parecidos con personas reales sin su consentimiento, nada de infracciones de marca ni personajes con derechos de autor, nada de imágenes engañosas de figuras públicas. Si tratas la política de contenido de OpenAI como el contrato, estás trabajando dentro de una licencia limpia para uso comercial cotidiano.

Ediciones a nivel de píxel sin re-render

Los modelos anteriores trataban cada edición como una regeneración completa. Cambias una palabra en un póster y toda la imagen se vuelve a tirar — el fondo se mueve, los colores se desvían, los detalles que acababas de aprobar desaparecen. Iterar era un juego de azar.

GPT Image 2 permite ediciones localizadas que tocan solo la región que señales: cambiar un titular, recolorear una chaqueta, corregir la etiqueta mal puesta en una barra, volver a dibujar una mano. El resto de la imagen queda idéntico píxel a píxel, así que iterar se vuelve acumulativo — fijas una composición que te gusta y después arreglas el único detalle que no encaja, sin tener que volver a arriesgar todo lo demás.

En la práctica, esto sustituye el viaje de ida y vuelta a Photoshop para los retoques pequeños. Junto con el paso de razonamiento, la generación de imagen se acerca a un flujo borrador-y-revisión: generas una composición con la que estás conforme y luego editas los detalles sobre la marcha hasta que encajan con el brief, en lugar de tirar todo el cuadro en cada pasada.

Cómo usar GPT Image 2 en aigazou

GPT Image 2 vive dentro del flujo de generación estándar en la página de inicio. Sin editor separado, sin lista de espera, sin configuración extra ― tres pasos de un prompt en blanco a una imagen terminada.

  1. Abre la página de inicio con GPT Image 2 preseleccionado

    Usa el enlace de abajo y el selector de modelo en la página de inicio ya está puesto en GPT Image 2. También puedes elegirlo manualmente desde el menú desplegable si llegaste por otro punto de entrada.

    Abrir la página de inicio
  2. Escribe un prompt claro y declarativo

    Corto y específico supera a largo y ornamental. Nombra el sujeto, el estilo y cualquier texto que deba aparecer dentro de la imagen (entre comillas). Para prompts cargados de texto, escribe el texto sobre la imagen exactamente como debe renderizarse, incluyendo puntuación y mayúsculas. El modelo trata las cadenas entre comillas como copy literal.

  3. Genera y refina

    Si la composición general está mal, reescribe el prompt y vuelve a generar — el paso de razonamiento rinde mejor con un brief claro. Para correcciones pequeñas (una palabra mal escrita, un color incorrecto, un solo elemento), usa la edición a nivel de píxel sobre el resultado en lugar de tirar toda la imagen otra vez.

Salidas de muestra

Seis prompts ejecutados a través de GPT Image 2 sin retoque. El texto bajo cada imagen es el prompt exacto que la produjo.

Cartel de película de muestra generado por GPT Image 2 con el título 'Midnight in Tokyo'

Cartel de cine, tipografía compuesta

A vertical movie poster for a Tokyo neo-noir film. Title 'MIDNIGHT IN TOKYO' set large in modern serif at the top. Subtitle 'A film by Yuki Tanaka' beneath. Bottom strip reads 'IN THEATERS · APRIL 2026'. Cool blue night palette.

Titular, subtítulo y línea de metadatos renderizan todos legibles a la primera ― el benchmark de renderizado de texto en su forma más directa.

Menú de cafetería de ejemplo generado por GPT Image 2, con nombres y precios legibles en japonés y coreano

Menú de cafetería bilingüe en japonés y coreano

Un menú de cafetería escrito en japonés y coreano. El encabezado dice 'メニュー / 메뉴'. Dos líneas de menú: '抹茶ラテ · ¥580' y '아메리카노 · ₩4,500'. Fondo crema, marco dibujado a mano.

Dos escrituras del este asiático en la misma composición, ambas renderizadas con nitidez y sin recaer en formas ornamentales.

Infografía de muestra generada por GPT Image 2 que muestra barras de crecimiento trimestral etiquetadas

Infografía de crecimiento trimestral

A clean infographic titled '2026 Q1 Growth'. Three horizontal bars labeled 'JAN +12%', 'FEB +24%', 'MAR +38%'. Off-white background, single blue accent. Helvetica-style sans-serif.

El razonamiento nativo mantiene cada etiqueta atada a la barra correcta ― el modo de fallo que tradicionalmente mató a las infografías generadas por IA.

Cómic de dos viñetas de muestra generado por GPT Image 2 con personaje y diálogo consistentes

Escena de oficina de dos viñetas

A two-panel comic strip. Panel 1: a tired office worker at a desk, speech bubble reading 'Did you finish the report?'. Panel 2: same character, slightly slumped, bubble reading '...Almost.' Black-and-white ink style.

El mismo personaje se mantiene a través de ambas viñetas, y cada bocadillo se queda atado al hablante correcto.

Mockup de UI móvil de muestra generado por GPT Image 2 con copy de interfaz realista

Mockup de app de correo móvil

A realistic mobile UI mockup of a mail app inbox. Status bar reads '9:41' and '100%'. Title 'Inbox'. Two list rows: 'Sarah Chen · 2m', 'Design Review · 14m'. Bottom tab bar: 'Mail · Calendar · Settings'.

Copy de interfaz realista, no galimatías decorativo ― la diferencia entre un mockup de IA y una referencia de diseño utilizable.

Tres imágenes de muestra generadas por GPT Image 2 a través de ejecuciones separadas, cada una preservando el mismo personaje

El mismo personaje, tres escenas

Three separate runs of the same character: a young illustrator with short black hair, round glasses, and a forest-green sweater. Run 1 in a quiet bookshop. Run 2 on a city rooftop at dusk. Run 3 in a sunny park with a sketchbook.

Tres ejecuciones de tres prompts distintos que comparten el mismo párrafo de descripción del personaje. El modelo utiliza ese párrafo como un brief de casting, de modo que la persona sigue siendo reconocible aunque cambie la escena.

Los renders reales se están incorporando poco a poco — por ahora los paneles de arriba ilustran la intención de cada prompt, no los píxeles finales. Tus propios resultados variarán según el detalle del prompt y la capacidad actual del modelo.

Cómo se compara GPT Image 2

Dónde queda GPT Image 2 junto a Midjourney v7, su propio predecesor y DALL·E 3.

CapacidadGPT Image 2Midjourney v7gpt-image-1DALL·E 3
Renderizado de texto dentro de la imagenAproximadamente 99 % de precisión en escrituras soportadasMejorado respecto a v6 pero aún poco fiable en textos largos y composiciones estructuradasA menudo legible para cadenas latinas cortas, menos fiable para copy más largoFrecuentemente confundido, especialmente en copy más largo o escrituras no latinas
Soporte de escrituras no latinas (CJK)Fiable en chino, japonés y coreanoLimitado; el texto CJK tiende a degradarse en formas decorativasLimitado; los glifos no latinos se rompen frecuentementeLimitado; tratado como formas decorativas más que como texto
Razonamiento de diseño antes de dibujarNativo ― planifica la composición antes del primer píxelSin paso explícito de planificación; fuerte sesgo estilísticoSin paso de planificación explícitoSin paso de planificación explícito
Consistencia de personajes a través de ejecuciones separadasFuerte a través de ejecuciones del mismo promptCharacter Reference mantiene parecido entre ejecuciones, pero necesita imágenes semillaDébil ― cada ejecución interpreta al sujeto independientementeDébil ― cada ejecución interpreta al sujeto independientemente
Mejor encajeCarteles, menús, infografías, mockups de UI y cómics donde el texto en la imagen y la estructura importanIlustración estilizada y atmosférica y dirección de arte, donde el texto en la imagen es secundarioIlustración general donde la precisión del texto no es la prioridadIlustración artística general; flexibilidad estilística sobre precisión de texto

Donde se gana el sueldo

Seis lugares donde las fortalezas específicas de GPT Image 2 ― texto, planificación, multilingüe ― cambian lo que es posible desde un prompt.

Carteles de marketing con tipografía compuesta

Lanzamientos de producto, flyers de eventos, anuncios de reclutamiento. Titular, subtítulo y línea de metadatos salen todos legibles a la primera, así que los equipos de diseño pueden iterar sobre prompts como un copywriter itera sobre borradores ― sin paso de composición requerido.

A recruitment poster for a design studio. Headline 'WE'RE HIRING' in heavy black sans-serif at the top. Three role names below in lighter weight: 'Senior Designer', 'Product Manager', 'Brand Strategist'. Footer strip: 'APPLY BY MAY 15 · [email protected]'. Paper-grain off-white background.
A festival poster for a summer jazz event. Headline 'BLUE NOTE FEST 2026' in heavy condensed sans. Three artist names below in smaller weight. Warm amber and ink palette.

Mockups de producto y packaging

Bolsas de café, tubos de cosméticos, iconos de app en dispositivos, latas de bebida. El modelo puede sostener un nombre de marca a través de varios SKU en la misma escena sin emborronarlo a glifos sin sentido ― el modo de fallo que tradicionalmente mató al packaging generado por IA.

Three coffee bags side by side on a marble counter. Each labeled 'AOI', 'KAEDE', 'YUKI'. Minimalist matte packaging in cream, sage, and slate. Studio lighting.
A skincare bottle on a bathroom shelf. Label reads 'ATELIER NO. 4 · Hydrating Serum · 30ml'. Soft natural light from the left.

Contenido de imagen con texto

Gráficos de redes sociales, tarjetas de cita, tipografía de letras de canción, carteles motivacionales, plantillas de meme. Cualquier lugar donde el mensaje sea la obra. Este es el caso de uso canónico que el nuevo renderizado de texto desbloquea, y que los modelos más débiles no pueden falsificar.

A square Instagram quote card. Centered text in elegant script: 'The best time to plant a tree was twenty years ago. The second best time is now.' Soft sage background, off-white border.
A vertical lyric card. Text reads '夜の街は静かに歌う' in vertical Japanese typesetting on the right side. Ink-wash background, restrained palette.

Infografías y visualizaciones de datos

Resaltado de cifras, comparaciones antes/después, gráficos de barras simples, diagramas de proceso. El paso de razonamiento mantiene las etiquetas atadas a las barras correctas y los títulos en la jerarquía correcta, lo que elimina el delator eterno de la infografía de IA ― números mal colocados.

A single-page onboarding flow titled 'From sign-up to first image'. Four labeled boxes connected by arrows: '1. Sign in', '2. Pick a model', '3. Write a prompt', '4. Generate'. Muted grey connectors, one warm accent on the final box.
A two-column comparison graphic titled 'Before vs After'. Left column header 'Before', right column header 'After'. Three bullet rows of short labels under each.

Viñetas de cómic y storyboards

Escenas de dos y tres viñetas, frames de storyboard, secuencias estilo manga. El razonamiento nativo mantiene al mismo personaje a través de las viñetas y los bocadillos atados al hablante correcto ― los dos modos de fallo que hacían imposibles los cómics de IA antes.

A two-panel comic strip. Panel 1: a tired office worker at a desk, speech bubble reading 'Did you finish the report?'. Panel 2: same character, slightly slumped, bubble reading '...Almost.' Black-and-white ink style.
A three-panel storyboard for a coffee commercial. Panel 1: hand pouring espresso into a cup. Panel 2: cup steaming on a wooden table. Panel 3: silhouette of a person taking a sip. Cinematic lighting, no dialogue.

Diseños multilingües

Señalización bilingüe, packaging bilingüe, mockups de UI multilingües, assets de marketing traducidos. El modelo sostiene dos escrituras en la misma composición sin que una se degrade a formas decorativas ― por eso esta sección se gana una clase propia.

A bilingual coffee shop receipt in Japanese and English. Header 'TOKYO ROASTERS'. Line items: 'ドリップコーヒー / Drip Coffee · ¥550', 'クロワッサン / Croissant · ¥380'. Footer: 'ありがとうございました · Thank you'. Cream paper with a faint grid.
A bilingual storefront sign. Left side reads 'TOKYO BAGEL' in English. Right side reads '東京ベーグル' in Japanese, same weight and visual size. Wooden plank background.

Preguntas frecuentes

¿Qué es GPT Image 2?

GPT Image 2 es el modelo de generación de imágenes más reciente de OpenAI. Mejora a su antecesor en tres áreas: renderizar texto legible dentro de la imagen, edición a nivel de píxel sobre imágenes existentes y realismo con conocimiento del mundo en física, materiales y anatomía. Aquí lo exponemos como un generador en línea impulsado por Credits.

¿GPT Image 2 es gratis?

Cada generación cuesta 8 créditos. No hay una suscripción separada para desbloquear el modelo — puedes recargar en cualquier momento desde tu cuenta.

¿En qué se diferencia GPT Image 2 de gpt-image-1 o DALL·E 3?

GPT Image 2 planifica la composición antes de dibujar, así que las composiciones densas y las infografías aguantan mejor. El texto dentro de la imagen — especialmente en escrituras CJK — es mucho más nítido que en modelos anteriores, y admite ediciones a nivel de píxel sobre imágenes existentes sin volver a renderizar todo el cuadro.

¿Puedo usar imágenes de GPT Image 2 comercialmente?

Sí. Las imágenes que generas son tuyas para usar en proyectos personales y comerciales, sujetas a la política de contenido de OpenAI y la ley aplicable. No reclamamos derechos sobre tus salidas.

¿Qué idiomas renderiza bien GPT Image 2 dentro de las imágenes?

El chino (simplificado y tradicional), el japonés, el coreano y los idiomas en alfabeto latino se renderizan con claridad. Los párrafos largos en cualquier idioma siguen beneficiándose de prompts cortos y declarativos.

Prueba GPT Image 2 hoy

El enlace de abajo abre la página de inicio con GPT Image 2 ya seleccionado, y el siguiente clic es escribir tu primer prompt.