O modelo de imagem mais recente da OpenAI · agora no aigazou

GPT Image 2: texto que sai certo, edições que ficam no lugar, detalhes que aguentam o zoom

Modelos de imagem por IA há muito tropeçam em três coisas: texto embaralhado nos pôsteres, ter que redesenhar o quadro inteiro para mudar uma pequena área e mãos com dedos a mais. GPT Image 2 resolve as três — cerca de 99 % de precisão na renderização de texto em escritas latinas e do Leste Asiático (benchmark oficial da OpenAI), edições realmente locais que só alteram a região que você seleciona e um embasamento em conhecimento de mundo que mantém física e anatomia convincentes mesmo ampliadas.

O que é o GPT Image 2

GPT Image 2 é o modelo de imagem nativo de segunda geração da OpenAI, lançado em abril de 2026 como sucessor do gpt-image-1. É o primeiro modelo de imagem da OpenAI com um passo de raciocínio embutido: antes de produzir pixels, o modelo planeja a composição, decide onde cada elemento fica e resolve como o texto dentro da imagem deve ser diagramado. A saída é uma única imagem renderizada a partir de um prompt em linguagem natural — sem editor separado, sem etapa manual de diagramação. No aigazou, o GPT Image 2 corre pelo fluxo padrão de geração da página inicial: escolha-o no menu de modelos, escreva o prompt, receba a imagem.

A forma mais direta de entender para que serve o GPT Image 2 é olhar para onde os modelos mais antigos falhavam de forma consistente. Pôsteres com uma tagline legível, cardápios com preços e nomes de pratos, infográficos com rótulos de eixo, quadrinhos com balões de fala, mockups mobile com copy de interface realista — todas são composições em que o texto faz parte da imagem. Modelos de difusão anteriores embaralhavam os glifos ou alucinavam um texto plausível que se desfazia numa segunda leitura. A resposta não é mais resolução, mas o passo de raciocínio: o modelo trata «texto e layout» primeiro como problema de planejamento e só depois como problema de renderização. A OpenAI relata uma precisão de texto em torno de 99 % nas escritas suportadas, incluindo chinês (simplificado e tradicional), japonês e coreano — escritas do leste asiático que a geração anterior tratava como formas decorativas. Além do texto, o GPT Image 2 traz edição em nível de pixel para retoques precisos em imagens existentes e um realismo com conhecimento de mundo que mantém física, materiais e anatomia críveis.

O GPT Image 2 também mantém personagens e estilos estáveis entre gerações feitas com o mesmo prompt — mesmo formato de rosto, mesmo figurino, mesma paleta. Entre prompts diferentes, porém, o modelo não carrega o sujeito automaticamente: o padrão de trabalho é escrever a descrição do personagem uma vez como um parágrafo e colar esse parágrafo em cada prompt de cena como um briefing de casting. Esse fluxo «parágrafo como âncora» é o que torna o modelo utilizável para trabalho que precisa de mais de uma imagem — storyboards, sequências de HQ, assets de marketing com tom de marca coerente, fichas de personagem — sem treinar um LoRA próprio. O GPT Image 2 não é a ferramenta certa para toda imagem; para um estilo anime aquarela suave, uma selfie polida ou um cartão de feriado com adesivos, as ferramentas dedicadas do aigazou chegam mais rápido ao resultado. As saídas são suas para projetos pessoais e comerciais, sujeitas à política de conteúdo do OpenAI.

O que o GPT Image 2 muda

Sete coisas que os modelos de imagem antigos erravam — e como este as corrige.

99% de precisão de renderização de texto

Modelos de imagem anteriores conseguiam desenhar um pôster, mas não a manchete em cima. Formas de letras se torciam, o kerning desabava, linhas derivavam, e qualquer glifo fora do alfabeto latino virava ruído decorativo. A saída padrão era gerar o fundo em uma ferramenta, mascarar uma área limpa e reinserir o texto à mão. Funcionava, mas não era geração; era composição vestida de geração.

O GPT Image 2 fecha essa lacuna. O próprio benchmark do OpenAI relata precisão de renderização de texto em torno de 99 % em texto imprimível — parágrafos, preços, legendas e rótulos. As letras mantêm suas proporções, as palavras ficam sobre uma linha de base consistente e um texto curto se lê como tipografia intencional em vez de formas aproximadas.

Na prática, a arte e as palavras saem do mesmo passo. Você pode iterar em um pôster de filme, cardápio de café, tela de app ou infográfico do jeito que um copywriter itera em rascunhos ― mude o prompt, regere, leia o resultado. O texto agora faz parte da imagem, não é uma camada que você adiciona depois.

Planeja o layout antes de desenhar

O GPT Image 2 vem com uma etapa de raciocínio nativa. Antes de qualquer pixel ser gerado, o modelo decompõe o prompt em um plano estruturado: o que vai onde, quais elementos são primeiro plano, como os painéis se relacionam, onde fica o espaço negativo. Só depois que esse plano fica firmado o modelo começa a desenhar pixels. O raciocínio é invisível para você, mas faz a maior parte do trabalho estrutural que os modelos mais antigos tentavam fingir no nível dos pixels.

Esse passo extra é o motivo pelo qual composições densas finalmente seguram. Quadrinhos de múltiplos painéis mantêm os balões ligados ao personagem certo. Infográficos colocam rótulos nas barras certas e títulos na hierarquia certa. Mockups de UI agrupam controles em padrões reconhecíveis em vez de espalhar botões e rótulos uniformemente pela tela. A saída lê como algo que um designer pensou direito, não como uma média que um modelo juntou.

Isso também muda como se escrevem prompts. Com modelos mais antigos, prompts complexos produziam imagens comprometidas, então o estilo de trabalho era manter prompts estreitos e empilhar gerações para montar complexidade. Com o GPT Image 2, o modelo absorve um briefing maior e ainda produz um layout coerente, então você pode descrever toda a composição em um único prompt e confiar que ele planeje as partes.

Multilíngue por design

A qualidade da renderização de texto se sustenta nas escritas CJK (chinês simplificado e tradicional, japonês, coreano) e nos idiomas com alfabeto latino. Não há modelo separado para alternar, nem flag de idioma a configurar. Escreva o prompt na língua que quer ver na imagem, e o modelo trata aquela escrita como cidadã de primeira classe.

Modelos de imagem anteriores essencialmente presumiam que o texto dentro das imagens estaria em inglês. Qualquer outra coisa degradava em marcas vagamente semelhantes a letras. Times em mercados CJK reagiram evitando totalmente a geração de texto na imagem, recorrendo a fluxos de sobreposição ou pagando por fine-tunes específicos de região. Nada disso é necessário aqui.

Se você entrega conteúdo localizado para mercados do leste asiático — placas de loja, artes de embalagem, posts sociais, cartões de receita, cardápios de restaurantes — essa é a diferença prática entre usar o resultado gerado diretamente e refazer a camada de texto no Photoshop ou Figma. A diferença em horas se acumula rápido em uma pipeline que produz dezenas de variantes localizadas por semana.

Personagens consistentes entre execuções separadas

Execute de novo o mesmo prompt e o personagem volta reconhecível geração após geração — mesmo formato de rosto, mesmo cabelo, mesma paleta, mesmos detalhes de figurino. Em prompts diferentes, porém, o modelo não carrega o sujeito automaticamente: copie o parágrafo de descrição do personagem para cada prompt de cena como um briefing de casting, e o modelo vai se prender a ele. Sem LoRA próprio, sem fine-tune, sem imagem de referência.

Para storyboards, mascotes de marca, sequências instrutivas, ilustrações de livros infantis, séries de quadrinhos sociais e qualquer trabalho narrativo onde um personagem precisa aparecer mais de uma vez, isso elimina o vai-e-vem de treinar um modelo personalizado ou um LoRA só para manter um rosto estável. Você escreve uma descrição cuidadosa do personagem uma vez, depois reusa esse parágrafo como âncora do personagem em cada prompt de cena e deixa o modelo fazer o trabalho de consistência.

Há limites que vale a pena conhecer. A consistência é mais forte quando a descrição do personagem é detalhada e concreta: cor e comprimento de cabelo específicos, óculos, roupa reconhecível, acessórios distintivos. É mais fraca quando o personagem é descrito vagamente, quando a cena muda iluminação ou estilo de renderização radicalmente, ou quando as pistas do personagem ficam enterradas no fim do prompt. Trate a descrição como um briefing de elenco, não como uma sugestão fofa.

Composições densas que realmente se sustentam

A combinação de raciocínio nativo e renderização de texto melhorada significa que o GPT Image 2 lida com composições onde sistemas mais antigos se degradavam em silêncio: infográficos guiados por dados com vários valores rotulados, mockups de UI mobile com barras de ferramentas, abas e listas de caixa de entrada, pôsteres de marketing multielemento com hierarquia, mockups de embalagem com vários SKUs no mesmo quadro. Eram essas as composições que faziam a geração AI parecer obviamente assistiva em vez de utilizável.

Onde o DALL·E 3 ou o gpt-image-1 comprimiam a complexidade em uma impressão vaga ― «imagem em formato infográfico com marcas em forma de números» ― o GPT Image 2 trata densidade como a especificação e tenta honrá-la. As barras ganham rótulos. As abas ganham nomes. Os ícones de barra de ferramentas ganham formas distinguíveis. O resultado é algo a que um designer pode reagir e refinar, em vez de algo que precisa ser jogado fora para começar do zero com um layout manual.

A ressalva honesta é que layouts muito densos ― uma página dupla de revista, dashboards complexos com vinte widgets distintos, cenas lotadas com uma dúzia de objetos rotulados ― ainda se beneficiam de quebrar o briefing em passes menores. Gere o gráfico, depois o contexto ao redor, depois componha as camadas em uma ferramenta que dá controle no nível de pixel. O limiar em que a composição manual ganha subiu consideravelmente, mas ainda existe no extremo da complexidade.

Uso comercial, com as ressalvas de sempre

Imagens que você gera com o GPT Image 2 são suas para uso em projetos pessoais e comerciais, sujeitas à política de conteúdo da OpenAI e à legislação aplicável. Não há um nível de licença separado para o qual você precise fazer upgrade, nenhum modelo de royalty para ler, nenhuma taxa de uso em cima do custo de geração. A saída é sua a partir do momento em que cai na sua conta, e o aigazou não reivindica direitos a jusante sobre o que você produz.

Escopo prático: ativos de marketing, ilustrações de blog, mockups de produto, conceitos de embalagem, conteúdo para redes sociais, arte dentro de app, materiais de curso, documentos internos, miniaturas de vídeo, slides de apresentação. Onde você teria contratado um ilustrador ou pago por stock, pode usar uma imagem gerada no lugar, com o mesmo cuidado que aplicaria a qualquer ativo visual de terceiros.

As ressalvas de sempre continuam valendo — nada de semelhança com pessoas reais sem consentimento, nada de violação de marca ou personagem protegido por direitos autorais, nada de imagens enganosas de figuras públicas. Trate a política de conteúdo do OpenAI como o contrato e você estará operando numa licença limpa para uso comercial cotidiano.

Edições no nível do pixel sem re-render

Modelos anteriores tratavam toda edição como uma regeneração completa. Mudar uma palavra num cartaz e a imagem inteira é relançada — o fundo desloca, as cores desviam, os detalhes que você aprovou há um instante desaparecem. Iterar virava aposta.

O GPT Image 2 dá suporte a edições localizadas que tocam apenas a região indicada: trocar um título, recolorir uma jaqueta, corrigir um rótulo de barra mal colocado, redesenhar uma mão. O restante da imagem permanece idêntico pixel a pixel, então iterar passa a ser acumulativo — trave a composição que você gostou e, em seguida, conserte o único detalhe fora do lugar sem colocar o resto em jogo.

Na prática, isso substitui o vai-e-volta ao Photoshop para pequenos ajustes. Combinado ao passo de raciocínio, gerar imagens passa a se parecer com um fluxo de rascunho-e-revisão: você gera um layout com o qual está satisfeito e então edita os detalhes no lugar até alinhar com o briefing, em vez de relançar o quadro inteiro a cada passagem.

Como usar o GPT Image 2 no aigazou

O GPT Image 2 vive dentro do fluxo padrão de geração na página inicial. Sem editor separado, sem fila de espera, sem configuração extra ― três passos do prompt vazio à imagem pronta.

  1. Abra a página inicial com o GPT Image 2 pré-selecionado

    Use o link abaixo e o seletor de modelo na página inicial já está em GPT Image 2. Você também pode escolhê-lo manualmente no menu suspenso de modelos se chegou por outro ponto de entrada.

    Abrir a página inicial
  2. Escreva um prompt claro e declarativo

    Curto e específico ganha de longo e ornamental. Nomeie o sujeito, o estilo e qualquer texto que deva aparecer dentro da imagem (entre aspas). Em prompts pesados de texto, escreva o texto que vai aparecer na imagem exatamente como deve ser renderizado, incluindo pontuação e maiúsculas. O modelo trata strings entre aspas como cópia literal.

  3. Gere e refine

    Se o layout geral está errado, reescreva o prompt e gere de novo — o passo de raciocínio funciona melhor com um briefing claro. Para correções pequenas (uma palavra mal escrita, uma cor errada, um único elemento), use a edição no nível do pixel sobre o resultado em vez de relançar a imagem inteira.

Saídas de exemplo

Seis prompts executados pelo GPT Image 2 sem retoque. O texto sob cada imagem é o prompt exato que a produziu.

Pôster de filme de exemplo gerado pelo GPT Image 2 com o título 'Midnight in Tokyo'

Pôster de cinema, tipografia composta

A vertical movie poster for a Tokyo neo-noir film. Title 'MIDNIGHT IN TOKYO' set large in modern serif at the top. Subtitle 'A film by Yuki Tanaka' beneath. Bottom strip reads 'IN THEATERS · APRIL 2026'. Cool blue night palette.

Manchete, subtítulo e linha de metadados saem todos legíveis de primeira ― o benchmark de renderização de texto na sua forma mais direta.

Exemplo de menu de cafeteria gerado pelo GPT Image 2, com nomes e preços legíveis em japonês e coreano

Menu bilíngue de cafeteria em japonês e coreano

Um menu de cafeteria em japonês e coreano. O cabeçalho traz 'メニュー / 메뉴'. Duas linhas de menu: '抹茶ラテ · ¥580' e '아메리카노 · ₩4,500'. Fundo creme, moldura desenhada à mão.

Duas escritas do leste asiático na mesma composição, ambas renderizadas de forma limpa sem recair em formas ornamentais.

Infográfico de exemplo gerado pelo GPT Image 2 mostrando barras de crescimento trimestral rotuladas

Infográfico de crescimento trimestral

A clean infographic titled '2026 Q1 Growth'. Three horizontal bars labeled 'JAN +12%', 'FEB +24%', 'MAR +38%'. Off-white background, single blue accent. Helvetica-style sans-serif.

O raciocínio nativo mantém cada rótulo grudado na barra certa ― o modo de falha que tradicionalmente matava infográficos gerados por AI.

Quadrinho de exemplo de dois painéis gerado pelo GPT Image 2 com personagem e diálogo consistentes

Cena de escritório em dois quadros

A two-panel comic strip. Panel 1: a tired office worker at a desk, speech bubble reading 'Did you finish the report?'. Panel 2: same character, slightly slumped, bubble reading '...Almost.' Black-and-white ink style.

O mesmo personagem se mantém pelos dois quadros, e cada balão fica grudado no falante certo.

Mockup de UI mobile de exemplo gerado pelo GPT Image 2 com texto de interface realista

Mockup de app de e-mail mobile

A realistic mobile UI mockup of a mail app inbox. Status bar reads '9:41' and '100%'. Title 'Inbox'. Two list rows: 'Sarah Chen · 2m', 'Design Review · 14m'. Bottom tab bar: 'Mail · Calendar · Settings'.

Texto de interface realista, não rabisco decorativo ― a diferença entre um mockup AI e uma referência de design utilizável.

Três imagens de exemplo geradas pelo GPT Image 2 em execuções separadas, cada uma preservando o mesmo personagem

Mesmo personagem, três cenas

Three separate runs of the same character: a young illustrator with short black hair, round glasses, and a forest-green sweater. Run 1 in a quiet bookshop. Run 2 on a city rooftop at dusk. Run 3 in a sunny park with a sketchbook.

Três execuções de três prompts diferentes que compartilham o mesmo parágrafo de descrição do personagem. O modelo usa esse parágrafo como um briefing de casting, então a pessoa continua reconhecível mesmo quando a cena muda.

Os renders reais estão sendo substituídos aos poucos — por enquanto os painéis acima mostram a intenção de cada prompt, não os pixels finais. Seus próprios resultados variam conforme o detalhe do prompt e a capacidade atual do modelo.

Como o GPT Image 2 se compara

Onde o GPT Image 2 se posiciona ao lado do Midjourney v7, do próprio antecessor e do DALL·E 3.

CapacidadeGPT Image 2Midjourney v7gpt-image-1DALL·E 3
Renderização de texto dentro da imagemCerca de 99% de precisão nas escritas suportadasMelhor do que v6, mas ainda pouco confiável em textos longos e layouts estruturadosFrequentemente legível em strings latinas curtas, menos confiável em cópia mais longaFrequentemente embaralhado, especialmente em cópia mais longa ou escritas não latinas
Suporte a escritas não latinas (CJK)Confiável em chinês, japonês e coreanoLimitado; o texto CJK tende a degradar em formas decorativasLimitado; glifos não latinos quebram com frequênciaLimitado; tratado como formas decorativas mais do que como texto
Raciocínio de layout antes de desenharNativo ― planeja a composição antes do primeiro pixelSem passo de planejamento explícito; forte prior estilísticoNenhuma etapa de planejamento explícitaNenhuma etapa de planejamento explícita
Consistência de personagens em execuções separadasForte em execuções do mesmo promptCharacter Reference mantém similaridade entre execuções, mas exige imagens seedFraca ― cada execução interpreta o sujeito independentementeFraca ― cada execução interpreta o sujeito independentemente
Mais adequado paraPôsteres, cardápios, infográficos, mockups de UI e quadrinhos onde texto na imagem e estrutura importamIlustração estilizada e atmosférica e direção de arte, onde texto na imagem é secundárioIlustração geral em que precisão de texto não é prioridadeIlustração artística geral; flexibilidade estilística sobre precisão de texto

Onde ele paga seu lugar

Seis lugares em que as forças específicas do GPT Image 2 ― texto, planejamento, multilíngue ― mudam o que é possível a partir de um prompt.

Pôsteres de marketing com tipografia composta

Lançamentos de produto, panfletos de eventos, anúncios de recrutamento. Manchete, subtítulo e linha de metadados saem todos legíveis de primeira, então times de design podem iterar nos prompts como um copywriter itera nos rascunhos ― sem etapa de composição.

A recruitment poster for a design studio. Headline 'WE'RE HIRING' in heavy black sans-serif at the top. Three role names below in lighter weight: 'Senior Designer', 'Product Manager', 'Brand Strategist'. Footer strip: 'APPLY BY MAY 15 · [email protected]'. Paper-grain off-white background.
A festival poster for a summer jazz event. Headline 'BLUE NOTE FEST 2026' in heavy condensed sans. Three artist names below in smaller weight. Warm amber and ink palette.

Mockups de produto e embalagem

Sacos de café, tubos de cosméticos, ícones de app em dispositivos, latas de bebida. O modelo consegue manter um nome de marca em vários SKUs na mesma cena sem borrar para glifos sem sentido ― o modo de falha que tradicionalmente matava embalagens geradas por AI.

Three coffee bags side by side on a marble counter. Each labeled 'AOI', 'KAEDE', 'YUKI'. Minimalist matte packaging in cream, sage, and slate. Studio lighting.
A skincare bottle on a bathroom shelf. Label reads 'ATELIER NO. 4 · Hydrating Serum · 30ml'. Soft natural light from the left.

Conteúdo de imagem com texto

Gráficos de redes sociais, cartões de citação, tipografia de letras de música, pôsteres motivacionais, modelos de meme. Onde a mensagem é a obra. Esse é o uso canônico que a nova renderização de texto desbloqueia, e que modelos mais fracos não conseguem falsificar.

A square Instagram quote card. Centered text in elegant script: 'The best time to plant a tree was twenty years ago. The second best time is now.' Soft sage background, off-white border.
A vertical lyric card. Text reads '夜の街は静かに歌う' in vertical Japanese typesetting on the right side. Ink-wash background, restrained palette.

Infográficos e visuais de dados

Destaques numéricos, comparações antes/depois, gráficos de barras simples, diagramas de processo. A etapa de raciocínio mantém os rótulos grudados nas barras certas e os títulos na hierarquia certa, eliminando a marca eterna do infográfico AI ― números fora do lugar.

A single-page onboarding flow titled 'From sign-up to first image'. Four labeled boxes connected by arrows: '1. Sign in', '2. Pick a model', '3. Write a prompt', '4. Generate'. Muted grey connectors, one warm accent on the final box.
A two-column comparison graphic titled 'Before vs After'. Left column header 'Before', right column header 'After'. Three bullet rows of short labels under each.

Quadrinhos e storyboards

Cenas de dois ou três quadros, frames de storyboard, sequências em estilo mangá. O raciocínio nativo mantém o mesmo personagem entre quadros e os balões grudados no falante certo ― os dois modos de falha que tornavam quadrinhos AI inviáveis antes.

A two-panel comic strip. Panel 1: a tired office worker at a desk, speech bubble reading 'Did you finish the report?'. Panel 2: same character, slightly slumped, bubble reading '...Almost.' Black-and-white ink style.
A three-panel storyboard for a coffee commercial. Panel 1: hand pouring espresso into a cup. Panel 2: cup steaming on a wooden table. Panel 3: silhouette of a person taking a sip. Cinematic lighting, no dialogue.

Layouts multilíngues

Sinalização bilíngue, embalagem bilíngue, mockups de UI multilíngues, ativos de marketing traduzidos. O modelo segura duas escritas na mesma composição sem que uma se degrade em formas decorativas ― por isso esta seção merece classe própria.

A bilingual coffee shop receipt in Japanese and English. Header 'TOKYO ROASTERS'. Line items: 'ドリップコーヒー / Drip Coffee · ¥550', 'クロワッサン / Croissant · ¥380'. Footer: 'ありがとうございました · Thank you'. Cream paper with a faint grid.
A bilingual storefront sign. Left side reads 'TOKYO BAGEL' in English. Right side reads '東京ベーグル' in Japanese, same weight and visual size. Wooden plank background.

Perguntas frequentes

O que é o GPT Image 2?

GPT Image 2 é o modelo de geração de imagens mais recente da OpenAI. Ele melhora o antecessor em três áreas: renderizar texto legível dentro das imagens, edição em nível de pixel sobre imagens existentes e realismo com conhecimento de mundo envolvendo física, materiais e anatomia. Aqui ele é exposto como um gerador online movido a Credits.

GPT Image 2 é grátis?

Cada geração custa 8 créditos. Não existe assinatura separada para desbloquear o modelo — você pode recarregar a qualquer momento na sua conta.

Em que o GPT Image 2 difere do gpt-image-1 ou DALL·E 3?

O GPT Image 2 planeja a composição antes de desenhar, então composições densas e infográficos se sustentam melhor. O texto dentro da imagem — especialmente em escritas CJK — é bem mais nítido que nos modelos anteriores, e ele permite edições no nível do pixel em imagens existentes sem re-renderizar o quadro inteiro.

Posso usar imagens do GPT Image 2 comercialmente?

Sim. As imagens que você gera são suas para uso em projetos pessoais e comerciais, sujeitas à política de conteúdo da OpenAI e à legislação aplicável. Não reivindicamos direitos sobre suas saídas.

Quais idiomas o GPT Image 2 renderiza bem dentro das imagens?

Chinês (simplificado e tradicional), japonês, coreano e idiomas com alfabeto latino são renderizados com clareza. Parágrafos longos em qualquer idioma ainda se beneficiam de prompts curtos e diretos.

Teste o GPT Image 2 hoje

O link abaixo abre a home com o GPT Image 2 já selecionado, e o próximo clique é escrever seu primeiro prompt.