Sete coisas que os modelos de imagem antigos erravam — e como este as corrige.
99% de precisão de renderização de texto
Modelos de imagem anteriores conseguiam desenhar um pôster, mas não a manchete em cima. Formas de letras se torciam, o kerning desabava, linhas derivavam, e qualquer glifo fora do alfabeto latino virava ruído decorativo. A saída padrão era gerar o fundo em uma ferramenta, mascarar uma área limpa e reinserir o texto à mão. Funcionava, mas não era geração; era composição vestida de geração.
O GPT Image 2 fecha essa lacuna. O próprio benchmark do OpenAI relata precisão de renderização de texto em torno de 99 % em texto imprimível — parágrafos, preços, legendas e rótulos. As letras mantêm suas proporções, as palavras ficam sobre uma linha de base consistente e um texto curto se lê como tipografia intencional em vez de formas aproximadas.
Na prática, a arte e as palavras saem do mesmo passo. Você pode iterar em um pôster de filme, cardápio de café, tela de app ou infográfico do jeito que um copywriter itera em rascunhos ― mude o prompt, regere, leia o resultado. O texto agora faz parte da imagem, não é uma camada que você adiciona depois.
Planeja o layout antes de desenhar
O GPT Image 2 vem com uma etapa de raciocínio nativa. Antes de qualquer pixel ser gerado, o modelo decompõe o prompt em um plano estruturado: o que vai onde, quais elementos são primeiro plano, como os painéis se relacionam, onde fica o espaço negativo. Só depois que esse plano fica firmado o modelo começa a desenhar pixels. O raciocínio é invisível para você, mas faz a maior parte do trabalho estrutural que os modelos mais antigos tentavam fingir no nível dos pixels.
Esse passo extra é o motivo pelo qual composições densas finalmente seguram. Quadrinhos de múltiplos painéis mantêm os balões ligados ao personagem certo. Infográficos colocam rótulos nas barras certas e títulos na hierarquia certa. Mockups de UI agrupam controles em padrões reconhecíveis em vez de espalhar botões e rótulos uniformemente pela tela. A saída lê como algo que um designer pensou direito, não como uma média que um modelo juntou.
Isso também muda como se escrevem prompts. Com modelos mais antigos, prompts complexos produziam imagens comprometidas, então o estilo de trabalho era manter prompts estreitos e empilhar gerações para montar complexidade. Com o GPT Image 2, o modelo absorve um briefing maior e ainda produz um layout coerente, então você pode descrever toda a composição em um único prompt e confiar que ele planeje as partes.
Multilíngue por design
A qualidade da renderização de texto se sustenta nas escritas CJK (chinês simplificado e tradicional, japonês, coreano) e nos idiomas com alfabeto latino. Não há modelo separado para alternar, nem flag de idioma a configurar. Escreva o prompt na língua que quer ver na imagem, e o modelo trata aquela escrita como cidadã de primeira classe.
Modelos de imagem anteriores essencialmente presumiam que o texto dentro das imagens estaria em inglês. Qualquer outra coisa degradava em marcas vagamente semelhantes a letras. Times em mercados CJK reagiram evitando totalmente a geração de texto na imagem, recorrendo a fluxos de sobreposição ou pagando por fine-tunes específicos de região. Nada disso é necessário aqui.
Se você entrega conteúdo localizado para mercados do leste asiático — placas de loja, artes de embalagem, posts sociais, cartões de receita, cardápios de restaurantes — essa é a diferença prática entre usar o resultado gerado diretamente e refazer a camada de texto no Photoshop ou Figma. A diferença em horas se acumula rápido em uma pipeline que produz dezenas de variantes localizadas por semana.
Personagens consistentes entre execuções separadas
Execute de novo o mesmo prompt e o personagem volta reconhecível geração após geração — mesmo formato de rosto, mesmo cabelo, mesma paleta, mesmos detalhes de figurino. Em prompts diferentes, porém, o modelo não carrega o sujeito automaticamente: copie o parágrafo de descrição do personagem para cada prompt de cena como um briefing de casting, e o modelo vai se prender a ele. Sem LoRA próprio, sem fine-tune, sem imagem de referência.
Para storyboards, mascotes de marca, sequências instrutivas, ilustrações de livros infantis, séries de quadrinhos sociais e qualquer trabalho narrativo onde um personagem precisa aparecer mais de uma vez, isso elimina o vai-e-vem de treinar um modelo personalizado ou um LoRA só para manter um rosto estável. Você escreve uma descrição cuidadosa do personagem uma vez, depois reusa esse parágrafo como âncora do personagem em cada prompt de cena e deixa o modelo fazer o trabalho de consistência.
Há limites que vale a pena conhecer. A consistência é mais forte quando a descrição do personagem é detalhada e concreta: cor e comprimento de cabelo específicos, óculos, roupa reconhecível, acessórios distintivos. É mais fraca quando o personagem é descrito vagamente, quando a cena muda iluminação ou estilo de renderização radicalmente, ou quando as pistas do personagem ficam enterradas no fim do prompt. Trate a descrição como um briefing de elenco, não como uma sugestão fofa.
Composições densas que realmente se sustentam
A combinação de raciocínio nativo e renderização de texto melhorada significa que o GPT Image 2 lida com composições onde sistemas mais antigos se degradavam em silêncio: infográficos guiados por dados com vários valores rotulados, mockups de UI mobile com barras de ferramentas, abas e listas de caixa de entrada, pôsteres de marketing multielemento com hierarquia, mockups de embalagem com vários SKUs no mesmo quadro. Eram essas as composições que faziam a geração AI parecer obviamente assistiva em vez de utilizável.
Onde o DALL·E 3 ou o gpt-image-1 comprimiam a complexidade em uma impressão vaga ― «imagem em formato infográfico com marcas em forma de números» ― o GPT Image 2 trata densidade como a especificação e tenta honrá-la. As barras ganham rótulos. As abas ganham nomes. Os ícones de barra de ferramentas ganham formas distinguíveis. O resultado é algo a que um designer pode reagir e refinar, em vez de algo que precisa ser jogado fora para começar do zero com um layout manual.
A ressalva honesta é que layouts muito densos ― uma página dupla de revista, dashboards complexos com vinte widgets distintos, cenas lotadas com uma dúzia de objetos rotulados ― ainda se beneficiam de quebrar o briefing em passes menores. Gere o gráfico, depois o contexto ao redor, depois componha as camadas em uma ferramenta que dá controle no nível de pixel. O limiar em que a composição manual ganha subiu consideravelmente, mas ainda existe no extremo da complexidade.
Uso comercial, com as ressalvas de sempre
Imagens que você gera com o GPT Image 2 são suas para uso em projetos pessoais e comerciais, sujeitas à política de conteúdo da OpenAI e à legislação aplicável. Não há um nível de licença separado para o qual você precise fazer upgrade, nenhum modelo de royalty para ler, nenhuma taxa de uso em cima do custo de geração. A saída é sua a partir do momento em que cai na sua conta, e o aigazou não reivindica direitos a jusante sobre o que você produz.
Escopo prático: ativos de marketing, ilustrações de blog, mockups de produto, conceitos de embalagem, conteúdo para redes sociais, arte dentro de app, materiais de curso, documentos internos, miniaturas de vídeo, slides de apresentação. Onde você teria contratado um ilustrador ou pago por stock, pode usar uma imagem gerada no lugar, com o mesmo cuidado que aplicaria a qualquer ativo visual de terceiros.
As ressalvas de sempre continuam valendo — nada de semelhança com pessoas reais sem consentimento, nada de violação de marca ou personagem protegido por direitos autorais, nada de imagens enganosas de figuras públicas. Trate a política de conteúdo do OpenAI como o contrato e você estará operando numa licença limpa para uso comercial cotidiano.
Edições no nível do pixel sem re-render
Modelos anteriores tratavam toda edição como uma regeneração completa. Mudar uma palavra num cartaz e a imagem inteira é relançada — o fundo desloca, as cores desviam, os detalhes que você aprovou há um instante desaparecem. Iterar virava aposta.
O GPT Image 2 dá suporte a edições localizadas que tocam apenas a região indicada: trocar um título, recolorir uma jaqueta, corrigir um rótulo de barra mal colocado, redesenhar uma mão. O restante da imagem permanece idêntico pixel a pixel, então iterar passa a ser acumulativo — trave a composição que você gostou e, em seguida, conserte o único detalhe fora do lugar sem colocar o resto em jogo.
Na prática, isso substitui o vai-e-volta ao Photoshop para pequenos ajustes. Combinado ao passo de raciocínio, gerar imagens passa a se parecer com um fluxo de rascunho-e-revisão: você gera um layout com o qual está satisfeito e então edita os detalhes no lugar até alinhar com o briefing, em vez de relançar o quadro inteiro a cada passagem.