Sept choses que les anciens modèles d'image rataient, et comment celui-ci les corrige.
99 % de précision de rendu du texte
Les modèles d'images antérieurs pouvaient dessiner une affiche mais pas le titre dessus. Les formes des lettres se tordaient, le crénage s'effondrait, les lignes dérivaient, et tout glyphe hors de l'alphabet latin se transformait en bruit décoratif. Le contournement standard consistait à générer le fond dans un outil, masquer une zone propre, puis réinsérer le texte à la main. Ça marchait, mais ce n'était pas de la génération ; c'était du compositing déguisé en génération.
GPT Image 2 comble l'écart. Le propre benchmark d'OpenAI rapporte une précision du rendu de texte d'environ 99 % sur le texte imprimable — paragraphes, prix, légendes, étiquettes. Les lettres gardent leurs proportions, les mots reposent sur une ligne de base cohérente, et un texte court se lit comme une typographie intentionnelle plutôt que comme des formes approximatives.
Concrètement, l'œuvre et les mots sortent du même passage. Vous pouvez itérer sur une affiche de film, un menu de café, un écran d'application ou une infographie comme un rédacteur itère sur ses brouillons ― changer le prompt, régénérer, lire le résultat. Le texte fait désormais partie de l'image, pas d'une couche que vous ajoutez ensuite.
Planifie la mise en page avant de dessiner
GPT Image 2 embarque une étape de raisonnement native. Avant qu'un seul pixel ne soit généré, le modèle décompose le prompt en un plan structuré : ce qui va où, quels éléments sont au premier plan, comment les panneaux se rapportent les uns aux autres, où placer l'espace négatif. Ce n'est qu'après la fixation de ce plan que le modèle commence à y dessiner les pixels. Le raisonnement est invisible pour vous, mais il accomplit l'essentiel du travail structurel que les modèles plus anciens essayaient de simuler au niveau pixel.
Ce passage supplémentaire est la raison pour laquelle les compositions denses tiennent enfin. Les bandes dessinées multi-panneaux gardent les bulles attachées au bon personnage. Les infographies posent les étiquettes sur les bonnes barres et les titres dans la bonne hiérarchie. Les maquettes UI regroupent les contrôles en motifs reconnaissables au lieu de disperser uniformément boutons et étiquettes sur la toile. La sortie se lit comme quelque chose qu'un designer a réfléchi, pas comme une moyenne assemblée par un modèle.
Cela change aussi la façon d'écrire les prompts. Avec les modèles plus anciens, des prompts complexes produisaient des images compromises, donc le style de travail consistait à garder les prompts étroits et à empiler des générations pour assembler la complexité. Avec GPT Image 2, le modèle peut absorber un brief plus long et produire quand même une mise en page cohérente, vous pouvez donc décrire toute la composition en un seul prompt et lui faire confiance pour planifier les parties.
Multilingue par conception
La qualité du rendu textuel tient sur les écritures CJK (chinois simplifié et traditionnel, japonais, coréen) tout comme sur les langues à alphabet latin. Pas de modèle à changer, pas d'indicateur de langue à régler. Rédigez le prompt dans la langue que vous voulez voir apparaître dans l'image, et le modèle traite cette écriture comme un citoyen de première classe.
Les anciens modèles d'image partaient en pratique du postulat tacite que le texte à l'intérieur des images serait en anglais. Tout le reste se dégradait en traces vaguement alphabétiques. Les équipes des marchés CJK réagissaient en évitant purement la génération de texte intégré, en revenant à des workflows de superposition ou en payant des fine-tunes régionaux. Rien de tout cela n'est requis ici.
Si vous produisez du contenu localisé pour les marchés d'Asie de l'Est — enseignes, visuels d'emballage, posts sociaux, fiches recettes, cartes de restaurant — c'est la différence concrète entre utiliser la sortie générée telle quelle et reconstruire la couche texte dans Photoshop ou Figma. Sur un pipeline qui produit des dizaines de variantes localisées par semaine, l'écart horaire s'accumule vite.
Cohérence des personnages à travers des exécutions séparées
Relancez le même prompt et le personnage revient reconnaissable, génération après génération — même forme de visage, mêmes cheveux, même palette, mêmes éléments de costume. Sur des prompts différents, en revanche, le modèle ne propage pas automatiquement le sujet : copiez le paragraphe de description du personnage dans chaque prompt de scène comme un brief de casting, et le modèle s'y tiendra. Pas besoin de LoRA personnalisé, de fine-tune ni d'image de référence.
Pour les storyboards, mascottes de marque, séquences pédagogiques, illustrations de livres jeunesse, séries BD sociales et tout travail narratif où un personnage doit apparaître plusieurs fois, cela supprime l'aller-retour qui consistait à entraîner un modèle personnalisé ou un LoRA juste pour stabiliser un visage. Vous écrivez une description soignée du personnage une fois, puis vous réutilisez ce paragraphe comme ancre du personnage dans chaque prompt de scène et laissez le modèle faire le travail de cohérence.
Il reste des limites à connaître. La cohérence est la plus forte quand la description du personnage est détaillée et concrète : couleur et longueur de cheveux précises, lunettes, tenue reconnaissable, accessoires distinctifs. Elle est la plus faible quand le personnage est décrit vaguement, quand la scène change radicalement d'éclairage ou de style de rendu, ou quand les indices du personnage sont enfouis à la fin du prompt. Traitez la description comme un brief de casting, pas comme une suggestion molle.
Des compositions denses qui tiennent vraiment
La combinaison du raisonnement natif et du rendu de texte amélioré signifie que GPT Image 2 gère des compositions où les anciens systèmes se dégradaient discrètement : infographies basées sur les données avec plusieurs valeurs étiquetées, maquettes UI mobiles avec barres d'outils, onglets et listes de boîte de réception, affiches marketing multi-éléments avec hiérarchie, maquettes d'emballage avec plusieurs SKU dans le même cadre. C'étaient les compositions qui faisaient ressentir la génération AI comme « clairement assistive » plutôt que « utilisable ».
Là où DALL·E 3 ou gpt-image-1 compressaient la complexité en une impression vague ― « image à allure d'infographie avec marques en forme de chiffres » ― GPT Image 2 traite la densité comme la spécification et essaie de l'honorer. Les barres reçoivent des étiquettes. Les onglets reçoivent des noms. Les icônes de barre d'outils reçoivent des formes distinguables. Le résultat est quelque chose à quoi un designer peut réagir et qu'il peut affiner, pas quelque chose qu'il doit jeter et recommencer de zéro avec une mise en page manuelle.
L'avertissement honnête est que les mises en page très denses ― double page de magazine entière, tableaux de bord complexes à vingt widgets distincts, scènes encombrées avec une douzaine d'accessoires étiquetés ― bénéficient toujours de la décomposition du brief en passes plus petites. Générez le graphique, puis le contexte autour, puis composez les couches dans un outil qui vous donne un contrôle au pixel près. Le seuil au-delà duquel le compositing manuel l'emporte a beaucoup remonté, mais il existe toujours dans le haut de la complexité.
Usage commercial, avec les réserves habituelles
Les images que vous générez avec GPT Image 2 sont à vous pour des projets personnels et commerciaux, sous réserve de la politique de contenu d'OpenAI et de la loi applicable. Pas de palier de licence séparé à débloquer, pas de modèle de redevance à parcourir, pas de frais d'usage en plus du coût de génération. La sortie vous appartient dès qu'elle arrive dans votre compte, et aigazou ne revendique aucun droit en aval sur ce que vous produisez.
Périmètre pratique : actifs marketing, illustrations de blog, maquettes produit, concepts d'emballage, contenu réseaux sociaux, œuvres d'application, supports de cours, documents internes, vignettes vidéo, diapositives de présentation. Là où vous auriez engagé un illustrateur ou payé du stock, vous pouvez utiliser une image générée à la place, avec les mêmes diligences que pour tout actif visuel tiers.
Les réserves habituelles restent valables — pas de ressemblance avec une personne réelle sans consentement, pas d'atteinte à une marque ou à un personnage protégé par le droit d'auteur, pas d'image trompeuse de personnalités publiques. Considérez la politique de contenu d'OpenAI comme le contrat, et vous travaillez dans une licence propre pour un usage commercial courant.
Retouches au pixel près sans re-rendu
Les anciens modèles traitaient chaque modification comme une régénération complète. Changez un mot sur une affiche, et toute l'image est relancée — le fond bouge, les couleurs dérivent, les détails qui vous plaisaient disparaissent. Itérer revenait à jouer aux dés.
GPT Image 2 prend en charge des retouches localisées qui ne touchent que la zone désignée : remplacer un titre, recolorer une veste, corriger une étiquette de barre mal placée, redessiner une main. Le reste de l'image reste identique au pixel près ; l'itération devient additive — vous verrouillez une composition qui vous plaît, puis vous corrigez le seul détail qui cloche, sans remettre le reste en jeu.
En pratique, cela remplace l'aller-retour vers Photoshop pour les petites retouches. Combiné à l'étape de raisonnement, la génération d'images se rapproche d'un workflow brouillon-puis-révision : vous générez une mise en page satisfaisante, puis vous modifiez les détails sur place jusqu'à ce qu'ils correspondent au brief, au lieu de relancer toute l'image à chaque passage.