Sette cose che i vecchi modelli di immagine sbagliavano, e come questo le corregge.
99% di precisione di rendering del testo
I precedenti modelli d'immagine potevano disegnare una locandina ma non il titolo sopra. Le forme delle lettere si torcevano, il kerning collassava, le righe derivavano, e qualsiasi glifo fuori dall'alfabeto latino diventava rumore decorativo. La soluzione standard era generare lo sfondo in uno strumento, mascherare un'area pulita e reinserire il testo a mano. Funzionava, ma non era generazione; era compositing travestito da generazione.
GPT Image 2 colma il divario. Il benchmark stesso di OpenAI riporta un'accuratezza di rendering del testo attorno al 99 % sul testo stampabile — paragrafi, prezzi, didascalie, etichette. Le lettere mantengono le proporzioni, le parole stanno su una linea di base coerente, e un testo breve si legge come tipografia intenzionale invece che come forme approssimative.
Praticamente, l'opera e le parole escono dallo stesso passaggio. Puoi iterare su una locandina di film, un menu di caffetteria, una schermata di app o un'infografica come un copywriter itera sulle bozze ― cambia il prompt, rigenera, leggi il risultato. Il testo ora è parte dell'immagine, non un livello che aggiungi dopo.
Pianifica il layout prima di disegnare
GPT Image 2 arriva con uno step di reasoning nativo. Prima che venga generato un solo pixel, il modello scompone il prompt in un piano strutturato: cosa va dove, quali elementi stanno in primo piano, come si relazionano i pannelli tra loro, dove sta lo spazio negativo. Solo dopo che quel piano è fissato il modello inizia a disegnare i pixel dentro. Il reasoning è invisibile per te, ma fa la maggior parte del lavoro strutturale che i modelli più vecchi cercavano di fingere a livello di pixel.
Quel passaggio extra è il motivo per cui le composizioni dense finalmente tengono. I fumetti multi-pannello tengono i balloon attaccati al personaggio giusto. Le infografiche mettono le etichette sulle barre giuste e i titoli nella gerarchia giusta. I mockup di UI raggruppano i controlli in pattern riconoscibili invece di spargere uniformemente bottoni ed etichette sulla tela. L'output si legge come qualcosa che un designer ha pensato a fondo, non come una media che un modello ha messo insieme.
Cambia anche come si scrivono i prompt. Con i modelli più vecchi, prompt complessi producevano immagini compromesse, quindi lo stile di lavoro era tenere i prompt stretti e impilare generazioni per assemblare la complessità. Con GPT Image 2 il modello può assorbire un brief più lungo e produrre comunque un layout coerente, quindi puoi descrivere l'intera composizione in un prompt e fidarti che pianifichi le parti.
Multilingue per design
La qualità del rendering del testo regge sulle scritture CJK (cinese semplificato e tradizionale, giapponese, coreano) oltre che sulle lingue a alfabeto latino. Non c'è un modello diverso a cui passare, non c'è un flag di lingua da impostare. Scrivi il prompt nella lingua che vuoi vedere nell'immagine e il modello tratta quella scrittura come cittadina di prima classe.
I precedenti modelli di immagini uscivano di fatto con il presupposto nascosto che il testo all'interno delle immagini fosse in inglese. Tutto il resto degradava in tracce vagamente simili a lettere. I team dei mercati CJK hanno risposto evitando del tutto la generazione di testo nell'immagine, tornando a flussi di sovrapposizione o pagando fine-tuning specifici per regione. Qui nulla di tutto ciò è necessario.
Se produci contenuti localizzati per i mercati dell'Asia orientale — insegne di negozi, artwork di packaging, social post, ricette in scheda, menu di ristoranti — questa è la differenza pratica tra usare il risultato generato così com'è e ricostruire il layer di testo in Photoshop o Figma. In una pipeline che sforna decine di varianti localizzate a settimana, la differenza di ore si accumula rapidamente.
Personaggi coerenti attraverso esecuzioni separate
Rilancia lo stesso prompt e il personaggio torna riconoscibile generazione dopo generazione — stessa forma del viso, stessi capelli, stessa palette, stessi dettagli del costume. Su prompt diversi il modello non porta automaticamente avanti il soggetto: copia il paragrafo di descrizione del personaggio in ogni prompt di scena come un brief di casting, e il modello si terrà stretto ad esso. Niente LoRA personalizzato, niente fine-tune, niente immagine di riferimento.
Per storyboard, mascotte di brand, sequenze didattiche, illustrazioni di libri per bambini, serie a fumetti social e ogni lavoro narrativo dove un personaggio deve apparire più di una volta, questo elimina l'andirivieni di addestrare un modello custom o un LoRA solo per tenere stabile un volto. Scrivi una descrizione attenta del personaggio una volta, poi riusi quel paragrafo come ancora del personaggio in ogni prompt di scena e lasci che il modello faccia il lavoro di coerenza.
Ci sono comunque limiti da conoscere. La coerenza è più forte quando la descrizione del personaggio è dettagliata e concreta: colore e lunghezza dei capelli specifici, occhiali, vestiti riconoscibili, accessori distintivi. È più debole quando il personaggio è descritto vagamente, quando la scena cambia radicalmente illuminazione o stile di rendering, o quando gli indizi del personaggio sono sepolti alla fine del prompt. Tratta la descrizione come un brief di casting, non come un suggerimento blando.
Composizioni dense che reggono davvero
La combinazione di reasoning nativo e rendering del testo migliorato significa che GPT Image 2 gestisce composizioni dove i sistemi più vecchi degradavano silenziosamente: infografiche guidate dai dati con più valori etichettati, mockup di UI mobile con barre degli strumenti, tab e liste di posta in arrivo, locandine di marketing multi-elemento con gerarchia, mockup di packaging con diversi SKU nello stesso frame. Queste erano le composizioni che facevano sentire la generazione AI come ovviamente assistiva invece che usabile.
Dove DALL·E 3 o gpt-image-1 comprimevano la complessità in un'impressione vaga ― «immagine in stile infografico con segni a forma di numeri» ― GPT Image 2 tratta la densità come la specifica e cerca di onorarla. Le barre prendono etichette. Le tab prendono nomi. Le icone della barra strumenti prendono forme distinguibili. Il risultato è qualcosa a cui un designer può reagire e raffinare invece di qualcosa che deve buttare e ricominciare da zero con un layout manuale.
L'avvertenza onesta è che layout molto densi ― una doppia pagina di rivista, dashboard complesse con venti widget distinti, scene affollate con una dozzina di props etichettati ― beneficiano ancora dello spezzare il brief in passaggi più piccoli. Genera il grafico, poi il contesto circostante, poi componi i livelli in uno strumento che ti dia controllo a livello di pixel. La soglia oltre la quale il compositing manuale vince si è alzata considerevolmente, ma esiste ancora nell'estremo della complessità.
Uso commerciale, con le consuete avvertenze
Le immagini che generi con GPT Image 2 sono tue da usare in progetti personali e commerciali, soggette alla policy sui contenuti di OpenAI e alla legge applicabile. Non c'è un livello di licenza separato a cui devi fare upgrade, nessun modello di royalty da leggere, nessuna tariffa d'uso sopra il costo di generazione. L'output è tuo dal momento in cui arriva nel tuo account, e aigazou non rivendica diritti a valle su ciò che produci.
Ambito pratico: asset di marketing, illustrazioni di blog, mockup di prodotto, concept di packaging, contenuti social, opere d'arte in-app, materiali di corso, documenti interni, miniature video, slide di presentazione. Dove avresti assunto un illustratore o pagato per stock, puoi usare un'immagine generata invece, con gli stessi tipi di passaggi di due diligence che applicheresti a qualsiasi asset visivo di terze parti.
Le consuete avvertenze restano valide — niente somiglianze con persone reali senza consenso, niente violazioni di marchi o personaggi protetti da copyright, niente immagini ingannevoli di figure pubbliche. Tratta la content policy di OpenAI come il contratto e stai lavorando in una licenza pulita per l'uso commerciale quotidiano.
Modifiche a livello di pixel senza re-render
I modelli precedenti trattavano ogni modifica come una rigenerazione totale. Cambi una parola su un poster e l'intera immagine viene rilanciata — lo sfondo si sposta, i colori slittano, i dettagli che ti piacevano un attimo fa spariscono. Iterare era scommettere.
GPT Image 2 supporta modifiche localizzate che toccano solo la regione indicata: sostituire un titolo, ricolorare una giacca, correggere un'etichetta di una barra mal collocata, ridisegnare una mano. Il resto dell'immagine resta identico pixel per pixel, così l'iterazione diventa additiva — blocca una composizione che ti piace e poi sistema l'unico dettaglio storto senza rimettere in gioco tutto il resto.
In pratica sostituisce il viaggio di andata e ritorno verso Photoshop per le piccole correzioni. Unito al passo di ragionamento, la generazione di immagini si avvicina a un flusso bozza-e-revisione: generi un layout che ti soddisfa, poi modifichi i dettagli sul posto finché non corrispondono al brief, invece di rilanciare ogni volta l'intero fotogramma.