Sieben Dinge, die ältere Bildmodelle falsch gemacht haben — und wie dieses sie behebt.
99 % Textrendering-Genauigkeit
Frühere Bildmodelle konnten ein Plakat zeichnen, aber nicht die Schlagzeile darauf. Buchstabenformen verzogen sich, Kerning brach zusammen, Zeilen drifteten, und jeder Glyph außerhalb des lateinischen Alphabets wurde zu dekorativem Rauschen. Die übliche Umgehung war, den Hintergrund in einem Werkzeug zu generieren, eine saubere Fläche freizustellen und den Text dann von Hand wieder einzufügen. Es funktionierte, aber es war keine Generierung; es war Compositing im Generierungsgewand.
GPT Image 2 schließt diese Lücke. Laut OpenAIs eigenem Benchmark liegt die Textgenauigkeit beim Rendering bei rund 99 % auf druckbarem Text — Absätze, Preise, Bildunterschriften, Labels. Buchstaben behalten ihre Proportionen, Wörter sitzen auf einer konsistenten Grundlinie, und kurzer Text liest sich als absichtliche Typografie statt als ungefähre Form.
Praktisch heißt das: Grafik und Worte kommen aus demselben Durchlauf. Sie können ein Filmplakat, eine Café-Speisekarte, einen App-Screen oder eine Infografik so iterieren, wie ein Texter Entwürfe iteriert ― Prompt ändern, neu generieren, Ergebnis lesen. Text ist jetzt Teil des Bildes, keine Schicht, die man später hinzufügt.
Plant das Layout vor dem Zeichnen
GPT Image 2 bringt einen nativen Reasoning-Schritt mit. Bevor ein Pixel erzeugt wird, zerlegt das Modell den Prompt in einen strukturierten Plan: Was steht wo, welche Elemente sind im Vordergrund, wie verhalten sich Panels zueinander, wo liegt der Negativraum. Erst nachdem dieser Plan steht, fängt das Modell an, die Pixel hineinzuzeichnen. Das Reasoning ist für Sie unsichtbar, leistet aber den Großteil der strukturellen Arbeit, die ältere Modelle auf Pixel-Ebene zu fingieren versuchten.
Dieser zusätzliche Durchlauf ist der Grund, weshalb dichte Kompositionen endlich zusammenhalten. Mehrteilige Comics halten Sprechblasen am richtigen Charakter. Infografiken legen Beschriftungen auf die richtigen Balken und Titel in die richtige Hierarchie. UI-Mockups gruppieren Bedienelemente in erkennbare Muster, statt Buttons und Beschriftungen gleichmäßig über die Leinwand zu streuen. Die Ausgabe liest sich wie etwas, das ein Designer durchdacht hat, nicht wie ein Mittelwert, den ein Modell zusammengewürfelt hat.
Das ändert auch, wie man Prompts schreibt. Bei älteren Modellen erzeugten komplexe Prompts kompromittierte Bilder, daher war der Arbeitsstil, Prompts schmal zu halten und Generierungen zu stapeln, um Komplexität aufzubauen. Mit GPT Image 2 kann das Modell ein längeres Briefing aufnehmen und trotzdem ein kohärentes Layout produzieren, sodass Sie die gesamte Komposition in einem Prompt beschreiben und ihm die Planung der Teile überlassen können.
Mehrsprachig im Design
Die Text-Rendering-Qualität hält über CJK-Schriften (Chinesisch Kurz- und Langzeichen, Japanisch, Koreanisch) genauso wie bei lateinischen Alphabetsprachen. Es gibt kein anderes Modell zum Umschalten, kein Sprach-Flag zum Setzen. Schreibe den Prompt in der Sprache, in der der Text im Bild erscheinen soll, und das Modell behandelt diese Schrift als erstklassigen Bürger.
Frühere Bildmodelle wurden faktisch mit der stillen Annahme ausgeliefert, dass Text im Bild auf Englisch sei. Alles andere zerfiel zu vage buchstabenförmigen Strichen. Teams in CJK-Märkten reagierten, indem sie Text-im-Bild-Generierung ganz vermieden, zu Overlay-Workflows zurückkehrten oder für regionale Fine-Tunes bezahlten. All das ist hier nicht nötig.
Wer lokalisierte Inhalte für ostasiatische Märkte liefert — Ladenschilder, Verpackungsgrafiken, Social Posts, Rezeptkarten, Restaurantmenüs — kennt den praktischen Unterschied zwischen „Generat direkt verwenden“ und „Textlayer in Photoshop oder Figma neu bauen“. In einer Pipeline, die pro Woche Dutzende Lokalisierungsvarianten ausgibt, summiert sich diese Zeit schnell auf.
Konsistente Charaktere über separate Durchläufe hinweg
Führe denselben Prompt erneut aus, und die Figur kommt von Generierung zu Generierung erkennbar zurück — gleiche Gesichtsform, gleiches Haar, gleiche Palette, gleiche Kostüm-Details. Über verschiedene Prompts hinweg trägt das Modell das Subjekt aber nicht automatisch weiter: Kopiere den Charakterbeschreibungs-Absatz als Casting-Brief in jeden Szenen-Prompt, und das Modell hält sich daran. Kein eigenes LoRA, kein Fine-Tune, kein Seed-Bild nötig.
Für Storyboards, Markenmaskottchen, Lehrsequenzen, Kinderbuch-Illustrationen, Social-Comic-Serien und jede Erzählarbeit, in der ein Charakter mehr als einmal auftauchen muss, entfernt das den Hin-und-her-Aufwand, ein eigenes Modell oder LoRA nur zu trainieren, um ein Gesicht stabil zu halten. Sie schreiben einmal eine sorgfältige Charakterbeschreibung und verwenden diesen Absatz dann als Charakter-Anker in jedem Szenen-Prompt und überlassen die Konsistenzarbeit dem Modell.
Es gibt Grenzen, die man kennen sollte. Konsistenz ist am stärksten, wenn die Charakterbeschreibung detailliert und konkret ist: spezifische Haarfarbe und -länge, Brille, erkennbare Kleidung, markante Accessoires. Sie ist am schwächsten, wenn der Charakter vage beschrieben wird, wenn die Szene Beleuchtung oder Renderingstil radikal ändert, oder wenn die Charakterhinweise am Ende des Prompts vergraben sind. Behandeln Sie die Beschreibung als Casting-Briefing, nicht als weiche Anregung.
Dichte Kompositionen, die wirklich halten
Die Kombination aus nativem Reasoning und verbessertem Textrendering bedeutet, dass GPT Image 2 Kompositionen handhabt, in denen ältere Systeme leise verfielen: datengetriebene Infografiken mit mehreren beschrifteten Werten, mobile UI-Mockups mit Toolbars, Tabs und Posteingangslisten, mehrelementige Marketingplakate mit Hierarchie, Verpackungsmockups mit mehreren SKUs im selben Frame. Das waren die Kompositionen, die KI-Generierung sich offensichtlich „assistiv“ statt „nutzbar“ anfühlen ließen.
Wo DALL·E 3 oder gpt-image-1 Komplexität in einen vagen Eindruck komprimierten ― „infografikartiges Bild mit zahlartig aussehenden Markierungen“ ― behandelt GPT Image 2 Dichte als Vorgabe und versucht sie einzuhalten. Balken bekommen Beschriftungen. Tabs bekommen Namen. Toolbar-Icons bekommen unterscheidbare Formen. Das Ergebnis ist etwas, worauf ein Designer reagieren und es verfeinern kann, statt etwas, das er wegwerfen und mit manuellem Layout von vorne beginnen muss.
Der ehrliche Vorbehalt ist, dass sehr dichte Layouts ― ganzseitige Magazinaufmacher, komplexe Dashboards mit zwanzig unterschiedlichen Widgets, überfüllte Szenen mit einem Dutzend beschrifteter Requisiten ― weiterhin davon profitieren, das Briefing in kleinere Durchgänge aufzuteilen. Erzeugen Sie das Diagramm, dann den umgebenden Kontext, und komponieren Sie die Schichten in einem Werkzeug, das pixelgenaue Kontrolle bietet. Die Schwelle, an der manuelles Compositing gewinnt, ist deutlich nach oben gerückt, existiert aber am oberen Ende der Komplexität noch.
Kommerzielle Nutzung, mit den üblichen Einschränkungen
Bilder, die Sie mit GPT Image 2 erzeugen, gehören Ihnen zur Nutzung in persönlichen und kommerziellen Projekten, vorbehaltlich der Inhaltsrichtlinie von OpenAI und geltenden Gesetzes. Es gibt keine separate Lizenzstufe, in die Sie upgraden müssten, kein Royalty-Modell, das Sie durchlesen müssten, keine Nutzungsgebühr zusätzlich zu den Generierungskosten. Die Ausgabe gehört Ihnen ab dem Moment, in dem sie in Ihrem Konto landet, und aigazou erhebt keine nachgelagerten Rechte an dem, was Sie produzieren.
Praktischer Umfang: Marketing-Assets, Blog-Illustrationen, Produktmockups, Verpackungskonzepte, Social-Media-Inhalte, In-App-Grafiken, Kursmaterialien, interne Dokumente, Video-Thumbnails, Präsentationsfolien. Wo Sie einen Illustrator engagiert oder Stock gekauft hätten, können Sie stattdessen ein generiertes Bild verwenden, mit derselben Sorgfaltspflicht, die Sie auf jedes visuelle Asset Dritter anwenden würden.
Die üblichen Einschränkungen gelten weiterhin — keine Abbilder realer Personen ohne Zustimmung, keine Verletzung von Marken oder urheberrechtlich geschützten Figuren, keine irreführenden Darstellungen öffentlicher Personen. Behandle OpenAIs Content Policy als Vertrag, und du arbeitest in einer sauberen Lizenz für den alltäglichen kommerziellen Gebrauch.
Pixelgenaue Edits ohne Re-Render
Frühere Modelle behandelten jeden Edit als vollständige Neugenerierung. Ein Wort auf einem Poster ändern, und das ganze Bild wird neu gewürfelt — der Hintergrund verschiebt sich, die Farben driften, die Details, die dir eben noch gefielen, verschwinden. Iteration wurde zum Glücksspiel.
GPT Image 2 unterstützt lokale Edits, die nur die von dir bezeichnete Region betreffen: Headline austauschen, Jacke umfärben, ein falsch gesetztes Balken-Label korrigieren, eine Hand neu zeichnen. Der Rest des Bildes bleibt pixelgenau identisch, sodass Iteration additiv wird — fixiere eine Komposition, die dir gefällt, und korrigiere dann das eine Detail, das nicht stimmt, ohne alles andere mit aufs Spiel zu setzen.
In der Praxis ersetzt das den Photoshop-Umweg für kleine Korrekturen. Zusammen mit dem Reasoning-Schritt wird Bildgenerierung so zu einem Entwurfs- und Revisions-Workflow: Erzeuge ein Layout, mit dem du zufrieden bist, und bearbeite dann die Details an Ort und Stelle, bis sie zum Brief passen — statt in jedem Durchgang das ganze Bild neu zu würfeln.