99% の文字レンダリング精度
これまでの画像モデルはポスターは描けても、その上の見出しは描けませんでした。字形は歪み、カーニングは崩れ、ラテン文字以外のグリフは装飾的なノイズになっていました。標準的な回避策は、背景を生成し、きれいな領域をマスクで抜き、文字を手作業で後から差し込むこと ― 生成の体裁をまとった合成でした。
GPT Image 2 はそのギャップを埋めます。OpenAI 自身のベンチマークでは、印刷可能なテキスト — 段落、価格、キャプション、ラベル — に対して文字レンダリング精度は約 99% と報告されています。文字は比率を保ち、語は一貫したベースラインに乗り、短いコピーは「文字に見える近似形」ではなく意図のあるタイポグラフィとして読めます。
実用上の意味は、アートワークと言葉が同じパスから出てくるということです。ポスター、カフェメニュー、アプリ画面、インフォグラフィックを、コピーライターがドラフトを練り直すように反復できます ― プロンプトを変え、再生成し、結果を読みます。
描画前にレイアウトを計画する
GPT Image 2 にはネイティブな推論ステップが組み込まれています。ピクセルが生成される前に、モデルはプロンプトを構造化された計画に分解します。何をどこに置くか、どの要素が前景か、ネガティブスペースをどこに置くか。その計画が確定して初めて、モデルは描き始めます。
この余分なパスがあるからこそ、密度の高い構図がついに破綻せずに保たれます。複数コマの漫画は吹き出しを正しい話者につなぎ続けます。インフォグラフィックは正しいバーにラベルを置きます。UI モックアップはコントロールを認識可能なパターンに群分けし、キャンバス全体に均一に散らしません。
プロンプトの書き方も変わります。これまでのモデルでは、複雑なプロンプトは妥協された画像を生み出しました。GPT Image 2 では長めの仕様書を消化しても一貫したレイアウトを生成できるため、構図全体を 1 つのプロンプトで記述し、各部の計画はモデルに任せられます。
設計から多言語
文字描画の品質は、CJK(中国語簡体字・中国語繁体字・日本語・韓国語)スクリプト全般とラテン文字の言語で安定しています。別モデルへの切り替えも、言語フラグの設定も不要です。画面に出したい言語で直接プロンプトを書けば、その文字体系はファーストクラスとして扱われます。
これまでの画像モデルは、画面内の文字は実質的に英語前提で出荷されてきました。それ以外は「文字っぽい模様」に劣化します。CJK 市場のチームは、画像内テキスト生成そのものを避けるか、オーバーレイ合成ワークフローに頼るか、地域別のファインチューンに投資するかで対応してきました。ここではいずれも不要です。
東アジア市場向けのローカライズ素材を作っている人——店頭サイン、パッケージ、SNS 投稿、レシピカード、飲食店のメニュー——にとって、これは「生成物をそのまま使う」か「Photoshop や Figma で文字レイヤーを作り直す」かの実務差です。週に数十個のローカライズ バリエーションを回すパイプラインでは、時間コストの差が一気に積み上がります。
複数回の生成にわたるキャラクター一貫性
同じプロンプトを再実行すると、キャラクターは何度生成してもそれと分かる姿で戻ってきます — 同じ顔の形、髪、配色、衣装のディテール。ただしプロンプトが変わるとモデルは被写体を自動では引き継ぎません。キャラクター記述の段落をすべてのシーン プロンプトにキャスティング ブリーフとしてコピーしてください。モデルはその段落に忠実に従います。カスタム LoRA もファインチューンも参照画像も要りません。
ストーリーボード、ブランドマスコット、説明シーケンス、絵本イラストなど、キャラクターが複数回登場する必要があるあらゆるナラティブ作業で、これは顔を安定させるためだけにカスタム LoRA を訓練する往復作業を取り除きます。丁寧なキャラクター記述を一度書き、その段落をすべてのシーンプロンプトのキャラクターアンカーとして再利用します。
一貫性は、キャラクター記述が詳細で具体的なときに最も強く出ます。具体的な髪色と長さ、眼鏡、見分けのつく服装、特徴的なアクセサリーです。逆に、キャラクターが曖昧に記述されているときや、シーンが照明やレンダリングスタイルを大きく変えるときに最も弱くなります。記述はキャスティングの指示書として扱ってください。
密度の高い構図でもちゃんと保たれる
ネイティブ推論と改善された文字レンダリングの組み合わせにより、GPT Image 2 はこれまでのシステムが静かに劣化していた構図を扱えます。データドリブンなインフォグラフィック、ツールバー・受信箱リストを含むモバイル UI モックアップ、階層を持つマーケティングポスター、複数 SKU を含むパッケージモックアップなどです。
DALL·E 3 や gpt-image-1 が複雑さを曖昧な印象に圧縮していたところを、GPT Image 2 は密度を仕様として扱います。バーにはラベルが付きます。タブには名前が付きます。ツールバーアイコンには区別できる形が付きます。結果は、デザイナーが反応して洗練できるものです。
非常に密度の高いレイアウト ― 1 ページの雑誌見開き、20 個のウィジェットを持つ複雑なダッシュボード、十数個のラベル付き小道具を持つ雑然としたシーン ― は、依然として仕様を小さなパスに分割するのが効果的です。手作業の合成が勝つ閾値はかなり上に移動しましたが、複雑さの上限ではまだ存在しています。
商用利用、一般的な注意事項あり
GPT Image 2 で生成した画像は、OpenAI のコンテンツポリシーと適用法令の範囲内で、個人および商用プロジェクトに自由にお使いいただけます。アップグレードが必要な別ライセンス層も、ロイヤリティモデルも、生成コストの上に乗る使用料もありません。出力はあなたのアカウントに着いた瞬間からあなたのものです。
実用的な範囲は、マーケティング素材、ブログイラスト、製品モックアップ、パッケージのコンセプト、ソーシャルメディアコンテンツ、アプリ内アートワーク、教材、動画サムネイル、プレゼンスライドです。イラストレーターを雇うか、ストックを買うはずだったところに、生成画像を代わりに使えます。
一般的な注意事項は依然として適用されます — 同意なしに実在人物の肖像を作らない、商標や著作権キャラクターを侵害しない、実在公人を欺瞞的に描かない、などです。OpenAI のコンテンツポリシーを契約として扱えば、日常的な商用利用にとってクリーンなライセンスの中で快適に作業できます。
再レンダリングなしのピクセル単位編集
これまでのモデルは、あらゆる編集を全体再生成として扱っていました。ポスターの 1 単語を変えただけで画像全体がリロールされ、背景が動き、色味がずれ、さっき気に入ったディテールが消えていく。反復はギャンブルでした。
GPT Image 2 は、指定した領域だけに触れる局所編集をサポートします — 見出しを差し替える、ジャケットの色を変える、ラベルの誤りを直す、手を描き直す。それ以外の部分はピクセル単位で同一に保たれるので、反復は「積み上げ」になります。気に入った構図をロックしてから、ズレている 1 点だけを直せる — 毎回画面全体を振り直す必要はありません。
小さな修正については、実務的には Photoshop への往復工程を置き換えます。推論ステップと組み合わせれば、画像生成は「ドラフトしてから直す」ワークフローに近づきます:気に入ったレイアウトを生成し、その場で細部をブリーフに合わせて編集し続けるだけで、毎パス全体を振り直さずに済みます。