OpenAI 最新の画像モデル · aigazou で公開中

GPT Image 2:文字がちゃんと読める、指定した所だけ直せる、拡大しても破綻しない

AI 画像生成で長年うまくいかなかった 3 つのこと——ポスターの文字が崩れる、一部を直したいだけなのに全体が描き直される、指が 6 本になる。GPT Image 2 はこの 3 つに真正面から答えます:ラテン文字と東アジア文字で約 99% のレンダリング精度(OpenAI 公式ベンチマーク)、指定した領域だけを書き換えるローカル編集、物理・素材・人体が拡大に耐える世界知識ベースのリアリティ。

GPT Image 2 とは

GPT Image 2 は OpenAI の第 2 世代ネイティブ画像モデルで、2026 年 4 月に gpt-image-1 の後継として公開されました。OpenAI にとって初めて、推論ステップを内蔵した画像モデルです:ピクセルを生成する前に、構図を計画し、各要素の配置を決め、画像内テキストのレイアウトを割り付けます。出力は、自然言語のプロンプトから生成される 1 枚の完成画像——別エディターも、手作業のレイアウトも不要です。aigazou では、GPT Image 2 はトップページの標準生成フローで動作します:モデル ドロップダウンで選び、プロンプトを書き、画像を受け取るだけ。

GPT Image 2 が何のためのモデルかをつかむ一番早い方法は、これまでのモデルが確実に失敗してきた場面を見ることです。読める見出しが入ったポスター、値段と品名のある飲食店メニュー、軸ラベル付きのインフォグラフィック、吹き出しのあるコマ漫画、本物らしい UI コピーが載ったスマホ モックアップ——どれも文字が構図の一部になっている構成です。従来の拡散モデルは文字を崩すか、それっぽいが二度見で破綻するテキストを幻覚していました。鍵は解像度の上積みではなく推論ステップです:モデルは「文字とレイアウト」を、まず計画の問題として、次に描画の問題として扱います。OpenAI によれば、サポート対象の文字体系——中国語(簡体字・繁体字)、日本語、韓国語——にわたって文字精度は約 99%。これらの東アジア文字は前世代では装飾模様扱いでした。文字に加えて、GPT Image 2 は既存画像を細かく修正するピクセル単位の編集、そして物理・素材・人体構造を破綻させない世界知識レベルの写実性ももたらします。

GPT Image 2 は、同じプロンプトから生成された別々のアウトプット間でもキャラクターやスタイルを安定させます——同じ顔立ち、同じ衣装、同じ配色。ただしプロンプトが変わると、モデルは自動で被写体を引き継いではくれません:実務的なパターンは、キャラクター記述を 1 回段落として書き、その段落をすべてのシーン プロンプトにキャスティング ブリーフとしてコピーすることです。この「段落をアンカーにする」ワークフローのおかげで、このモデルは 1 枚では済まない仕事——絵コンテ、連続コマ漫画、ブランド トーンのそろったマーケ素材、キャラクター シート——にもカスタム LoRA を訓練せずに使えます。GPT Image 2 はあらゆる画像に向いているわけではありません——やわらかな水彩アニメ調、整えた自撮り、ステッカー付きのホリデー カードなどは、aigazou の専用ツールの方が速く仕上がります。出力は OpenAI の利用ポリシーに従うかぎり、個人用途にも商用にも使えます。

GPT Image 2 が変えること

これまでの画像モデルが間違えていた 7 つのこと、そしてこのモデルがそれをどう解決するか。

99% の文字レンダリング精度

これまでの画像モデルはポスターは描けても、その上の見出しは描けませんでした。字形は歪み、カーニングは崩れ、ラテン文字以外のグリフは装飾的なノイズになっていました。標準的な回避策は、背景を生成し、きれいな領域をマスクで抜き、文字を手作業で後から差し込むこと ― 生成の体裁をまとった合成でした。

GPT Image 2 はそのギャップを埋めます。OpenAI 自身のベンチマークでは、印刷可能なテキスト — 段落、価格、キャプション、ラベル — に対して文字レンダリング精度は約 99% と報告されています。文字は比率を保ち、語は一貫したベースラインに乗り、短いコピーは「文字に見える近似形」ではなく意図のあるタイポグラフィとして読めます。

実用上の意味は、アートワークと言葉が同じパスから出てくるということです。ポスター、カフェメニュー、アプリ画面、インフォグラフィックを、コピーライターがドラフトを練り直すように反復できます ― プロンプトを変え、再生成し、結果を読みます。

描画前にレイアウトを計画する

GPT Image 2 にはネイティブな推論ステップが組み込まれています。ピクセルが生成される前に、モデルはプロンプトを構造化された計画に分解します。何をどこに置くか、どの要素が前景か、ネガティブスペースをどこに置くか。その計画が確定して初めて、モデルは描き始めます。

この余分なパスがあるからこそ、密度の高い構図がついに破綻せずに保たれます。複数コマの漫画は吹き出しを正しい話者につなぎ続けます。インフォグラフィックは正しいバーにラベルを置きます。UI モックアップはコントロールを認識可能なパターンに群分けし、キャンバス全体に均一に散らしません。

プロンプトの書き方も変わります。これまでのモデルでは、複雑なプロンプトは妥協された画像を生み出しました。GPT Image 2 では長めの仕様書を消化しても一貫したレイアウトを生成できるため、構図全体を 1 つのプロンプトで記述し、各部の計画はモデルに任せられます。

設計から多言語

文字描画の品質は、CJK(中国語簡体字・中国語繁体字・日本語・韓国語)スクリプト全般とラテン文字の言語で安定しています。別モデルへの切り替えも、言語フラグの設定も不要です。画面に出したい言語で直接プロンプトを書けば、その文字体系はファーストクラスとして扱われます。

これまでの画像モデルは、画面内の文字は実質的に英語前提で出荷されてきました。それ以外は「文字っぽい模様」に劣化します。CJK 市場のチームは、画像内テキスト生成そのものを避けるか、オーバーレイ合成ワークフローに頼るか、地域別のファインチューンに投資するかで対応してきました。ここではいずれも不要です。

東アジア市場向けのローカライズ素材を作っている人——店頭サイン、パッケージ、SNS 投稿、レシピカード、飲食店のメニュー——にとって、これは「生成物をそのまま使う」か「Photoshop や Figma で文字レイヤーを作り直す」かの実務差です。週に数十個のローカライズ バリエーションを回すパイプラインでは、時間コストの差が一気に積み上がります。

複数回の生成にわたるキャラクター一貫性

同じプロンプトを再実行すると、キャラクターは何度生成してもそれと分かる姿で戻ってきます — 同じ顔の形、髪、配色、衣装のディテール。ただしプロンプトが変わるとモデルは被写体を自動では引き継ぎません。キャラクター記述の段落をすべてのシーン プロンプトにキャスティング ブリーフとしてコピーしてください。モデルはその段落に忠実に従います。カスタム LoRA もファインチューンも参照画像も要りません。

ストーリーボード、ブランドマスコット、説明シーケンス、絵本イラストなど、キャラクターが複数回登場する必要があるあらゆるナラティブ作業で、これは顔を安定させるためだけにカスタム LoRA を訓練する往復作業を取り除きます。丁寧なキャラクター記述を一度書き、その段落をすべてのシーンプロンプトのキャラクターアンカーとして再利用します。

一貫性は、キャラクター記述が詳細で具体的なときに最も強く出ます。具体的な髪色と長さ、眼鏡、見分けのつく服装、特徴的なアクセサリーです。逆に、キャラクターが曖昧に記述されているときや、シーンが照明やレンダリングスタイルを大きく変えるときに最も弱くなります。記述はキャスティングの指示書として扱ってください。

密度の高い構図でもちゃんと保たれる

ネイティブ推論と改善された文字レンダリングの組み合わせにより、GPT Image 2 はこれまでのシステムが静かに劣化していた構図を扱えます。データドリブンなインフォグラフィック、ツールバー・受信箱リストを含むモバイル UI モックアップ、階層を持つマーケティングポスター、複数 SKU を含むパッケージモックアップなどです。

DALL·E 3 や gpt-image-1 が複雑さを曖昧な印象に圧縮していたところを、GPT Image 2 は密度を仕様として扱います。バーにはラベルが付きます。タブには名前が付きます。ツールバーアイコンには区別できる形が付きます。結果は、デザイナーが反応して洗練できるものです。

非常に密度の高いレイアウト ― 1 ページの雑誌見開き、20 個のウィジェットを持つ複雑なダッシュボード、十数個のラベル付き小道具を持つ雑然としたシーン ― は、依然として仕様を小さなパスに分割するのが効果的です。手作業の合成が勝つ閾値はかなり上に移動しましたが、複雑さの上限ではまだ存在しています。

商用利用、一般的な注意事項あり

GPT Image 2 で生成した画像は、OpenAI のコンテンツポリシーと適用法令の範囲内で、個人および商用プロジェクトに自由にお使いいただけます。アップグレードが必要な別ライセンス層も、ロイヤリティモデルも、生成コストの上に乗る使用料もありません。出力はあなたのアカウントに着いた瞬間からあなたのものです。

実用的な範囲は、マーケティング素材、ブログイラスト、製品モックアップ、パッケージのコンセプト、ソーシャルメディアコンテンツ、アプリ内アートワーク、教材、動画サムネイル、プレゼンスライドです。イラストレーターを雇うか、ストックを買うはずだったところに、生成画像を代わりに使えます。

一般的な注意事項は依然として適用されます — 同意なしに実在人物の肖像を作らない、商標や著作権キャラクターを侵害しない、実在公人を欺瞞的に描かない、などです。OpenAI のコンテンツポリシーを契約として扱えば、日常的な商用利用にとってクリーンなライセンスの中で快適に作業できます。

再レンダリングなしのピクセル単位編集

これまでのモデルは、あらゆる編集を全体再生成として扱っていました。ポスターの 1 単語を変えただけで画像全体がリロールされ、背景が動き、色味がずれ、さっき気に入ったディテールが消えていく。反復はギャンブルでした。

GPT Image 2 は、指定した領域だけに触れる局所編集をサポートします — 見出しを差し替える、ジャケットの色を変える、ラベルの誤りを直す、手を描き直す。それ以外の部分はピクセル単位で同一に保たれるので、反復は「積み上げ」になります。気に入った構図をロックしてから、ズレている 1 点だけを直せる — 毎回画面全体を振り直す必要はありません。

小さな修正については、実務的には Photoshop への往復工程を置き換えます。推論ステップと組み合わせれば、画像生成は「ドラフトしてから直す」ワークフローに近づきます:気に入ったレイアウトを生成し、その場で細部をブリーフに合わせて編集し続けるだけで、毎パス全体を振り直さずに済みます。

aigazou での GPT Image 2 の使い方

GPT Image 2 はホームページの標準生成フロー内にあります。別エディターも、ウェイティングリストも、追加セットアップもありません ― 空のプロンプトから完成画像まで 3 ステップです。

  1. GPT Image 2 を選択済みでホームページを開く

    下のリンクを使えば、ホームページのモデルピッカーが GPT Image 2 にすでにセットされています。別の入口から来た場合は、モデルプルダウンから手動で選ぶこともできます。

    ホームページを開く
  2. 明確で宣言的なプロンプトを書く

    短く具体的な方が、長く装飾的なものよりよく効きます。被写体、スタイル、画像内に出したいテキスト(引用符で囲む)を指定します。テキストの多いプロンプトでは、画像内テキストを句読点と大文字小文字を含めてレンダリングしたい通りに正確に書き出します。モデルは引用文字列をリテラルなコピーとして扱います。

  3. 生成して洗練する

    全体のレイアウトが違ったら、プロンプトを書き直して再生成してください — 推論ステップは明確なブリーフがあるときに一番効きます。小さな修正(1 語のスペル、1 カ所の色、1 要素だけの間違い)には、画像全体を振り直す代わりに結果に対してピクセル単位の編集を使ってください。

サンプル出力

GPT Image 2 で実行した 6 つのプロンプト、無修正です。各画像の下のテキストが、それを生成した正確なプロンプトです。

GPT Image 2 が生成した、タイトル『Midnight in Tokyo』入りのサンプル映画ポスター

映画ポスター、組まれたタイポグラフィ

A vertical movie poster for a Tokyo neo-noir film. Title 'MIDNIGHT IN TOKYO' set large in modern serif at the top. Subtitle 'A film by Yuki Tanaka' beneath. Bottom strip reads 'IN THEATERS · APRIL 2026'. Cool blue night palette.

見出し、サブヘッド、メタデータ行のすべてが初回で読みやすく出ます ― 文字レンダリングのベンチマークの最も直接的な形です。

GPT Image 2 が生成したカフェメニューの例。日本語と韓国語の品名と価格が読める

日本語と韓国語のバイリンガル カフェメニュー

日本語と韓国語で記されたカフェのメニュー。ヘッダーは 'メニュー / 메뉴'。メニュー 2 行:'抹茶ラテ · ¥580' と '아메리카노 · ₩4,500'。クリーム色の背景、手描き風の枠線。

同じ画面に東アジアの 2 つの文字体系が並び、どちらも装飾的な形に崩れることなく明瞭に描画されます。

GPT Image 2 が生成した、ラベル付き四半期成長バーのサンプルインフォグラフィック

四半期成長インフォグラフィック

A clean infographic titled '2026 Q1 Growth'. Three horizontal bars labeled 'JAN +12%', 'FEB +24%', 'MAR +38%'. Off-white background, single blue accent. Helvetica-style sans-serif.

ネイティブ推論が各ラベルを正しいバーに保ちます ― これは従来 AI 生成インフォグラフィックを台無しにしていた失敗モードです。

GPT Image 2 が生成した、キャラクターと台詞が一貫したサンプル 2 コマ漫画

2 コマのオフィスシーン

A two-panel comic strip. Panel 1: a tired office worker at a desk, speech bubble reading 'Did you finish the report?'. Panel 2: same character, slightly slumped, bubble reading '...Almost.' Black-and-white ink style.

同じキャラクターが両コマにまたがって保持され、各吹き出しが正しい話者につながります。

GPT Image 2 が生成した、現実的なインターフェース文言入りのサンプルモバイル UI モックアップ

モバイルメールアプリのモックアップ

A realistic mobile UI mockup of a mail app inbox. Status bar reads '9:41' and '100%'. Title 'Inbox'. Two list rows: 'Sarah Chen · 2m', 'Design Review · 14m'. Bottom tab bar: 'Mail · Calendar · Settings'.

装飾的な意味不明文字ではなく、現実的なインターフェース文言です ― AI モックアップと使えるデザイン参照の差です。

GPT Image 2 が別々の生成にわたって同じキャラクターを保持した 3 枚のサンプル画像

同じキャラクター、3 つのシーン

Three separate runs of the same character: a young illustrator with short black hair, round glasses, and a forest-green sweater. Run 1 in a quiet bookshop. Run 2 on a city rooftop at dusk. Run 3 in a sunny park with a sketchbook.

同じキャラクター記述段落を共有する 3 つの異なるプロンプトを、それぞれ 1 回ずつ実行した結果です。モデルはその段落をキャスティング ブリーフとして扱うので、シーンが変わっても人物は認識可能なまま保たれます。

本番レンダリングへの差し替えを順次進行中です。いまは上のパネルは各プロンプトの意図を示すモックで、最終的なピクセルではありません。実際の結果はプロンプトの詳細度とモデルの現時点の能力で変動します。

GPT Image 2 の位置づけ

GPT Image 2 が Midjourney v7、自身の前世代モデル、DALL·E 3 の中でどこに位置するか。

能力GPT Image 2Midjourney v7gpt-image-1DALL·E 3
画像内の文字レンダリングサポート対象スクリプトで約 99% の精度v6 より改善したが、長文や構造化レイアウトではまだ不安定短いラテン文字列ではしばしば判読可能、長文では信頼性が下がる頻繁に崩れる、特に長文や非ラテン文字スクリプトで
非ラテン文字のサポート(CJK)中国語・日本語・韓国語で安定限定的、CJK テキストは装飾的な形に劣化しやすい限定的、非ラテングリフが頻繁に崩れる限定的、文字としてではなく装飾形として扱われることが多い
描画前のレイアウト推論ネイティブ ― 最初のピクセル前に構図を計画明示的な計画ステップなし、強いスタイル プライア明示的な計画ステップなし明示的な計画ステップなし
別々の生成にわたるキャラクター一貫性同じプロンプトからの複数回の生成で安定Character Reference で複数回の生成にわたって似姿を保てるが、参照画像が必要弱い ― 各生成が被写体を独立に解釈弱い ― 各生成が被写体を独立に解釈
向いている用途画像内テキストや構造が重要なポスター、メニュー、インフォグラフィック、UI モックアップ、漫画スタイル重視でムードのあるイラストレーションやアート ディレクション、画像内の文字は二の次テキスト精度が優先でない汎用イラスト汎用的なアーティスティックイラスト、テキスト精度よりスタイルの柔軟性

真価を発揮する場面

GPT Image 2 の特定の強み ― テキスト、計画、多言語 ― が、プロンプトから可能なことを変える 6 つの場所。

組まれたタイポグラフィのマーケティングポスター

プロダクトローンチ、イベントフライヤー、求人広告。見出し、サブヘッド、メタデータ行のすべてが初回で読めるように出力されるため、デザインチームはコピーライターがドラフトを練り直すようにプロンプトを反復できます ― 合成工程は不要です。

A recruitment poster for a design studio. Headline 'WE'RE HIRING' in heavy black sans-serif at the top. Three role names below in lighter weight: 'Senior Designer', 'Product Manager', 'Brand Strategist'. Footer strip: 'APPLY BY MAY 15 · [email protected]'. Paper-grain off-white background.
A festival poster for a summer jazz event. Headline 'BLUE NOTE FEST 2026' in heavy condensed sans. Three artist names below in smaller weight. Warm amber and ink palette.

プロダクトモックアップとパッケージ

コーヒー袋、化粧品チューブ、デバイス上のアプリアイコン、飲料缶。同じシーン内の複数 SKU にわたってブランド名を保持でき、意味不明な字形に崩れません ― これは従来 AI 生成パッケージを台無しにしていた失敗モードです。

Three coffee bags side by side on a marble counter. Each labeled 'AOI', 'KAEDE', 'YUKI'. Minimalist matte packaging in cream, sage, and slate. Studio lighting.
A skincare bottle on a bathroom shelf. Label reads 'ATELIER NO. 4 · Hydrating Serum · 30ml'. Soft natural light from the left.

テキスト入り画像コンテンツ

ソーシャルメディアグラフィック、引用カード、歌詞タイポグラフィ、モチベーションポスター、ミームテンプレート。メッセージそのものがアートワークになる場面です。これは新しい文字レンダリングが解き放つ典型的な用途で、より弱いモデルには真似できません。

A square Instagram quote card. Centered text in elegant script: 'The best time to plant a tree was twenty years ago. The second best time is now.' Soft sage background, off-white border.
A vertical lyric card. Text reads '夜の街は静かに歌う' in vertical Japanese typesetting on the right side. Ink-wash background, restrained palette.

インフォグラフィックとデータビジュアル

数値ハイライト、ビフォー / アフター比較、シンプルな棒グラフ、プロセス図。推論ステップがラベルを正しいバーにつなぎ、見出しを正しい階層に置くため、AI インフォグラフィックの定番のバレ ― 数字の置き間違い ― を取り除きます。

A single-page onboarding flow titled 'From sign-up to first image'. Four labeled boxes connected by arrows: '1. Sign in', '2. Pick a model', '3. Write a prompt', '4. Generate'. Muted grey connectors, one warm accent on the final box.
A two-column comparison graphic titled 'Before vs After'. Left column header 'Before', right column header 'After'. Three bullet rows of short labels under each.

漫画コマとストーリーボード

2 コマ・3 コマのシーン、ストーリーボードフレーム、漫画調シーケンス。ネイティブ推論が同じキャラクターをコマにわたって保ち、吹き出しを正しい話者につなぐため、これまで AI 漫画を成立させていなかった 2 つの失敗モードを解決します。

A two-panel comic strip. Panel 1: a tired office worker at a desk, speech bubble reading 'Did you finish the report?'. Panel 2: same character, slightly slumped, bubble reading '...Almost.' Black-and-white ink style.
A three-panel storyboard for a coffee commercial. Panel 1: hand pouring espresso into a cup. Panel 2: cup steaming on a wooden table. Panel 3: silhouette of a person taking a sip. Cinematic lighting, no dialogue.

多言語レイアウト

二言語サイン、二言語パッケージ、多言語 UI モックアップ、翻訳マーケティング素材。モデルは同じ構図に 2 つのスクリプトを保持し、片方が装飾形に劣化しません ― だからこそこのセクションが独立した一カテゴリーとして成立します。

A bilingual coffee shop receipt in Japanese and English. Header 'TOKYO ROASTERS'. Line items: 'ドリップコーヒー / Drip Coffee · ¥550', 'クロワッサン / Croissant · ¥380'. Footer: 'ありがとうございました · Thank you'. Cream paper with a faint grid.
A bilingual storefront sign. Left side reads 'TOKYO BAGEL' in English. Right side reads '東京ベーグル' in Japanese, same weight and visual size. Wooden plank background.

よくある質問

GPT Image 2 とは?

GPT Image 2 は OpenAI の最新画像生成モデルです。前モデルに対して、画像内の文字を読める形で描画する、既存画像をピクセル単位で編集する、物理・素材・人体構造にわたる世界知識レベルの写実性を実現する、の 3 点で進化しています。ここでは Credits 制のオンライン ジェネレーターとして提供しています。

GPT Image 2 は無料で使えますか?

1 回の生成は 8 Credits です。モデルを解錠するための別サブスクリプションはありません — いつでもアカウントからチャージできます。

GPT Image 2 と gpt-image-1 や DALL·E 3 はどう違いますか?

GPT Image 2 は描画前にレイアウトを計画するため、情報量の多い構図やインフォグラフィックがきれいにまとまります。画像内の文字——特に CJK スクリプト——は前モデルよりもはっきり描画され、既存画像に対しては画像全体を再レンダリングせずにピクセル単位の編集も行えます。

生成した画像を商用利用できますか?

はい。生成した画像は OpenAI のコンテンツポリシーと適用法令の範囲内で、個人および商用プロジェクトに自由にお使いいただけます。当方は出力に対する権利を主張しません。

GPT Image 2 は画像内でどの言語をきれいに描けますか?

中国語(簡体字・繁体字)、日本語、韓国語、そしてラテン文字の言語はいずれもきれいに描画されます。どの言語でも、長い段落には短く断定的なプロンプトの方が向いています。

今日 GPT Image 2 を試す

下のリンクを開くとホームページはすでに GPT Image 2 が選択された状態で、次のクリックは最初のプロンプトを書くことです。