OpenAI 最新圖像模型 · 現已上線 aigazou

GPT Image 2:文字真的對、改圖只改一塊、細節經得起放大

過去 AI 出圖總卡在三件事:海報上的字糊成亂碼、想改一小塊得重畫整張、人手多一根少一根。GPT Image 2 把這三件都認真解了——中英日文渲染準確率約 99%(OpenAI 官方基準)、支援只改你指定區域的局部編輯、憑世界知識讓物理和人體細節經得起放大。

什麼是 GPT Image 2

GPT Image 2 是 OpenAI 的第二代原生圖像模型,於 2026 年 4 月作為 gpt-image-1 的繼任者發布。它是 OpenAI 首個內建推理步驟的圖像模型:在生成任何像素前,模型會先規劃構圖、決定每個元素的位置、安排畫面文字的排版。輸出是一張從自然語言 prompt 生成的完整渲染圖像——不需要另開編輯器,也不需要手動排版。在 aigazou 上,GPT Image 2 走的是首頁的標準生成流程:在模型下拉中選它、寫 prompt、取得圖像。

要理解 GPT Image 2 的用途,最直接的方式是看過去的模型穩定失敗的場景。有可辨識標語的海報、列出價格與菜名的菜單、帶座標軸標籤的資訊圖、帶對話泡泡的漫畫分鏡、含真實 UI 文案的手機畫面——這些畫面都把文字當作構圖的一部分。過去的擴散模型要麼把字弄成亂碼,要麼幻覺出看似合理、再看一眼就崩壞的文本。解決的關鍵不是更高解析度,而是推理步驟:模型先把「文字與版面」當作規劃問題,再當作渲染問題。OpenAI 聲稱模型在所支援的文字體系上的文字準確率約為 99%,包含中文(簡體與繁體)、日文與韓文——這些東亞文字在前代模型中常被當成裝飾圖形。除了文字以外,GPT Image 2 還帶來像素級編輯,便於對既有圖像做精細修飾,以及讓物理、材質與人體結構更可信的「世界知識級真實感」。

GPT Image 2 還能在同一個 prompt 的多次獨立生成之間保持角色與風格穩定——同一張臉型、同一套服裝、同一組配色。不過若換了 prompt,模型不會自動把人物延續過去:實務做法是把角色描述寫成一個段落,然後把這段複製進每一條場景 prompt 裡當作選角簡報(casting brief)。正是這種「段落當錨點」的工作方式,讓這個模型能勝任那些不只一張圖的工作——分鏡、連續漫畫分格、品牌調性一致的行銷素材、角色設定表——而不需要自訓 LoRA。GPT Image 2 並不適合所有圖像——柔和的水彩動漫風、精緻的自拍、加貼紙的節日卡,用 aigazou 上的其他專用工具會更快。輸出可用於個人與商業專案,須遵守 OpenAI 的內容政策。

GPT Image 2 改變了什麼

舊圖像模型做錯的七件事,以及這一代如何修正。

99% 的文字渲染準確率

以前的圖像模型能畫出海報,但畫不出海報上的標題。字形扭曲、字距塌陷、行排走樣,任何拉丁字母以外的字符都變成裝飾性雜訊。標準的繞路做法是:用一種工具生成背景,遮罩出乾淨區域,再手動把文字補回去。能用,但那不是生成,是披著生成外衣的合成。

GPT Image 2 把這道落差補上。根據 OpenAI 自家基準,在可列印文本上——包含段落、價格、說明與標籤——文字渲染準確率約為 99%。字母保持比例、字詞穩坐一致的基線,短句讀起來是真正的排版,而不是近似的字形輪廓。

實際意義是:圖像和文字從同一道流程出來。你可以像文案撰稿人改稿那樣反覆迭代電影海報、咖啡店菜單、App 介面、資訊圖 —— 改 prompt、重新生成、閱讀結果。文字現在是圖像的一部分,不再是事後疊加的圖層。

先規劃版式再繪製

GPT Image 2 自帶原生推理步驟。在任何像素生成之前,模型會把 prompt 拆成結構化計畫:什麼放在哪裡、哪些是前景元素、分鏡之間如何關聯、負空間放在哪裡。計畫落定之後,模型才開始把像素畫進去。推理過程對你不可見,但它承擔了以前的模型試圖在像素層偽裝的大部分結構性工作。

這一步額外推理,正是密集構圖終於能撐住的原因。多分鏡漫畫把對白氣泡正確連到對應角色。資訊圖把標籤放到正確的柱子上、把標題放在正確的層級。UI 草稿把控件分組成可識別的模式,而不是把按鈕和標籤均勻撒在畫布上。輸出讀起來像設計師認真想過的,而不是模型平均拼出來的。

這也改變了寫 prompt 的方式。在以前的模型裡,複雜 prompt 產生妥協的圖像,所以工作方式是把 prompt 寫窄、靠多次生成堆出複雜度。而 GPT Image 2 能消化一段較長的描述並仍生成連貫版式,因此你可以用一條 prompt 描述整張構圖,把分件規劃交給模型。

天生多語言

文字渲染品質在 CJK(中文繁體、中文簡體、日文、韓文)與拉丁字母語言上皆穩定。不必切換模型,也不必設語言旗標。用你希望畫面中出現的那種語言直接寫 prompt,模型會把該書寫系統視為一等公民。

過去的圖像模型等於預設畫面裡的文字就是英文,其他語言一旦出現就會退化成大致接近字母形狀的筆畫。CJK 市場的團隊要麼直接放棄在圖中生成文字,要麼改採疊加文字層的工作流,要麼出錢做區域專用微調。在這裡都不再需要。

如果你為東亞市場產出本地化內容——店招、包裝視覺、社群貼文、食譜卡、餐廳菜單——這就是「直接採用生成結果」與「在 Photoshop 或 Figma 裡重做文字層」之間的實際差距。一條每週要產出數十個本地化版本的流水線,省下的工時會迅速累積。

跨多次生成的角色一致性

用同一個 prompt 重新生成,人物會一次又一次以可辨識的樣子回來——同樣的臉型、同樣的髮型、同樣的配色、同樣的服裝細節。但若換了 prompt,模型不會自動把人物延續下去:把角色描述段落複製到每個場景 prompt 裡,當作選角簡報用,模型就會嚴格照著它做。不需要自訓 LoRA,不需要微調,也不需要參考圖。

對故事板、品牌吉祥物、教學序列、繪本插圖、社群漫畫系列以及任何角色需要多次出現的敘事工作,這去掉了「為了讓一張臉穩定而專門訓練自訂模型或 LoRA」的來回。你只寫一遍詳細的角色描述,然後把那段描述作為角色錨點在每個場景 prompt 裡複用,由模型來負責一致性。

也有值得知道的限制。一致性在角色描述詳細而具體時最強:明確的髮色與髮長、眼鏡、可識別的服裝、有特徵的配飾。在角色描述含糊、場景把燈光或渲染風格大幅改變、或者把角色線索藏在 prompt 末尾時,一致性最弱。把角色描述當作選角說明書來寫,而不是模糊建議。

資訊密集的版面也能真正撐得住

原生推理與改進的文字渲染相結合,意味著 GPT Image 2 能處理以前的系統會悄悄退化的構圖:含多組帶標籤數值的資料驅動資訊圖、含工具列 / 標籤 / 收件匣列表的行動端 UI 草稿、有層級的多元素行銷海報、同一畫面裡多個 SKU 的包裝草稿。這些正是讓 AI 生成感覺「明顯只是輔助」而非「真能用」的構圖。

在 DALL·E 3 或 gpt-image-1 會把複雜度壓縮成模糊印象 ——「帶數字狀標記的資訊圖風格圖」—— 的地方,GPT Image 2 把密度當作要求來對待,並嘗試遵守它。柱子帶標籤、標籤頁有名稱、工具列圖示有可分辨的形狀。結果是設計師可以在此基礎上反應、修改的素材,而不是只能扔掉重新手動排版。

誠實的提醒是:極高密度的版式 —— 整頁雜誌跨頁、帶二十個獨立 widget 的複雜儀表板、十幾個帶標籤道具的雜亂場景 —— 仍然受益於把任務拆成更小的幾步。先生成圖表,再生成周邊上下文,最後用支援像素級控制的工具合成圖層。「手動合成更划算」的臨界點已經顯著上移,但在複雜度的高端仍然存在。

可商用,附上常見的注意事項

用 GPT Image 2 生成的圖像歸你所有,可用於個人與商業專案,遵循 OpenAI 內容政策與適用法律。沒有需要升級的另一檔授權、沒有需要查閱的版稅模型、沒有疊加在生成成本之上的使用費。輸出從落到你的帳號那一刻起就是你的,aigazou 不主張對你產出物的下游權利。

實際涵蓋範圍:行銷素材、部落格插圖、產品草稿、包裝概念、社群內容、應用內素材、課件、內部文件、影片縮圖、簡報幻燈片。任何原本會請插畫師或買素材庫的場景,都可以改用生成圖像,並按對待第三方視覺素材同樣的盡職調查標準處理。

常見的注意事項仍然適用——未經同意不得使用真人肖像、不得侵犯商標或受著作權保護的角色、不得用於對公眾人物的欺瞞性圖像。把 OpenAI 的內容政策當作合約看待,你就是在一個乾淨、可日常商用的授權框架內工作。

像素級編輯,不需整圖重渲染

過去的模型把每次編輯都當成整張重新生成。海報上改一個字,整張圖就被重新擲骰——背景飄了、顏色偏了,你剛才還滿意的細節也一併不見。迭代變成了賭博。

GPT Image 2 支援只作用在指定區域的局部編輯:替換標題、重新上色、修正一個標錯的長條圖標籤、重畫一隻手。畫面其他部分在像素級別維持不變,迭代因此是累加式的——鎖定你滿意的構圖之後,只修掉那一處不對勁的細節,不必把其他東西一起重新冒險。

在實務上,這取代了為了小改動而往 Photoshop 來回跑的流程。與推理步驟結合起來,圖像生成就更接近「起草、修訂」的工作流:先生出你滿意的版面,接著就地改細節直到對齊 brief,不必每一輪都把整張圖從頭擲一次。

在 aigazou 使用 GPT Image 2

GPT Image 2 在首頁的標準生成流程裡。沒有獨立編輯器、沒有等待名單、沒有額外設定 —— 從空白 prompt 到完成圖像 3 步搞定。

  1. 打開已預選 GPT Image 2 的首頁

    點擊下方連結,首頁的模型選擇器就已經設為 GPT Image 2。如果你從其他入口進來,也可以從模型下拉選單手動選它。

    打開首頁
  2. 寫一條清晰、陳述式的 prompt

    短而具體的寫法比長而裝飾性的更好用。寫明主體、風格、以及希望出現在圖內的文字(用引號包起來)。文字密集的 prompt 裡,把圖內文字按你希望渲染出來的樣子原樣寫出,包括標點和大小寫。模型把引號內字串當作字面文案處理。

  3. 生成並迭代

    如果整體版面不對,就改寫 prompt 再生成——推理步驟在拿到清楚 brief 的情況下表現最好。若只是小修(一個拼錯的字、一處顏色、單一元素),就對結果使用像素級編輯,不要整張重擲。

樣例輸出

用 GPT Image 2 跑過的 6 條 prompt,未做任何後期。每張圖下方的文字就是產出它的完整 prompt。

GPT Image 2 生成的電影海報樣例,標題為 Midnight in Tokyo

電影海報,編排好的字體

A vertical movie poster for a Tokyo neo-noir film. Title 'MIDNIGHT IN TOKYO' set large in modern serif at the top. Subtitle 'A film by Yuki Tanaka' beneath. Bottom strip reads 'IN THEATERS · APRIL 2026'. Cool blue night palette.

標題、副標題、metadata 行第一次就出可讀,是文字渲染基準最直接的形式。

GPT Image 2 生成的咖啡菜單範例,日文與韓文的菜名與價格都清晰可讀

日文與韓文雙語咖啡菜單

以日文與韓文呈現的咖啡菜單。頁首寫著 'メニュー / 메뉴'。兩行菜單:'抹茶ラテ · ¥580' 與 '아메리카노 · ₩4,500'。奶白色背景,手繪風格邊框。

同一畫面中的兩種東亞文字都被清晰渲染,沒有退化成裝飾性筆畫。

GPT Image 2 生成的資訊圖樣例,展示帶標籤的季度成長柱狀圖

季度成長資訊圖

A clean infographic titled '2026 Q1 Growth'. Three horizontal bars labeled 'JAN +12%', 'FEB +24%', 'MAR +38%'. Off-white background, single blue accent. Helvetica-style sans-serif.

原生推理把每個標籤留在正確的柱子上 —— 這是過去 AI 資訊圖最容易翻車的失敗模式。

GPT Image 2 生成的兩格漫畫樣例,角色與對白保持一致

兩格辦公場景

A two-panel comic strip. Panel 1: a tired office worker at a desk, speech bubble reading 'Did you finish the report?'. Panel 2: same character, slightly slumped, bubble reading '...Almost.' Black-and-white ink style.

同一角色跨兩格保持一致,每個對白氣泡都連到正確的說話者。

GPT Image 2 生成的行動端 UI 草稿樣例,含真實介面文案

行動端郵件 App 草稿

A realistic mobile UI mockup of a mail app inbox. Status bar reads '9:41' and '100%'. Title 'Inbox'. Two list rows: 'Sarah Chen · 2m', 'Design Review · 14m'. Bottom tab bar: 'Mail · Calendar · Settings'.

真實的介面文案,不是裝飾性亂碼 —— 這就是 AI 草稿與可用設計參考之間的差別。

GPT Image 2 在多次獨立生成中保持同一角色的三張樣例圖像

同一角色,三個場景

Three separate runs of the same character: a young illustrator with short black hair, round glasses, and a forest-green sweater. Run 1 in a quiet bookshop. Run 2 on a city rooftop at dusk. Run 3 in a sunny park with a sketchbook.

三個不同 prompt 各跑一次的結果,彼此共用同一段角色描述。模型把這段描述當作選角簡報(casting brief),所以場景改變時人物仍然可辨識。

真實渲染圖正陸續替換——目前上方面板只是展示每個 prompt 的意圖,並非最終像素。你自己的實際效果會隨 prompt 細節與模型當前能力而變化。

GPT Image 2 的位置

GPT Image 2 在 Midjourney v7、自家前代模型與 DALL·E 3 之間,位於哪個位置。

能力GPT Image 2Midjourney v7gpt-image-1DALL·E 3
圖內文字渲染在支援的文字系統上約 99% 準確率比 v6 有改進,但在長文本與結構化版面上仍不穩定短拉丁字串通常可讀,長文案可靠性下降經常出錯,長文案與非拉丁文字尤其嚴重
非拉丁文字支援(CJK)在中文、日文與韓文中表現穩定有限,CJK 文字容易退化成裝飾圖形有限,非拉丁字形頻繁崩壞有限,更多被當作裝飾圖形而不是文字處理
繪製前的版式推理原生 —— 在第一顆像素之前規劃構圖沒有顯式的規劃步驟;有強烈的風格偏好無明確規劃步驟無明確規劃步驟
多次獨立生成中的角色一致性同一 prompt 多次生成之間保持穩定Character Reference 可以在多次生成間保持相似度,但需要參考圖弱 —— 每次生成都獨立詮釋主體弱 —— 每次生成都獨立詮釋主體
適合做什麼圖內文字與結構很重要的海報、菜單、資訊圖、UI 草稿和漫畫風格化、帶情緒的插畫與藝術指導,畫面上的文字並非重點對文字準確度不優先的通用插畫通用藝術插畫;風格靈活性優先於文字準確度

真正能發揮的場景

GPT Image 2 的具體優勢 —— 文字、規劃、多語言 —— 改變了一條 prompt 能做到什麼的 6 個場景。

排版編排好的行銷海報

新品上市、活動宣傳、招聘廣告。標題、副標題、metadata 行第一次就出可讀,設計團隊可以像文案撰稿人改稿那樣反覆迭代 prompt —— 不再需要事後合成步驟。

A recruitment poster for a design studio. Headline 'WE'RE HIRING' in heavy black sans-serif at the top. Three role names below in lighter weight: 'Senior Designer', 'Product Manager', 'Brand Strategist'. Footer strip: 'APPLY BY MAY 15 · [email protected]'. Paper-grain off-white background.
A festival poster for a summer jazz event. Headline 'BLUE NOTE FEST 2026' in heavy condensed sans. Three artist names below in smaller weight. Warm amber and ink palette.

產品草稿和包裝

咖啡袋、化妝品瓶、裝置上的 App 圖示、飲料罐。模型能在同一畫面的多個 SKU 之間維持品牌名不糊成亂字 —— 這是過去 AI 包裝容易翻車的失敗模式。

Three coffee bags side by side on a marble counter. Each labeled 'AOI', 'KAEDE', 'YUKI'. Minimalist matte packaging in cream, sage, and slate. Studio lighting.
A skincare bottle on a bathroom shelf. Label reads 'ATELIER NO. 4 · Hydrating Serum · 30ml'. Soft natural light from the left.

圖內文字內容

社群圖、引用卡、歌詞排版、勵志海報、迷因模板。任何「資訊本身就是作品」的場景。這是新一代文字渲染解鎖的典型用法,弱模型仿不出來。

A square Instagram quote card. Centered text in elegant script: 'The best time to plant a tree was twenty years ago. The second best time is now.' Soft sage background, off-white border.
A vertical lyric card. Text reads '夜の街は静かに歌う' in vertical Japanese typesetting on the right side. Ink-wash background, restrained palette.

資訊圖和資料視覺化

數字高亮、對比圖、簡單長條圖、流程圖。推理步驟把標籤連到正確的柱子、把標題放在正確的層級,去掉了 AI 資訊圖的經典破綻 —— 數字位置錯位。

A single-page onboarding flow titled 'From sign-up to first image'. Four labeled boxes connected by arrows: '1. Sign in', '2. Pick a model', '3. Write a prompt', '4. Generate'. Muted grey connectors, one warm accent on the final box.
A two-column comparison graphic titled 'Before vs After'. Left column header 'Before', right column header 'After'. Three bullet rows of short labels under each.

漫畫分鏡和故事板

兩到三格場景、故事板幀、漫畫風序列。原生推理讓同一角色跨分鏡保持一致、對白氣泡連到正確的說話者 —— 解決了過去讓 AI 漫畫無法成立的兩個失敗模式。

A two-panel comic strip. Panel 1: a tired office worker at a desk, speech bubble reading 'Did you finish the report?'. Panel 2: same character, slightly slumped, bubble reading '...Almost.' Black-and-white ink style.
A three-panel storyboard for a coffee commercial. Panel 1: hand pouring espresso into a cup. Panel 2: cup steaming on a wooden table. Panel 3: silhouette of a person taking a sip. Cinematic lighting, no dialogue.

多語言版式

雙語招牌、雙語包裝、多語言 UI 草稿、翻譯後的行銷素材。模型能在同一構圖裡維持兩種文字系統而不讓其中一個退化成裝飾圖形 —— 這正是它單獨成段的原因。

A bilingual coffee shop receipt in Japanese and English. Header 'TOKYO ROASTERS'. Line items: 'ドリップコーヒー / Drip Coffee · ¥550', 'クロワッサン / Croissant · ¥380'. Footer: 'ありがとうございました · Thank you'. Cream paper with a faint grid.
A bilingual storefront sign. Left side reads 'TOKYO BAGEL' in English. Right side reads '東京ベーグル' in Japanese, same weight and visual size. Wooden plank background.

常見問題

什麼是 GPT Image 2?

GPT Image 2 是 OpenAI 最新的圖像生成模型,在三個面向超越前代:在畫面中渲染可辨識的文字、對既有圖像做像素級編輯,以及在物理、材質與人體結構上具備基於世界知識的真實感。我們以線上生成器的形式開放,按 Credits 計費。

GPT Image 2 是免費的嗎?

每次生成 8 Credits。沒有另外的訂閱用來解鎖模型——隨時可以在帳號中儲值。

GPT Image 2 與 gpt-image-1、DALL·E 3 有什麼不同?

GPT Image 2 在繪圖前會先規劃版面,所以資訊密集的構圖與資訊圖更不容易散架。畫面中的文字——尤其是 CJK 文字——比前代模型明顯更銳利;對既有圖像,它也支援不必重渲染整張畫面的像素級編輯。

生成的圖像可以商用嗎?

可以。在符合 OpenAI 內容政策與適用法律的前提下,你生成的圖像可自由用於個人和商業專案。我們不主張對你產出物的任何權利。

GPT Image 2 在圖像內能寫好哪些語言?

中文(簡體與繁體)、日文、韓文以及拉丁字母語言都能被清晰渲染。任何語言的長段落都更適合使用簡短、直述的 prompt。

今天就試試 GPT Image 2

點下方連結即可打開首頁,模型已預選為 GPT Image 2,下一步就是寫你的第一個 prompt。