99% 的文字渲染準確率
以前的圖像模型能畫出海報,但畫不出海報上的標題。字形扭曲、字距塌陷、行排走樣,任何拉丁字母以外的字符都變成裝飾性雜訊。標準的繞路做法是:用一種工具生成背景,遮罩出乾淨區域,再手動把文字補回去。能用,但那不是生成,是披著生成外衣的合成。
GPT Image 2 把這道落差補上。根據 OpenAI 自家基準,在可列印文本上——包含段落、價格、說明與標籤——文字渲染準確率約為 99%。字母保持比例、字詞穩坐一致的基線,短句讀起來是真正的排版,而不是近似的字形輪廓。
實際意義是:圖像和文字從同一道流程出來。你可以像文案撰稿人改稿那樣反覆迭代電影海報、咖啡店菜單、App 介面、資訊圖 —— 改 prompt、重新生成、閱讀結果。文字現在是圖像的一部分,不再是事後疊加的圖層。
先規劃版式再繪製
GPT Image 2 自帶原生推理步驟。在任何像素生成之前,模型會把 prompt 拆成結構化計畫:什麼放在哪裡、哪些是前景元素、分鏡之間如何關聯、負空間放在哪裡。計畫落定之後,模型才開始把像素畫進去。推理過程對你不可見,但它承擔了以前的模型試圖在像素層偽裝的大部分結構性工作。
這一步額外推理,正是密集構圖終於能撐住的原因。多分鏡漫畫把對白氣泡正確連到對應角色。資訊圖把標籤放到正確的柱子上、把標題放在正確的層級。UI 草稿把控件分組成可識別的模式,而不是把按鈕和標籤均勻撒在畫布上。輸出讀起來像設計師認真想過的,而不是模型平均拼出來的。
這也改變了寫 prompt 的方式。在以前的模型裡,複雜 prompt 產生妥協的圖像,所以工作方式是把 prompt 寫窄、靠多次生成堆出複雜度。而 GPT Image 2 能消化一段較長的描述並仍生成連貫版式,因此你可以用一條 prompt 描述整張構圖,把分件規劃交給模型。
天生多語言
文字渲染品質在 CJK(中文繁體、中文簡體、日文、韓文)與拉丁字母語言上皆穩定。不必切換模型,也不必設語言旗標。用你希望畫面中出現的那種語言直接寫 prompt,模型會把該書寫系統視為一等公民。
過去的圖像模型等於預設畫面裡的文字就是英文,其他語言一旦出現就會退化成大致接近字母形狀的筆畫。CJK 市場的團隊要麼直接放棄在圖中生成文字,要麼改採疊加文字層的工作流,要麼出錢做區域專用微調。在這裡都不再需要。
如果你為東亞市場產出本地化內容——店招、包裝視覺、社群貼文、食譜卡、餐廳菜單——這就是「直接採用生成結果」與「在 Photoshop 或 Figma 裡重做文字層」之間的實際差距。一條每週要產出數十個本地化版本的流水線,省下的工時會迅速累積。
跨多次生成的角色一致性
用同一個 prompt 重新生成,人物會一次又一次以可辨識的樣子回來——同樣的臉型、同樣的髮型、同樣的配色、同樣的服裝細節。但若換了 prompt,模型不會自動把人物延續下去:把角色描述段落複製到每個場景 prompt 裡,當作選角簡報用,模型就會嚴格照著它做。不需要自訓 LoRA,不需要微調,也不需要參考圖。
對故事板、品牌吉祥物、教學序列、繪本插圖、社群漫畫系列以及任何角色需要多次出現的敘事工作,這去掉了「為了讓一張臉穩定而專門訓練自訂模型或 LoRA」的來回。你只寫一遍詳細的角色描述,然後把那段描述作為角色錨點在每個場景 prompt 裡複用,由模型來負責一致性。
也有值得知道的限制。一致性在角色描述詳細而具體時最強:明確的髮色與髮長、眼鏡、可識別的服裝、有特徵的配飾。在角色描述含糊、場景把燈光或渲染風格大幅改變、或者把角色線索藏在 prompt 末尾時,一致性最弱。把角色描述當作選角說明書來寫,而不是模糊建議。
資訊密集的版面也能真正撐得住
原生推理與改進的文字渲染相結合,意味著 GPT Image 2 能處理以前的系統會悄悄退化的構圖:含多組帶標籤數值的資料驅動資訊圖、含工具列 / 標籤 / 收件匣列表的行動端 UI 草稿、有層級的多元素行銷海報、同一畫面裡多個 SKU 的包裝草稿。這些正是讓 AI 生成感覺「明顯只是輔助」而非「真能用」的構圖。
在 DALL·E 3 或 gpt-image-1 會把複雜度壓縮成模糊印象 ——「帶數字狀標記的資訊圖風格圖」—— 的地方,GPT Image 2 把密度當作要求來對待,並嘗試遵守它。柱子帶標籤、標籤頁有名稱、工具列圖示有可分辨的形狀。結果是設計師可以在此基礎上反應、修改的素材,而不是只能扔掉重新手動排版。
誠實的提醒是:極高密度的版式 —— 整頁雜誌跨頁、帶二十個獨立 widget 的複雜儀表板、十幾個帶標籤道具的雜亂場景 —— 仍然受益於把任務拆成更小的幾步。先生成圖表,再生成周邊上下文,最後用支援像素級控制的工具合成圖層。「手動合成更划算」的臨界點已經顯著上移,但在複雜度的高端仍然存在。
可商用,附上常見的注意事項
用 GPT Image 2 生成的圖像歸你所有,可用於個人與商業專案,遵循 OpenAI 內容政策與適用法律。沒有需要升級的另一檔授權、沒有需要查閱的版稅模型、沒有疊加在生成成本之上的使用費。輸出從落到你的帳號那一刻起就是你的,aigazou 不主張對你產出物的下游權利。
實際涵蓋範圍:行銷素材、部落格插圖、產品草稿、包裝概念、社群內容、應用內素材、課件、內部文件、影片縮圖、簡報幻燈片。任何原本會請插畫師或買素材庫的場景,都可以改用生成圖像,並按對待第三方視覺素材同樣的盡職調查標準處理。
常見的注意事項仍然適用——未經同意不得使用真人肖像、不得侵犯商標或受著作權保護的角色、不得用於對公眾人物的欺瞞性圖像。把 OpenAI 的內容政策當作合約看待,你就是在一個乾淨、可日常商用的授權框架內工作。
像素級編輯,不需整圖重渲染
過去的模型把每次編輯都當成整張重新生成。海報上改一個字,整張圖就被重新擲骰——背景飄了、顏色偏了,你剛才還滿意的細節也一併不見。迭代變成了賭博。
GPT Image 2 支援只作用在指定區域的局部編輯:替換標題、重新上色、修正一個標錯的長條圖標籤、重畫一隻手。畫面其他部分在像素級別維持不變,迭代因此是累加式的——鎖定你滿意的構圖之後,只修掉那一處不對勁的細節,不必把其他東西一起重新冒險。
在實務上,這取代了為了小改動而往 Photoshop 來回跑的流程。與推理步驟結合起來,圖像生成就更接近「起草、修訂」的工作流:先生出你滿意的版面,接著就地改細節直到對齊 brief,不必每一輪都把整張圖從頭擲一次。