OpenAI 最新图像模型 · 现已上线 aigazou

GPT Image 2:文字真的对、改图只改一块、细节经得起放大

过去 AI 出图总卡在三件事:海报上的字糊成乱码、想改一小块得重画整张、人手多一根少一根。GPT Image 2 把这三件都认真解了——中英日文渲染准确率约 99%(OpenAI 官方基准)、支持只改你指定区域的局部编辑、凭世界知识让物理和人体细节经得起放大。

什么是 GPT Image 2

GPT Image 2 是 OpenAI 的第二代原生图像模型,于 2026 年 4 月作为 gpt-image-1 的继任者发布。它是 OpenAI 首个内置推理步骤的图像模型:在生成任何像素之前,模型会先规划构图、确定每个元素的位置、安排画面中文字的排版。输出是由自然语言 prompt 生成的一张完整渲染图像——不需要另开编辑器,也不需要手动排版。在 aigazou 上,GPT Image 2 走的是首页的标准生成流程:在模型下拉中选中它、写 prompt、拿到图像。

要理解 GPT Image 2 解决什么问题,最直观的方式是看过去的模型稳定失败的场景。有可辨认标语的海报、有价格和菜品的菜单、带坐标轴标签的信息图、带对话气泡的漫画分镜、含真实 UI 文案的移动端截图——这些画面都把文字当作构图的一部分。过去的扩散模型要么把字糟蹋成乱码,要么幻觉出一段看似合理、再看一眼就崩坏的文本。解决方案不是更高分辨率,而是推理步骤:模型把「文字与版式」先当作规划问题,再当作渲染问题。OpenAI 声称模型在所支持的文字体系上的文字准确率约为 99%,包括中文(简体和繁体)、日文和韩文——这些东亚文字在前代模型中通常被当作装饰图形。除了文字之外,GPT Image 2 还带来像素级编辑,便于对既有图像做精细修饰,以及能让物理、材质和人体结构更可信的「世界知识级真实感」。

GPT Image 2 还能在同一个 prompt 的多次独立生成之间,保持角色和风格的稳定——同样的脸型、同样的服装、同样的配色。不过如果换了 prompt,模型不会自动把人物延续过去:实用做法是把角色描述写成一个段落,再把这个段落复制进每一条场景 prompt 里当作选角简报(casting brief)。正是这种「段落当锚点」的工作方式,让这个模型可以胜任那些不止一张图的工作——分镜、连续漫画画面、品牌调性一致的市场素材、角色设定表——而不需要训练自定义 LoRA。GPT Image 2 并不适合所有图像——柔和的水彩动漫风、精修的自拍、加贴纸的节日卡,用 aigazou 上其他专用工具会更快。输出可用于个人与商业项目,需遵守 OpenAI 的内容政策。

GPT Image 2 改变了什么

旧图像模型做错的七件事,以及这一代是怎么修复的。

99% 的文字渲染准确率

以前的图像模型能画出海报,但画不出海报上的标题。字形扭曲、字距塌陷,任何拉丁字母以外的字符都变成装饰性噪声。标准做法是:先生成背景、遮罩干净区域、再手动把文字补回去 —— 披着生成外衣的合成。

GPT Image 2 把这道鸿沟补上了。根据 OpenAI 自家基准,在可印刷文本上——包括段落、价格、说明与标签——文字渲染准确率约为 99%。字母保持比例、单词稳坐在一致的基线上,短句读起来像真正的排版,而不是近似的字形轮廓。

实际意义是:图像和文字从同一道流程出来。你可以像文案撰稿人改稿那样反复迭代海报、咖啡店菜单、App 界面、信息图 —— 改 prompt、重新生成、阅读结果。

先规划版式再绘制

GPT Image 2 自带原生推理步骤。在任何像素生成之前,模型会把 prompt 拆成结构化计划:什么放在哪里、哪些是前景元素、负空间放在哪里。计划落定之后,模型才开始绘制。

这一步额外推理,正是密集构图终于能撑住的原因。多分镜漫画把对白气泡正确连到对应角色。信息图把标签放到正确的柱子上。UI 草稿把控件分组成可识别的模式,而不是把按钮均匀撒在画布上。

这也改变了写 prompt 的方式。以前的模型在复杂 prompt 上会妥协。GPT Image 2 能消化一段较长的描述并仍生成连贯版式,因此你可以用一条 prompt 描述整张构图,把分件规划交给模型。

天生多语言

文字渲染质量在 CJK(中文简体、中文繁体、日文、韩文)以及拉丁字母语言上都稳定。不需要切换模型,也不需要设置语言标志。用你希望画面里出现的那种语言直接写 prompt,模型会把那套文字体系视为一等公民。

过去的图像模型实际上默认画面里的文字就是英文,其他语言一旦出现就只会退化成约略呈字母形的笔画。CJK 市场的团队要么直接放弃在图中生成文字,要么退回到叠加文字层的工作流,要么花钱做区域专用微调。在这里都不需要。

如果你要为东亚市场生产本地化内容——门店招牌、包装视觉、社交贴文、食谱卡、餐厅菜单——这就是「直接用生成结果」与「在 Photoshop 或 Figma 里重做文字层」之间的实际差别。一个每周产出几十个本地化变体的流水线,节省下来的时间会被迅速放大。

跨多次生成的角色一致性

用同一个 prompt 重新生成,人物会一次又一次以可识别的样子回来——同样的脸型、同样的发型、同样的配色、同样的服装细节。但如果换了 prompt,模型不会自动把人物延续下来:把那段角色描述复制到每个场景 prompt 里,当作选角简报用,模型就会严格照着它做。不需要自训 LoRA,不需要微调,也不需要参考图。

对故事板、品牌吉祥物、教学序列、绘本插图以及任何角色需要多次出现的叙事工作,这去掉了「为了让一张脸稳定而专门训练自定义 LoRA」的来回。你只写一遍详细的角色描述,然后把那段描述作为角色锚点在每个场景 prompt 里复用。

一致性在角色描述详细而具体时最强:明确的发色与发长、眼镜、可识别的服装、有特征的配饰。在角色描述含糊、或者场景把灯光或渲染风格大幅改变时最弱。把角色描述当作选角说明书来写。

密度高的版面也能真正撑住

原生推理与改进的文字渲染相结合,意味着 GPT Image 2 能处理以前的系统会悄悄退化的构图:数据驱动信息图、含工具栏与收件箱列表的移动端 UI 草稿、有层级的多元素营销海报、同一画面里多个 SKU 的包装草稿。

在 DALL·E 3 或 gpt-image-1 会把复杂度压缩成模糊印象的地方,GPT Image 2 把密度当作要求来对待。柱子带标签、标签页有名称、工具栏图标有可分辨的形状。结果是设计师可以在此基础上反应、修改的素材。

极高密度的版式 —— 整页杂志跨页、带二十个独立 widget 的复杂仪表盘、十几个带标签道具的杂乱场景 —— 仍然受益于把任务拆成更小的几步。「手动合成更划算」的临界点已经显著上移,但在复杂度的高端仍然存在。

可商用,附常见注意事项

用 GPT Image 2 生成的图像归你所有,可用于个人与商业项目,遵循 OpenAI 内容政策与适用法律。没有需要升级的另一档授权、没有版税模型、没有叠加在生成成本之上的使用费。输出从落到你的账户那一刻起就是你的。

实际涵盖范围:营销素材、博客插图、产品草稿、包装概念、社媒内容、应用内素材、课件、视频缩略图、演示幻灯片。任何原本会请插画师或买素材库的场景,都可以改用生成图像。

常见的注意事项仍然适用——未经同意不得使用真人肖像、不得侵犯商标或受版权保护的角色、不得用于对公众人物的欺骗性图像。把 OpenAI 的内容政策当作合约来看,你就是在一个干净的、日常可商用的授权框架里工作。

像素级编辑,无需整图重渲染

此前的模型把每一次编辑都当作整图重生成。海报上改一个字,整张图就被重新掷骰——背景飘了,颜色偏了,你刚才还满意的细节也一并消失。迭代变成了赌博。

GPT Image 2 支持只作用在你指定区域的局部编辑:替换标题、重新上色、修正一个标错的柱状图标签、重画一只手。画面其他部分在像素级别保持不变,迭代于是变成累加——锁定你满意的构图,然后单独修掉那一处不对劲的细节,不必把其他东西也重新冒险。

在实际使用中,这替代掉了为了小改动而往 Photoshop 来回跑的流程。和推理步骤结合起来,图像生成就更接近「起草—修订」的工作流:先生成一个你满意的版面,然后就地改细节直到对齐 brief,不再每一轮都把整张图从头掷一遍。

在 aigazou 使用 GPT Image 2

GPT Image 2 在首页的标准生成流程里。没有独立编辑器、没有等待名单、没有额外配置 —— 从空白 prompt 到完成图像 3 步搞定。

  1. 打开已预选 GPT Image 2 的首页

    点击下方链接,首页的模型选择器就已经设为 GPT Image 2。如果你从其他入口进来,也可以从模型下拉手动选它。

    打开首页
  2. 写一条清晰、陈述式的 prompt

    短而具体的写法比长而装饰性的更好用。写明主体、风格、以及希望出现在图内的文字(用引号包起来)。文字密集的 prompt 里,把图内文字按你希望渲染出来的样子原样写出,包括标点和大小写。模型把引号内字符串当作字面文案处理。

  3. 生成并迭代

    如果整体版面不对,就重写 prompt 再生成一次——推理步骤在拿到清晰的 brief 时表现最好。如果只是小修(一个拼错的词、一处颜色、单独一个元素),就对结果用像素级编辑,而不是把整张图重掷一遍。

样例输出

用 GPT Image 2 跑过的 6 条 prompt,未做任何后期。每张图下方的文字就是产出它的完整 prompt。

GPT Image 2 生成的电影海报样例,标题为 Midnight in Tokyo

电影海报,编排好的字体

A vertical movie poster for a Tokyo neo-noir film. Title 'MIDNIGHT IN TOKYO' set large in modern serif at the top. Subtitle 'A film by Yuki Tanaka' beneath. Bottom strip reads 'IN THEATERS · APRIL 2026'. Cool blue night palette.

标题、副标题、metadata 行第一次就出可读,是文字渲染基准最直接的形式。

GPT Image 2 生成的咖啡菜单示例,日文和韩文的菜品名称与价格都清晰可读

日文与韩文双语咖啡菜单

用日文和韩文呈现的咖啡菜单。页首写着 'メニュー / 메뉴'。两行菜单:'抹茶ラテ · ¥580' 以及 '아메리카노 · ₩4,500'。奶白色背景,手绘风格边框。

同一幅画面里的两种东亚文字都被清晰渲染,没有退化成装饰性笔画。

GPT Image 2 生成的信息图样例,展示带标签的季度增长柱状图

季度增长信息图

A clean infographic titled '2026 Q1 Growth'. Three horizontal bars labeled 'JAN +12%', 'FEB +24%', 'MAR +38%'. Off-white background, single blue accent. Helvetica-style sans-serif.

原生推理把每个标签留在正确的柱子上 —— 这是过去 AI 信息图最容易翻车的失败模式。

GPT Image 2 生成的两格漫画样例,角色与对白保持一致

两格办公场景

A two-panel comic strip. Panel 1: a tired office worker at a desk, speech bubble reading 'Did you finish the report?'. Panel 2: same character, slightly slumped, bubble reading '...Almost.' Black-and-white ink style.

同一角色跨两格保持一致,每个对白气泡都连到正确的说话者。

GPT Image 2 生成的移动端 UI 草稿样例,含真实界面文案

移动端邮件 App 草稿

A realistic mobile UI mockup of a mail app inbox. Status bar reads '9:41' and '100%'. Title 'Inbox'. Two list rows: 'Sarah Chen · 2m', 'Design Review · 14m'. Bottom tab bar: 'Mail · Calendar · Settings'.

真实的界面文案,不是装饰性乱码 —— 这就是 AI 草稿与可用设计参考之间的差别。

GPT Image 2 在多次独立生成中保持同一角色的三张样例图像

同一角色,三个场景

Three separate runs of the same character: a young illustrator with short black hair, round glasses, and a forest-green sweater. Run 1 in a quiet bookshop. Run 2 on a city rooftop at dusk. Run 3 in a sunny park with a sketchbook.

三个不同 prompt 各运行一次的结果,共享同一段角色描述。模型把这段描述当作选角简报(casting brief),所以场景改变时,人物仍然可识别。

真实渲染图正在陆续替换——目前上面的面板只是展示每个 prompt 的意图,并非最终像素。你自己的实际效果会随 prompt 细节与模型当前能力而变化。

GPT Image 2 的位置

GPT Image 2 在 Midjourney v7、自家前代模型以及 DALL·E 3 之间处在什么位置。

能力GPT Image 2Midjourney v7gpt-image-1DALL·E 3
图内文字渲染在支持的文字系统上约 99% 准确率比 v6 有改进,但在长文本和结构化版面上仍不稳定短拉丁字符串通常可读,长文案可靠性下降经常出错,长文案与非拉丁文字尤其严重
非拉丁文字支持(CJK)在中文、日文和韩文中表现稳定有限,CJK 文字容易退化为装饰图形有限,非拉丁字形频繁崩坏有限,更多被当作装饰图形而不是文字处理
绘制前的版式推理原生 —— 在第一颗像素之前规划构图没有显式的规划步骤;有强烈的风格偏好无明确规划步骤无明确规划步骤
多次独立生成中的角色一致性同一 prompt 多次生成之间保持稳定Character Reference 可以在多次生成间保持相似度,但需要参考图弱 —— 每次生成都独立解读主体弱 —— 每次生成都独立解读主体
适合做什么图内文字与结构很重要的海报、菜单、信息图、UI 草稿和漫画风格化、带情绪的插画与艺术指导,画面上的文字并非重点对文字准确度不优先的通用插画通用艺术插画;风格灵活性优先于文字准确度

真正能发挥的场景

GPT Image 2 的具体优势 —— 文字、规划、多语言 —— 改变了一条 prompt 能做到什么的 6 个场景。

排版编排好的营销海报

新品上市、活动宣传、招聘广告。标题、副标题、metadata 行第一次就出可读,设计团队可以像文案撰稿人改稿那样反复迭代 prompt —— 不再需要事后合成步骤。

A recruitment poster for a design studio. Headline 'WE'RE HIRING' in heavy black sans-serif at the top. Three role names below in lighter weight: 'Senior Designer', 'Product Manager', 'Brand Strategist'. Footer strip: 'APPLY BY MAY 15 · [email protected]'. Paper-grain off-white background.
A festival poster for a summer jazz event. Headline 'BLUE NOTE FEST 2026' in heavy condensed sans. Three artist names below in smaller weight. Warm amber and ink palette.

产品草稿和包装

咖啡袋、化妆品瓶、设备上的 App 图标、饮料罐。模型能在同一画面的多个 SKU 之间维持品牌名不糊成乱字 —— 这是过去 AI 包装容易翻车的失败模式。

Three coffee bags side by side on a marble counter. Each labeled 'AOI', 'KAEDE', 'YUKI'. Minimalist matte packaging in cream, sage, and slate. Studio lighting.
A skincare bottle on a bathroom shelf. Label reads 'ATELIER NO. 4 · Hydrating Serum · 30ml'. Soft natural light from the left.

图内文字内容

社媒图、引用卡、歌词排版、励志海报、表情包模板。任何「信息本身就是作品」的场景。这是新一代文字渲染解锁的典型用法,弱模型仿不出来。

A square Instagram quote card. Centered text in elegant script: 'The best time to plant a tree was twenty years ago. The second best time is now.' Soft sage background, off-white border.
A vertical lyric card. Text reads '夜の街は静かに歌う' in vertical Japanese typesetting on the right side. Ink-wash background, restrained palette.

信息图和数据可视化

数字高亮、对比图、简单柱状图、流程图。推理步骤把标签连到正确的柱子、把标题放在正确的层级,去掉了 AI 信息图的经典破绽 —— 数字位置错位。

A single-page onboarding flow titled 'From sign-up to first image'. Four labeled boxes connected by arrows: '1. Sign in', '2. Pick a model', '3. Write a prompt', '4. Generate'. Muted grey connectors, one warm accent on the final box.
A two-column comparison graphic titled 'Before vs After'. Left column header 'Before', right column header 'After'. Three bullet rows of short labels under each.

漫画分镜和故事板

两到三格场景、故事板帧、漫画风序列。原生推理让同一角色跨分镜保持一致、对白气泡连到正确的说话者 —— 解决了过去让 AI 漫画无法成立的两个失败模式。

A two-panel comic strip. Panel 1: a tired office worker at a desk, speech bubble reading 'Did you finish the report?'. Panel 2: same character, slightly slumped, bubble reading '...Almost.' Black-and-white ink style.
A three-panel storyboard for a coffee commercial. Panel 1: hand pouring espresso into a cup. Panel 2: cup steaming on a wooden table. Panel 3: silhouette of a person taking a sip. Cinematic lighting, no dialogue.

多语言版式

双语招牌、双语包装、多语言 UI 草稿、翻译后的营销素材。模型能在同一构图里维持两种文字系统而不让其中一个退化成装饰图形 —— 这正是它单独成段的原因。

A bilingual coffee shop receipt in Japanese and English. Header 'TOKYO ROASTERS'. Line items: 'ドリップコーヒー / Drip Coffee · ¥550', 'クロワッサン / Croissant · ¥380'. Footer: 'ありがとうございました · Thank you'. Cream paper with a faint grid.
A bilingual storefront sign. Left side reads 'TOKYO BAGEL' in English. Right side reads '東京ベーグル' in Japanese, same weight and visual size. Wooden plank background.

常见问题

什么是 GPT Image 2?

GPT Image 2 是 OpenAI 最新的图像生成模型,在三个方面超越前代:在画面中渲染可辨认的文字、对既有图像做像素级编辑,以及在物理、材质与人体结构上具备基于世界知识的真实感。我们把它以在线生成器的形式开放,按 Credits 计费。

GPT Image 2 是免费的吗?

每次生成 8 Credits。没有另外的订阅来解锁模型——随时可以在账户内充值。

GPT Image 2 与 gpt-image-1、DALL·E 3 有什么不同?

GPT Image 2 在开画之前会先规划版面,所以信息量大的构图与资讯图更不容易散架。画面里的文字——尤其是 CJK 文字——比前代模型明显更清晰;对已有图像,它还支持无需重渲染整张画面的像素级编辑。

生成的图像可以商用吗?

可以。在符合 OpenAI 内容政策与适用法律的前提下,你生成的图像可自由用于个人和商业项目。我们不主张对你产出物的任何权利。

GPT Image 2 在图像内能写好哪些语言?

中文(简体和繁体)、日文、韩文以及拉丁字母语言都能被清晰渲染。任何语言下的长段落都更适合用简短、直陈的 prompt。

今天就试试 GPT Image 2

点击下方链接即可打开首页,模型已预选为 GPT Image 2,下一步就是写你的第一个 prompt。