예전 이미지 모델이 틀렸던 일곱 가지, 그리고 이번 세대가 이를 어떻게 해결하는지.
99% 텍스트 렌더링 정확도
이전 이미지 모델들은 포스터는 그릴 수 있었지만 그 위의 헤드라인은 그릴 수 없었습니다. 자형은 왜곡되고, 커닝은 무너지고, 줄은 흐트러졌으며, 라틴 알파벳 외의 글자는 장식적인 노이즈가 되었습니다. 표준적인 우회 방법은 한 도구에서 배경을 생성하고, 깨끗한 영역을 마스킹한 다음, 손으로 문자를 다시 끼워넣는 것이었습니다. 동작은 했지만, 그것은 생성이 아니라 생성의 외피를 쓴 합성이었습니다.
GPT Image 2는 그 간극을 메웁니다. OpenAI 자체 벤치마크에 따르면, 인쇄 가능한 텍스트——문단, 가격, 캡션, 라벨——전반에서 텍스트 렌더링 정확도는 약 99%입니다. 글자는 비율을 유지하고, 단어는 일관된 베이스라인 위에 놓이며, 짧은 카피는 「글자처럼 보이는 근사 형태」가 아니라 의도된 타이포그래피로 읽힙니다.
실용적인 의미는 아트워크와 단어가 같은 패스에서 나온다는 것입니다. 영화 포스터, 카페 메뉴, 앱 화면, 인포그래픽을 카피라이터가 초고를 다듬듯 반복할 수 있습니다 ― prompt를 바꾸고, 다시 생성하고, 결과를 읽습니다. 텍스트는 이제 이미지의 일부이며, 나중에 덧붙이는 레이어가 아닙니다.
그리기 전에 레이아웃을 계획
GPT Image 2에는 네이티브 추론 단계가 내장되어 있습니다. 픽셀이 생성되기 전에 모델은 prompt를 구조화된 계획으로 분해합니다. 무엇을 어디에 둘지, 어떤 요소가 전경인지, 패널들이 어떻게 관련되는지, 네거티브 스페이스를 어디에 둘지. 그 계획이 확정되어야만 모델이 픽셀을 그리기 시작합니다. 추론은 당신에게 보이지 않지만, 이전의 모델들이 픽셀 수준에서 흉내내려 했던 구조적 작업의 대부분을 수행합니다.
이 추가 패스가 있기 때문에 밀도 높은 구도가 마침내 깨지지 않고 유지됩니다. 다중 패널 만화는 말풍선을 올바른 화자에게 계속 연결합니다. 인포그래픽은 라벨을 올바른 막대에 두고 제목을 올바른 계층에 둡니다. UI 목업은 컨트롤을 인식 가능한 패턴으로 그룹화하며, 캔버스 전체에 버튼과 라벨을 균일하게 흩뿌리지 않습니다. 출력은 디자이너가 깊이 생각한 것처럼 읽히고, 모델이 평균화한 것처럼 읽히지 않습니다.
이는 prompt를 쓰는 방식도 바꿉니다. 이전 모델들에서 복잡한 prompt는 타협된 이미지를 만들었기 때문에, 작업 방식은 prompt를 좁게 유지하고 생성을 쌓아 복잡성을 조립하는 것이었습니다. GPT Image 2에서는 모델이 더 긴 브리프를 소화하고도 일관된 레이아웃을 만들 수 있으므로, 한 prompt로 전체 구도를 기술하고 부분의 계획은 모델에 맡길 수 있습니다.
설계부터 다국어
텍스트 렌더링 품질은 CJK(중국어 간체·번체, 일본어, 한국어) 문자와 라틴 알파벳 언어 전반에서 안정적으로 유지됩니다. 바꿔 탈 별도 모델도, 설정할 언어 플래그도 없습니다. 이미지 안에 나타내고 싶은 언어로 프롬프트를 그대로 쓰면, 모델은 그 문자 체계를 1급 시민으로 다룹니다.
이전 이미지 모델들은 이미지 속 글자가 사실상 영어라는 숨은 전제로 출시되었습니다. 그 외 언어는 대충 글자 모양을 흉내 낸 흔적으로 무너졌죠. CJK 시장의 팀들은 이미지 내 텍스트 생성을 아예 포기하거나, 오버레이 합성 워크플로로 되돌아가거나, 지역 특화 파인튜닝에 비용을 들이는 방식으로 대응해 왔습니다. 여기서는 그 어떤 것도 필요하지 않습니다.
동아시아 시장을 위한 현지화 콘텐츠——매장 사이니지, 패키지 비주얼, 소셜 포스트, 레시피 카드, 레스토랑 메뉴——를 납품하는 입장에서, 이것은 '생성 결과를 바로 쓰는 것'과 'Photoshop이나 Figma에서 텍스트 레이어를 다시 만드는 것' 사이의 실무적 차이입니다. 주당 수십 개의 현지화 버전을 돌리는 파이프라인에서는 그 시간 차이가 빠르게 누적됩니다.
별도의 생성에 걸친 캐릭터 일관성
같은 프롬프트를 다시 돌리면 캐릭터는 반복해서 알아볼 수 있는 모습으로 돌아옵니다 ——같은 얼굴형, 같은 머리, 같은 팔레트, 같은 의상 포인트. 다만 프롬프트가 달라지면 모델이 알아서 인물을 이어 주지는 않습니다: 캐릭터 설명 문단을 모든 장면 프롬프트에 캐스팅 브리프로 복사해 넣으세요. 모델은 그 문단을 고수합니다. 커스텀 LoRA도, 파인튜닝도, 시드 이미지도 필요 없습니다.
스토리보드, 브랜드 마스코트, 설명 시퀀스, 동화책 일러스트, 소셜 만화 시리즈 등 캐릭터가 한 번 이상 등장해야 하는 모든 내러티브 작업에서, 이는 얼굴을 안정시키기 위해 커스텀 모델이나 LoRA를 훈련하는 왕복 작업을 제거합니다. 신중한 캐릭터 기술을 한 번 작성한 다음, 그 단락을 모든 장면 prompt의 캐릭터 앵커로 재사용하고 일관성 작업은 모델에 맡기세요.
알아둘 만한 한계도 있습니다. 일관성은 캐릭터 기술이 상세하고 구체적일 때 가장 강합니다. 구체적인 머리색과 길이, 안경, 알아볼 수 있는 의상, 특징적인 액세서리. 캐릭터가 모호하게 기술되거나, 장면이 조명이나 렌더링 스타일을 크게 바꾸거나, prompt 끝에 캐릭터 단서가 묻혀 있을 때 가장 약합니다. 기술을 부드러운 제안이 아니라 캐스팅 브리프로 다루세요.
밀도 높은 구성도 제대로 버텨냅니다
네이티브 추론과 개선된 텍스트 렌더링의 조합은 GPT Image 2가 이전 시스템들이 조용히 열화하던 구도를 다룰 수 있다는 것을 의미합니다: 여러 라벨 값을 가진 데이터 기반 인포그래픽, 툴바·탭·받은편지함 목록을 포함한 모바일 UI 목업, 계층을 가진 다요소 마케팅 포스터, 같은 프레임 내에 여러 SKU를 포함한 패키지 목업 등입니다. 이것들은 AI 생성을 「사용 가능」보다는 「명백히 보조적」이라고 느끼게 하던 구도들이었습니다.
DALL·E 3나 gpt-image-1이 복잡성을 모호한 인상 ― 「숫자처럼 보이는 자국이 있는 인포그래픽 풍의 이미지」 ― 으로 압축하던 곳에서, GPT Image 2는 밀도를 사양으로 다루고 그것을 존중하려고 합니다. 막대에 라벨이 붙습니다. 탭에 이름이 붙습니다. 툴바 아이콘에 구별 가능한 모양이 생깁니다. 결과는 디자이너가 반응하고 다듬을 수 있는 것이지, 버리고 수동 레이아웃을 처음부터 다시 시작해야 하는 것이 아닙니다.
솔직한 단서는 매우 밀도 높은 레이아웃 ― 한 페이지 잡지 펼침면, 20개의 별개 위젯을 가진 복잡한 대시보드, 십수 개의 라벨 붙은 소품을 가진 어수선한 장면 ― 은 여전히 브리프를 더 작은 패스로 나누는 것이 효과적이라는 것입니다. 차트를 생성하고, 주변 컨텍스트를 생성하고, 픽셀 수준의 제어를 제공하는 도구에서 레이어를 합성하세요. 수동 합성이 이기는 임계값은 상당히 위로 이동했지만, 복잡성의 상한에서는 여전히 존재합니다.
상업적 사용 가능, 일반적인 주의사항은 그대로
GPT Image 2로 생성한 이미지는 OpenAI의 콘텐츠 정책과 적용 법률의 범위 내에서 개인 및 상업 프로젝트에 자유롭게 사용할 수 있습니다. 업그레이드해야 할 별도의 라이선스 계층, 읽어야 할 로열티 모델, 생성 비용 위에 추가되는 사용료가 없습니다. 출력은 당신의 계정에 도착하는 순간부터 당신의 것이며, aigazou는 당신의 제작물에 대한 다운스트림 권리를 주장하지 않습니다.
실용적 범위: 마케팅 자산, 블로그 일러스트, 제품 목업, 패키지 콘셉트, 소셜 미디어 콘텐츠, 앱 내 아트워크, 코스 자료, 내부 문서, 비디오 썸네일, 프레젠테이션 슬라이드. 일러스트레이터를 고용하거나 스톡을 구입했을 곳에 생성된 이미지를 대신 사용할 수 있으며, 제3자 시각 자산에 적용할 동일한 종류의 실사 단계를 적용하면 됩니다.
일반적인 주의사항은 그대로 적용됩니다 ——동의 없는 실존 인물 초상화 금지, 상표나 저작권이 있는 캐릭터 침해 금지, 공인을 속이는 이미지 금지 등. OpenAI의 콘텐츠 정책을 계약으로 간주하면, 일상적인 상업적 사용에 깨끗한 라이선스 안에서 작업하는 셈입니다.
전체 재렌더링 없이 픽셀 단위 편집
이전 모델들은 모든 수정을 전체 재생성으로 처리했습니다. 포스터에서 단어 하나만 바꿔도 이미지 전체가 다시 굴려져——배경이 흔들리고, 색이 어긋나고, 방금 마음에 들었던 디테일이 사라집니다. 반복 작업은 곧 도박이었습니다.
GPT Image 2는 지정한 영역만 건드리는 국소 편집을 지원합니다: 헤드라인 교체, 재킷 색 변경, 잘못 붙은 막대 라벨 수정, 손 다시 그리기. 그 외 영역은 픽셀 단위로 동일하게 유지되므로, 반복은 「쌓아 올리기」가 됩니다——마음에 드는 구성을 잠그고, 어긋난 한 가지 디테일만 고치면 됩니다. 다른 것까지 새로 굴릴 필요가 없습니다.
실제로 이는 작은 수정을 위한 Photoshop 왕복을 대체합니다. 추론 단계와 결합하면, 이미지 생성은 「초안 후 수정」 워크플로에 가까워집니다: 마음에 드는 레이아웃을 먼저 만들어 두고, 세부 사항이 브리프에 맞을 때까지 그 자리에서 수정하는 식입니다. 매 패스마다 프레임 전체를 다시 굴리지 않아도 됩니다.