Bảy điều các mô hình ảnh cũ làm sai, và mô hình này sửa chúng thế nào.
Độ chính xác render văn bản 99%
Các mô hình hình ảnh trước có thể vẽ áp phích nhưng không vẽ được tiêu đề trên đó. Hình dạng chữ vặn vẹo, kerning sụp đổ, các dòng trôi đi, và bất kỳ glyph nào ngoài bảng chữ La-tinh đều biến thành tiếng ồn trang trí. Cách giải quyết tiêu chuẩn là tạo nền trong một công cụ, mặt nạ một vùng sạch, rồi chèn lại văn bản bằng tay. Nó hoạt động, nhưng đó không phải là tạo; đó là composit khoác áo tạo.
GPT Image 2 lấp đầy khoảng cách đó. Chính benchmark của OpenAI báo cáo độ chính xác dựng chữ khoảng 99 % trên văn bản in được — đoạn văn, giá, chú thích và nhãn. Các chữ giữ đúng tỷ lệ, các từ nằm trên đường cơ bản nhất quán, và đoạn ngắn đọc như typography có chủ đích thay vì các hình gần đúng.
Thực tế, tác phẩm và lời nói ra cùng một lượt. Bạn có thể lặp trên áp phích phim, thực đơn quán cà phê, màn hình ứng dụng hoặc infographic theo cách một copywriter lặp trên các bản nháp ― đổi prompt, tạo lại, đọc kết quả. Văn bản giờ là một phần của ảnh, không phải lớp bạn thêm vào sau.
Lập kế hoạch bố cục trước khi vẽ
GPT Image 2 đi kèm bước lập luận thuần. Trước khi pixel nào được tạo, mô hình tách prompt thành một kế hoạch có cấu trúc: cái gì đặt ở đâu, các yếu tố nào ở tiền cảnh, các panel liên hệ với nhau ra sao, không gian âm đặt ở đâu. Chỉ sau khi kế hoạch đó được chốt, mô hình mới bắt đầu vẽ pixel vào. Lập luận không hiển thị với bạn nhưng đảm nhận phần lớn công việc cấu trúc mà các mô hình cũ cố gắng giả mạo ở mức pixel.
Lượt phụ đó là lý do các bố cục dày đặc cuối cùng cũng giữ vững. Truyện tranh nhiều panel giữ bóng thoại bám vào đúng nhân vật. Infographic đặt nhãn lên đúng cột và tiêu đề ở đúng cấp bậc. Mockup giao diện nhóm các điều khiển thành các mẫu nhận biết được thay vì rải đều nút và nhãn khắp canvas. Đầu ra đọc ra như thứ một nhà thiết kế đã suy nghĩ kỹ, không phải trung bình mà mô hình ghép lại.
Nó cũng thay đổi cách viết prompt. Với các mô hình cũ, prompt phức tạp tạo ra ảnh thỏa hiệp, nên cách làm là giữ prompt hẹp và xếp nhiều lần tạo để lắp ghép độ phức tạp. Với GPT Image 2, mô hình có thể hấp thụ một brief dài hơn mà vẫn tạo ra bố cục mạch lạc, nên bạn có thể mô tả toàn bộ bố cục trong một prompt và tin tưởng nó lập kế hoạch các phần.
Đa ngôn ngữ từ thiết kế
Chất lượng dựng chữ vẫn ổn định trên các chữ CJK (Trung giản thể và phồn thể, Nhật, Hàn) bên cạnh các ngôn ngữ bảng chữ Latin. Không có mô hình khác để chuyển qua, không có cờ ngôn ngữ phải bật. Hãy viết prompt bằng thứ tiếng mà bạn muốn xuất hiện trong ảnh — mô hình sẽ coi hệ chữ đó như công dân hạng nhất.
Các mô hình hình ảnh trước đây thực chất ra đời với mặc định ngầm rằng chữ trong ảnh sẽ là tiếng Anh. Bất cứ thứ gì khác đều xuống cấp thành những nét mơ hồ trông giống chữ. Các đội ở thị trường CJK phản ứng bằng cách tránh hẳn việc sinh chữ trong ảnh, quay về luồng chồng lớp chữ hoặc trả tiền cho các bản fine-tune riêng theo khu vực. Ở đây không cần đến những việc đó.
Nếu bạn sản xuất nội dung bản địa hóa cho thị trường Đông Á — biển hiệu cửa hàng, hình ảnh bao bì, bài đăng mạng xã hội, thẻ công thức, thực đơn nhà hàng — đây chính là khác biệt thực tế giữa việc dùng đầu ra được sinh ra trực tiếp và việc dựng lại lớp chữ trong Photoshop hay Figma. Trên một dây chuyền xuất ra hàng chục biến thể bản địa hóa mỗi tuần, khoảng cách về thời gian tích lũy rất nhanh.
Nhân vật nhất quán qua các lần chạy riêng biệt
Chạy lại cùng một prompt và nhân vật quay lại ở dạng dễ nhận ra qua từng lần tạo — cùng khuôn mặt, cùng mái tóc, cùng bảng màu, cùng chi tiết phục trang. Ở các prompt khác nhau, mô hình không tự động kéo nhân vật theo: hãy chép đoạn mô tả nhân vật vào mỗi prompt cảnh như một casting brief, mô hình sẽ bám chặt vào đoạn đó. Không cần LoRA tuỳ chỉnh, không cần fine-tune, không cần ảnh mẫu.
Đối với storyboard, linh vật thương hiệu, chuỗi hướng dẫn, minh họa sách thiếu nhi, chuỗi truyện tranh xã hội và mọi công việc tự sự nơi nhân vật phải xuất hiện hơn một lần, điều này loại bỏ chuyến đi-về của việc đào tạo mô hình tùy chỉnh hoặc LoRA chỉ để giữ một khuôn mặt ổn định. Bạn viết một mô tả nhân vật cẩn thận một lần, sau đó tái sử dụng đoạn đó làm neo nhân vật trong mỗi prompt cảnh và để mô hình làm phần việc nhất quán thay bạn.
Có những giới hạn đáng biết. Tính nhất quán mạnh nhất khi mô tả nhân vật chi tiết và cụ thể: màu và độ dài tóc cụ thể, kính, quần áo nhận biết được, phụ kiện đặc trưng. Yếu nhất khi nhân vật được mô tả mơ hồ, khi cảnh thay đổi mạnh ánh sáng hoặc phong cách render, hoặc khi các dấu hiệu nhân vật bị chôn ở cuối prompt. Hãy đối xử với mô tả như một brief casting chứ không phải gợi ý mềm.
Bố cục dày đặc thật sự đứng vững
Sự kết hợp giữa lập luận thuần và render văn bản cải thiện có nghĩa GPT Image 2 xử lý các bố cục mà các hệ thống cũ lặng lẽ suy thoái: infographic dựa trên dữ liệu với nhiều giá trị có nhãn, mockup giao diện di động với thanh công cụ, tab và danh sách hộp thư, áp phích tiếp thị nhiều yếu tố có cấp bậc, mockup bao bì với nhiều SKU trong cùng khung. Đây chính là những bố cục khiến việc tạo bằng AI cảm thấy rõ ràng là hỗ trợ thay vì có thể dùng được.
Ở chỗ DALL·E 3 hoặc gpt-image-1 nén độ phức tạp thành một ấn tượng mơ hồ ― «ảnh kiểu infographic với các dấu hình con số» ― GPT Image 2 đối xử với mật độ như đặc tả và cố gắng tôn trọng nó. Cột nhận nhãn. Tab nhận tên. Biểu tượng thanh công cụ nhận hình dạng phân biệt được. Kết quả là thứ nhà thiết kế có thể phản ứng và tinh chỉnh chứ không phải thứ phải vứt đi và bắt đầu lại từ đầu với bố cục thủ công.
Lưu ý trung thực là các bố cục rất dày đặc ― một trang đôi tạp chí đầy đủ, dashboard phức tạp với hai mươi widget khác nhau, các cảnh đông đúc với hàng chục đạo cụ có nhãn ― vẫn được lợi từ việc chia brief thành các lượt nhỏ hơn. Tạo biểu đồ, rồi bối cảnh xung quanh, rồi tổng hợp các lớp trong công cụ cho phép kiểm soát ở mức pixel. Ngưỡng mà composit thủ công thắng đã dịch lên đáng kể, nhưng vẫn tồn tại ở đầu cao của độ phức tạp.
Dùng thương mại, kèm những lưu ý quen thuộc
Hình ảnh bạn tạo bằng GPT Image 2 là của bạn để dùng trong dự án cá nhân và thương mại, tuân theo chính sách nội dung của OpenAI và luật áp dụng. Không có cấp giấy phép riêng nào bạn cần nâng cấp, không có mô hình bản quyền nào để đọc, không có phí sử dụng nào trên chi phí tạo. Đầu ra là của bạn từ thời điểm nó đến tài khoản bạn, và aigazou không yêu sách quyền hạ nguồn đối với những gì bạn tạo.
Phạm vi thực tế: tài sản tiếp thị, minh họa blog, mockup sản phẩm, ý tưởng bao bì, nội dung mạng xã hội, tác phẩm trong ứng dụng, tài liệu khóa học, tài liệu nội bộ, hình thu nhỏ video, slide thuyết trình. Ở chỗ bạn lẽ ra thuê họa sĩ minh họa hoặc trả tiền stock, bạn có thể dùng ảnh đã tạo thay vào đó, với cùng mức độ thẩm định bạn áp dụng cho bất kỳ tài sản thị giác bên thứ ba nào.
Những lưu ý quen thuộc vẫn áp dụng — không dùng hình dáng người thật khi chưa được đồng ý, không xâm phạm nhãn hiệu hay nhân vật có bản quyền, không tạo ảnh đánh lừa về người của công chúng. Coi chính sách nội dung của OpenAI như bản hợp đồng và bạn đang làm việc trong một giấy phép sạch cho sử dụng thương mại hằng ngày.
Chỉnh sửa cấp pixel không cần render lại
Các mô hình trước coi mọi lần chỉnh sửa là một lần tạo lại toàn bộ. Đổi một chữ trên poster thì cả ảnh bị xóc lại — nền trôi đi, màu lệch đi, những chi tiết bạn vừa ưng biến mất. Việc lặp lại giống như cá cược.
GPT Image 2 hỗ trợ chỉnh sửa cục bộ chỉ chạm đến vùng bạn chỉ ra: thay tiêu đề, đổi màu chiếc áo khoác, sửa một nhãn cột đặt sai, vẽ lại một bàn tay. Phần còn lại của ảnh vẫn y hệt từng pixel, nên việc lặp trở thành tích luỹ — khoá lại một bố cục bạn thích rồi chỉ sửa mỗi chi tiết chệch, khỏi cần đặt cược toàn bộ những thứ khác một lần nữa.
Trong thực tế điều này thay chỗ cho hành trình vòng đi vòng lại sang Photoshop cho những chỉnh sửa nhỏ. Kết hợp với bước suy luận, việc tạo ảnh xích lại gần quy trình phác-rồi-sửa: tạo một bố cục bạn hài lòng, rồi sửa chi tiết ngay tại chỗ cho khớp brief, thay vì xóc lại cả khung trong mỗi lượt.