Tujuh hal yang sering dilakukan salah oleh model gambar lama, dan bagaimana model ini memperbaikinya.
Akurasi rendering teks 99%
Model gambar sebelumnya bisa menggambar poster tetapi tidak judul di atasnya. Bentuk huruf terdistorsi, kerning runtuh, garis melenceng, dan semua glif di luar alfabet Latin berubah menjadi kebisingan dekoratif. Solusi standar adalah menghasilkan latar belakang di satu alat, memblok area bersih, lalu menyisipkan teks kembali dengan tangan. Berhasil, tapi itu bukan generasi; itu compositing berbalut generasi.
GPT Image 2 menutup celah itu. Benchmark milik OpenAI sendiri melaporkan akurasi rendering teks di kisaran 99 % pada teks yang dapat dicetak — paragraf, harga, keterangan, dan label. Huruf-huruf menjaga proporsinya, kata-kata duduk pada garis dasar yang konsisten, dan teks pendek terbaca sebagai tipografi yang disengaja, bukan bentuk yang sekadar mirip huruf.
Secara praktis, karya dan kata keluar dari pass yang sama. Kamu bisa iterasi pada poster film, menu kafe, layar aplikasi, atau infografis seperti copywriter iterasi pada draft ― ubah prompt, regenerate, baca hasil. Teks sekarang bagian dari gambar, bukan lapisan yang kamu tambahkan setelahnya.
Merencanakan tata letak sebelum menggambar
GPT Image 2 hadir dengan langkah reasoning native. Sebelum ada piksel yang dihasilkan, model memecah prompt menjadi rencana terstruktur: apa yang pergi ke mana, elemen mana di latar depan, bagaimana panel berhubungan satu sama lain, di mana menaruh ruang negatif. Baru setelah rencana itu ditetapkan model mulai menggambar piksel ke dalamnya. Reasoning tak terlihat olehmu, tetapi ia melakukan sebagian besar kerja struktural yang model lama coba pura-purakan di level piksel.
Pass ekstra itulah alasan komposisi padat akhirnya kokoh. Komik multi-panel menjaga balon ucapan tetap terpasang ke karakter yang tepat. Infografis menempatkan label pada batang yang benar dan judul pada hierarki yang benar. Mockup UI mengelompokkan kontrol ke dalam pola yang dapat dikenali alih-alih menyebarkan tombol dan label secara merata di kanvas. Keluaran terbaca sebagai sesuatu yang dipikirkan desainer dengan matang, bukan rata-rata yang digabungkan model.
Ini juga mengubah cara menulis prompt. Dengan model lama, prompt kompleks menghasilkan gambar kompromi, jadi gaya kerja adalah menjaga prompt sempit dan menumpuk generasi untuk merakit kompleksitas. Dengan GPT Image 2, model dapat menyerap brief yang lebih panjang dan tetap menghasilkan tata letak koheren, jadi kamu bisa menjelaskan seluruh komposisi dalam satu prompt dan percaya bahwa ia merencanakan bagian-bagiannya.
Multibahasa sejak rancangan
Kualitas rendering teks bertahan di aksara CJK (Mandarin sederhana dan tradisional, Jepang, Korea) maupun bahasa beralfabet Latin. Tidak ada model lain yang perlu digonta-ganti, tidak ada flag bahasa yang perlu diatur. Tulis prompt dalam bahasa yang ingin muncul di gambar, dan model memperlakukan aksara itu sebagai warga kelas satu.
Model gambar sebelumnya praktis dirilis dengan asumsi tersembunyi bahwa teks di dalam gambar akan berbahasa Inggris. Apa pun di luar itu meluruh jadi coretan berbentuk mirip huruf. Tim di pasar CJK merespons dengan menghindari pembuatan teks dalam gambar sepenuhnya, kembali ke alur overlay, atau membayar fine-tuning khusus region. Di sini semua itu tidak diperlukan.
Kalau kamu memproduksi konten yang dilokalkan untuk pasar Asia Timur — papan toko, artwork kemasan, unggahan sosial, kartu resep, menu restoran — inilah beda praktisnya antara memakai output generatif langsung dan membangun ulang layer teks di Photoshop atau Figma. Dalam pipeline yang mencetak puluhan varian lokal per minggu, selisih jam itu cepat menumpuk.
Karakter konsisten melintasi eksekusi terpisah
Jalankan ulang prompt yang sama dan karakter akan kembali dikenali dari generasi ke generasi — bentuk wajah yang sama, rambut yang sama, palet warna yang sama, detail kostum yang sama. Namun pada prompt yang berbeda, model tidak membawa subjek secara otomatis: salin paragraf deskripsi karakter ke setiap prompt adegan sebagai casting brief, dan model akan berpegang padanya. Tidak perlu LoRA khusus, tidak perlu fine-tune, tidak perlu gambar referensi.
Untuk storyboard, maskot brand, urutan instruksional, ilustrasi buku anak, seri komik sosial, dan setiap pekerjaan naratif di mana karakter perlu muncul lebih dari sekali, ini menghapus pulang-pergi melatih model kustom atau LoRA hanya untuk menstabilkan satu wajah. Tulis deskripsi karakter yang cermat sekali, lalu gunakan kembali paragraf itu sebagai jangkar karakter di setiap prompt adegan dan biarkan model mengerjakan konsistensinya.
Ada batas yang patut diketahui. Konsistensi paling kuat ketika deskripsi karakter rinci dan konkret: warna dan panjang rambut spesifik, kacamata, pakaian yang dapat dikenali, aksesori khas. Paling lemah saat karakter dideskripsikan samar, saat adegan mengubah pencahayaan atau gaya rendering secara drastis, atau saat petunjuk karakter terkubur di akhir prompt. Perlakukan deskripsi sebagai brief casting, bukan saran lunak.
Komposisi padat yang benar-benar bertahan
Kombinasi reasoning native dan rendering teks yang membaik berarti GPT Image 2 menangani komposisi yang diam-diam diturunkan oleh sistem lama: infografis berbasis data dengan banyak nilai berlabel, mockup UI seluler dengan toolbar, tab, dan daftar inbox, poster pemasaran multi-elemen dengan hierarki, mockup pengemasan dengan beberapa SKU dalam bingkai yang sama. Inilah komposisi yang membuat generasi AI terasa jelas asistif alih-alih dapat dipakai.
Di mana DALL·E 3 atau gpt-image-1 memampatkan kompleksitas menjadi kesan samar ― «gambar berbentuk infografis dengan tanda berbentuk angka» ― GPT Image 2 memperlakukan kepadatan sebagai spesifikasi dan berusaha menghormatinya. Batang mendapat label. Tab mendapat nama. Ikon toolbar mendapat bentuk yang dapat dibedakan. Hasilnya adalah sesuatu yang bisa direspons dan disempurnakan desainer, bukan sesuatu yang harus dibuang dan dimulai lagi dengan tata letak manual.
Peringatan jujur adalah bahwa tata letak sangat padat ― spread majalah satu halaman, dasbor kompleks dengan dua puluh widget berbeda, adegan padat dengan selusin prop berlabel ― tetap diuntungkan dari memecah brief menjadi pass yang lebih kecil. Generate grafiknya, lalu konteks sekitarnya, lalu komposisikan layer di alat yang memberimu kontrol level piksel. Ambang di mana compositing manual menang sudah bergerak naik banyak, tapi masih ada di ujung atas kompleksitas.
Penggunaan komersial, dengan catatan yang biasa
Gambar yang kamu buat dengan GPT Image 2 adalah milikmu untuk digunakan dalam proyek pribadi dan komersial, tunduk pada kebijakan konten OpenAI dan hukum yang berlaku. Tidak ada tingkat lisensi terpisah untuk di-upgrade, tidak ada model royalti untuk dibaca, tidak ada biaya pemakaian di atas biaya generasi. Keluaran milikmu sejak saat ia mendarat di akunmu, dan aigazou tidak mengklaim hak hilir atas apa yang kamu hasilkan.
Cakupan praktis: aset pemasaran, ilustrasi blog, mockup produk, konsep pengemasan, konten media sosial, karya dalam aplikasi, materi kursus, dokumen internal, thumbnail video, slide presentasi. Di mana kamu akan mempekerjakan ilustrator atau membayar stok, kamu dapat menggunakan gambar yang dibuat sebagai gantinya, dengan jenis due diligence yang sama yang akan kamu terapkan pada aset visual pihak ketiga mana pun.
Catatan yang biasa tetap berlaku — tidak boleh memakai kemiripan orang nyata tanpa izin, tidak boleh melanggar merek dagang atau karakter berhak cipta, tidak boleh membuat gambar menyesatkan tentang tokoh publik. Anggap kebijakan konten OpenAI sebagai kontrak, dan kamu sedang bekerja di dalam lisensi yang bersih untuk penggunaan komersial sehari-hari.
Edit tingkat piksel tanpa render ulang
Model sebelumnya memperlakukan setiap edit sebagai regenerasi utuh. Ubah satu kata pada poster dan seluruh gambar diundi ulang — latar bergeser, warna melenceng, detail yang tadi kamu suka hilang. Iterasi jadi seperti judi.
GPT Image 2 mendukung edit lokal yang hanya menyentuh area yang kamu tunjuk: mengganti judul, mengubah warna jaket, membetulkan label batang yang salah tempat, menggambar ulang sebuah tangan. Sisa gambar tetap identik per piksel, jadi iterasi menjadi tambahan — kunci komposisi yang kamu suka, lalu perbaiki satu detail yang mengganggu tanpa mempertaruhkan semua yang lain.
Dalam praktiknya ini menggantikan perjalanan bolak-balik ke Photoshop untuk koreksi kecil. Digabung dengan langkah penalaran, pembuatan gambar menjadi lebih mirip alur draft-dan-revisi: hasilkan tata letak yang kamu sukai, lalu edit detail di tempat sampai cocok dengan brief, alih-alih mengundi ulang seluruh bingkai tiap putaran.