Eski görsel modellerin yanlış yaptığı yedi şey ve bu modelin onları nasıl düzelttiği.
%99 metin işleme doğruluğu
Önceki görsel modeller poster çizebiliyordu ama üzerindeki başlığı çizemiyordu. Harf biçimleri eğriliyordu, kerning çöküyordu, satırlar kayıyordu ve Latin alfabesi dışındaki herhangi bir glif dekoratif gürültüye dönüşüyordu. Standart yol bir araçta arka planı üretmek, temiz bir alanı maskelemek ve ardından metni elle yeniden yerleştirmekti. İşe yarıyordu ama üretim değildi; üretim kılığına bürünmüş kompozit oluşturmaktı.
GPT Image 2 bu aralığı kapatıyor. OpenAI'ın kendi kıyaslaması, yazdırılabilir metinde — paragraflar, fiyatlar, altyazılar ve etiketlerde — yaklaşık %99'luk bir metin oluşturma doğruluğu bildiriyor. Harfler oranlarını koruyor, kelimeler tutarlı bir taban çizgisine oturuyor ve kısa metin yaklaşık şekiller gibi değil, amaçlı tipografi gibi okunuyor.
Pratik anlamı, sanat eseri ve kelimelerin aynı geçişten çıkmasıdır. Bir film posterini, kafe menüsünü, uygulama ekranını veya infografiği bir copywriter'ın taslakları üzerinde gözden geçirdiği gibi gözden geçirebilirsiniz ― prompt'u değiştirin, yeniden üretin, sonucu okuyun. Metin artık görselin parçası, sonradan eklediğiniz bir katman değil.
Çizmeden önce yerleşimi planlıyor
GPT Image 2 yerel bir akıl yürütme adımıyla geliyor. Tek bir piksel üretilmeden önce model prompt'u yapılandırılmış bir plana ayırır: ne nereye gidecek, hangi unsurlar ön planda, paneller birbiriyle nasıl ilişkili, negatif boşluk nerede duracak. Ancak o plan kesinleştikten sonra model içine piksel çizmeye başlar. Akıl yürütme size görünmez ama eski modellerin piksel düzeyinde taklit etmeye çalıştığı yapısal işin çoğunu yapar.
Bu fazladan geçiş, yoğun kompozisyonların sonunda tutmasının nedenidir. Çok panelli çizgi romanlar konuşma balonlarını doğru karaktere bağlı tutar. İnfografikler etiketleri doğru çubuklara, başlıkları doğru hiyerarşiye yerleştirir. Arayüz mockup'ları kontrolleri tanınabilir desenlerde gruplar, butonları ve etiketleri tuvalin her yerine eşit dağıtmaz. Çıktı bir tasarımcının üzerinde düşündüğü bir şey gibi, bir modelin ortalamasını aldığı bir şey gibi değil okunur.
Bu, prompt yazma şeklini de değiştiriyor. Eski modellerle karmaşık prompt'lar tavizli görseller üretiyordu, bu yüzden çalışma tarzı prompt'ları dar tutmak ve karmaşıklığı kurmak için üretimleri üst üste koymaktı. GPT Image 2 ile model daha uzun bir brief'i sindirip yine tutarlı bir yerleşim üretebiliyor, dolayısıyla tüm kompozisyonu tek bir prompt'ta tarif edip parçaların planlamasını ona bırakabilirsiniz.
Tasarım itibariyle çok dilli
Metin oluşturma kalitesi CJK yazılarında (Çince Sadeleştirilmiş ve Geleneksel, Japonca, Korece) ve Latin alfabeli dillerde birlikte ayakta kalıyor. Geçiş yapılacak ayrı bir model yok, ayarlanacak bir dil bayrağı da. Prompt'u görselin içinde görmek istediğin dilde yaz, model o yazıyı birinci sınıf vatandaş olarak ele alıyor.
Önceki görüntü modelleri fiilen, görüntü içindeki metnin İngilizce olacağı örtük varsayımıyla çıkıyordu. Başka herhangi bir şey bulanık harf benzeri izlere dönüşüyordu. CJK pazarlarındaki ekipler bu yüzden görüntü içi metin üretmekten tümüyle kaçındı, bindirme akışlarına geri döndü ya da bölgeye özel fine-tune'lara para harcadı. Burada bunların hiçbiri gerekmiyor.
Doğu Asya pazarları için yerelleştirilmiş içerik üretiyorsan — dükkan tabelaları, ambalaj grafikleri, sosyal medya paylaşımları, tarif kartları, restoran menüleri — bu, üretilen çıktıyı doğrudan kullanmakla Photoshop ya da Figma'da metin katmanını yeniden kurmak arasındaki pratik farkı anlatır. Haftada onlarca yerelleştirilmiş varyant üreten bir hatta, saat bazındaki fark hızla birikir.
Ayrı çalıştırmalar boyunca tutarlı karakterler
Aynı prompt'u yeniden çalıştır, karakter üretimden üretime tanınır halde geri dönüyor — aynı yüz biçimi, aynı saç, aynı palet, aynı kostüm ipuçları. Ancak farklı prompt'larda model özneyi otomatik olarak taşımıyor: karakter tanımı paragrafını her sahne prompt'una bir casting brief'i olarak kopyala, model ona sadık kalır. Özel LoRA, fine-tune veya tohum görseli gerekmez.
Storyboard'lar, marka maskotları, talimat dizileri, çocuk kitabı illüstrasyonları, sosyal çizgi roman dizileri ve bir karakterin birden fazla görünmesi gereken her anlatı işi için bu, sadece bir yüzü sabit tutmak için özel model veya LoRA eğitmenin gidip gelmesini ortadan kaldırır. Dikkatli bir karakter tanımı bir kez yazarsınız, sonra o paragrafı her sahne prompt'unda karakter çıpası olarak yeniden kullanır ve tutarlılık işini modele bırakırsınız.
Bilinmeye değer sınırlar var. Tutarlılık karakter tanımı ayrıntılı ve somut olduğunda en güçlüdür: belirli saç rengi ve uzunluğu, gözlük, tanınabilir kıyafet, ayırt edici aksesuarlar. Karakter belirsiz tanımlandığında, sahne aydınlatma veya işleme stilini köklü değiştirdiğinde ya da karakter ipuçları prompt'un sonuna gömüldüğünde en zayıftır. Tanımı yumuşak bir öneri değil, bir oyuncu seçim brief'i gibi ele alın.
Gerçekten bir arada duran yoğun kompozisyonlar
Yerel akıl yürütme ve geliştirilmiş metin işlemenin birleşimi, GPT Image 2'nin eski sistemlerin sessizce bozulduğu kompozisyonları işleyebilmesi anlamına geliyor: birden çok etiketli değerle veri odaklı infografikler, araç çubukları, sekmeleri ve gelen kutusu listeleri olan mobil arayüz mockup'ları, hiyerarşili çok unsurlu pazarlama posterleri, aynı karede birkaç SKU içeren ambalaj mockup'ları. Bunlar, AI üretimini açıkça «yardımcı» yerine «kullanılabilir» hissettirmemekten sorumlu olan kompozisyonlardı.
DALL·E 3 veya gpt-image-1 karmaşıklığı belirsiz bir izlenime sıkıştırırken ― «sayı şeklindeki işaretlerle infografik benzeri görsel» ― GPT Image 2 yoğunluğu spec olarak ele alır ve onu onurlandırmaya çalışır. Çubuklar etiket alır. Sekmeler isim alır. Araç çubuğu simgeleri ayırt edilebilir şekiller alır. Sonuç bir tasarımcının üzerinde tepki verip rafine edebileceği bir şeydir, atıp manuel yerleşimle sıfırdan başlamak zorunda kalacağı bir şey değil.
Dürüst uyarı şu ki çok yoğun yerleşimler ― bir sayfa dergi açılımları, yirmi farklı widget'lı karmaşık panolar, düzinelerce etiketli aksesuarlı kalabalık sahneler ― hâlâ brief'i daha küçük geçişlere bölmekten faydalanır. Grafiği üretin, ardından çevre bağlamı, ardından katmanları piksel düzeyinde kontrol veren bir araçta bir araya getirin. Manuel kompozisyonun kazandığı eşik epey yukarı taşındı ama karmaşıklığın üst ucunda hâlâ var.
Ticari kullanım, bilinen uyarılarla
GPT Image 2 ile ürettiğiniz görseller OpenAI içerik politikasına ve geçerli yasaya tabi olarak kişisel ve ticari projelerde kullanmanız için sizindir. Yükseltmeniz gereken ayrı bir lisans seviyesi yok, okunması gereken bir telif modeli yok, üretim maliyetinin üzerine eklenen bir kullanım ücreti yok. Çıktı hesabınıza düştüğü andan itibaren sizindir ve aigazou ürettiklerinize ilişkin sonraki haklar talep etmez.
Pratik kapsam: pazarlama varlıkları, blog illüstrasyonları, ürün mockup'ları, ambalaj konseptleri, sosyal medya içeriği, uygulama içi sanat, kurs materyalleri, dahili belgeler, video küçük resimleri, sunum slaytları. Bir illüstratör tutacağınız veya stok için ödeme yapacağınız yerde bunun yerine üretilen bir görsel kullanabilirsiniz, herhangi bir üçüncü taraf görsel varlığa uygulayacağınız aynı durum tespit adımlarıyla.
Bilinen uyarılar hâlâ geçerli — izinsiz gerçek kişi benzerliği yok, ticari markalara veya telifli karakterlere tecavüz yok, kamuoyu figürlerini yanıltıcı biçimde gösteren görseller yok. OpenAI'ın içerik politikasını sözleşme olarak ele al, gündelik ticari kullanım için temiz bir lisans içinde çalışıyor olursun.
Yeniden render gerektirmeyen piksel düzeyinde düzenlemeler
Önceki modeller her düzenlemeyi tam bir yeniden üretim olarak ele alırdı. Bir poster üzerinde tek bir kelimeyi değiştir, tüm görsel yeniden atılıyor — arka plan kayıyor, renkler sapıyor, az önce beğendiğin detaylar kayboluyor. Yineleme kumara dönmüştü.
GPT Image 2 yalnızca işaret ettiğin bölgeye dokunan yerel düzenlemeleri destekliyor: başlığı değiştirmek, bir ceketi yeniden renklendirmek, yanlış yerleştirilmiş bir çubuk etiketini düzeltmek, bir eli yeniden çizmek. Görselin kalanı piksel bazında aynı kalıyor, böylece yineleme birikimli hâle geliyor — beğendiğin kompozisyonu sabitle, ardından uyuşmayan tek detayı düzelt, geri kalanı yeniden tehlikeye atmadan.
Pratikte bu, küçük düzeltmeler için Photoshop'a gidip gelmenin yerine geçiyor. Akıl yürütme adımıyla birleştiğinde görsel üretimi taslak-ve-revizyon akışına yaklaşıyor: memnun kaldığın bir düzen üret, sonra her turda tüm kareyi yeniden atmak yerine ayrıntıları yerinde brief'e uyana dek düzenle.