99% पाठ रेंडरिंग सटीकता
पहले के छवि मॉडल पोस्टर बना सकते थे लेकिन उस पर का शीर्षक नहीं। अक्षर-आकार मुड़ जाते, कर्निंग ढह जाती, पंक्तियाँ बहक जातीं, और लैटिन वर्णमाला से बाहर का कोई भी ग्लिफ़ सजावटी शोर बन जाता। मानक उपाय यह था कि पृष्ठभूमि एक टूल में बनाओ, साफ़ क्षेत्र मास्क करो, और फिर पाठ हाथ से वापस डालो। यह काम करता था, पर वह जनरेशन नहीं था; वह जनरेशन का चोला पहने कंपोज़िशन था।
GPT Image 2 उस फासले को पाटता है। OpenAI का अपना बेंचमार्क मुद्रण योग्य टेक्स्ट — पैराग्राफ, कीमतें, कैप्शन और लेबल — पर लगभग 99% टेक्स्ट रेंडरिंग सटीकता बताता है। अक्षर अपने अनुपात बनाए रखते हैं, शब्द स्थिर बेसलाइन पर बैठते हैं, और छोटा टेक्स्ट जानबूझकर तैयार की गई टाइपोग्राफी की तरह पढ़ा जाता है, कामचलाऊ आकार जैसा नहीं।
व्यावहारिक रूप से, कलाकृति और शब्द एक ही पास से निकलते हैं। आप एक फ़िल्म पोस्टर, कैफ़े मेन्यू, ऐप स्क्रीन या इन्फ़ोग्राफ़िक पर वैसे ही दोहरा सकते हैं जैसे कोई कॉपीराइटर ड्राफ़्ट पर दोहराता है ― प्रॉम्प्ट बदलें, फिर बनाएँ, परिणाम पढ़ें। पाठ अब चित्र का हिस्सा है, बाद में जोड़ी जाने वाली परत नहीं।
बनाने से पहले लेआउट की योजना बनाता है
GPT Image 2 के साथ नेटिव रीज़निंग चरण आता है। कोई पिक्सेल बनने से पहले, मॉडल प्रॉम्प्ट को एक संरचित योजना में तोड़ता है: क्या कहाँ जाएगा, कौन से तत्व अग्रभूमि में हैं, पैनल आपस में कैसे संबंधित हैं, नकारात्मक स्थान कहाँ रहेगा। उस योजना के तय होने के बाद ही मॉडल उसके भीतर पिक्सेल बनाना शुरू करता है। रीज़निंग आपको दिखाई नहीं देती, पर वह संरचनात्मक काम का अधिकांश भाग करती है जिसे पुराने मॉडल पिक्सेल-स्तर पर नक़ली बनाने की कोशिश करते थे।
यही अतिरिक्त पास वह कारण है कि घनी रचनाएँ अंततः टिकती हैं। बहु-पैनल कॉमिक स्पीच बबल को सही पात्र से जोड़े रखते हैं। इन्फ़ोग्राफ़िक लेबल को सही बार पर और शीर्षक को सही पदानुक्रम में रखते हैं। UI मॉकअप नियंत्रणों को पहचान-योग्य पैटर्न में समूहीकृत करते हैं, बजाय बटन और लेबल को कैनवास पर समान रूप से छिटकाने के। आउटपुट ऐसा पढ़ा जाता है जैसे किसी डिज़ाइनर ने इसे सोच-समझ कर किया हो, न कि मॉडल ने औसत निकाला हो।
इससे प्रॉम्प्ट लिखने का तरीक़ा भी बदलता है। पुराने मॉडलों के साथ, जटिल प्रॉम्प्ट समझौताकृत चित्र देते थे, इसलिए कार्य-शैली प्रॉम्प्ट को संकीर्ण रखकर जटिलता को कई जनरेशन से जोड़ने की थी। GPT Image 2 के साथ, मॉडल लंबे ब्रीफ़ को निगलकर भी सुसंगत लेआउट बना सकता है, इसलिए आप पूरी रचना को एक प्रॉम्प्ट में वर्णित कर सकते हैं और भागों की योजना उस पर छोड़ सकते हैं।
डिज़ाइन से ही बहुभाषी
टेक्स्ट रेंडरिंग की गुणवत्ता CJK लिपियों (चीनी सरलीकृत और पारंपरिक, जापानी, कोरियाई) तथा लैटिन वर्णमाला की भाषाओं में टिकती है। किसी अलग मॉडल पर जाने की ज़रूरत नहीं, कोई भाषा फ्लैग सेट करने की भी नहीं। जिस भाषा में छवि में टेक्स्ट चाहिए उसी में प्रॉम्प्ट लिखें, मॉडल उस लिपि को पहली श्रेणी का नागरिक मानता है।
पिछले इमेज मॉडलों में असल में यह छुपी हुई मान्यता थी कि इमेज के अंदर का टेक्स्ट अंग्रेज़ी में होगा। बाक़ी सब कुछ हल्के-फुल्के अक्षर-जैसे निशानों में घुल जाता था। CJK बाज़ारों की टीमें या तो इमेज के अंदर टेक्स्ट जनरेट करने से पूरी तरह बचतीं, ओवरले वर्कफ़्लो पर लौट जातीं, या क्षेत्र-विशेष फ़ाइन-ट्यून के लिए पैसे खर्च करतीं। यहाँ इनमें से कुछ भी ज़रूरी नहीं।
अगर आप पूर्वी एशियाई बाज़ारों के लिए स्थानीयकृत कंटेंट बनाते हैं — दुकान के साइन, पैकेजिंग आर्टवर्क, सोशल पोस्ट, रेसिपी कार्ड, रेस्तराँ मेन्यू — तो यही फ़र्क़ है जनरेट किए आउटपुट को सीधे इस्तेमाल करने और Photoshop या Figma में टेक्स्ट लेयर को फिर से बनाने के बीच। हर हफ़्ते दर्जनों स्थानीयकृत वैरिएंट उत्पन्न करने वाली पाइपलाइन में घंटे-प्रति-वैरिएंट का फ़र्क़ तेज़ी से जुड़ता है।
अलग-अलग रनों में पात्र निरंतरता
वही प्रॉम्प्ट दोबारा चलाइए और चरित्र जनरेशन-दर-जनरेशन पहचानने योग्य रूप में वापस आता है — वही चेहरे का आकार, वही बाल, वही रंग पट्टिका, वही पोशाक के संकेत। अलग-अलग प्रॉम्प्ट्स में मॉडल विषय को अपने-आप आगे नहीं ले जाता: चरित्र वर्णन का वही पैराग्राफ हर दृश्य-प्रॉम्प्ट में कास्टिंग ब्रीफ की तरह चिपकाएँ, मॉडल उसी पर टिकेगा। न कस्टम LoRA की ज़रूरत है, न फाइन-ट्यून की, न किसी सीड इमेज की।
स्टोरीबोर्ड, ब्रांड मस्कट, अनुदेशात्मक अनुक्रम, बच्चों की किताबों के चित्र, सोशल कॉमिक श्रृंखलाएँ और हर वह कथात्मक काम जिसमें एक पात्र को एक से अधिक बार आना हो ― यह केवल एक चेहरा स्थिर रखने के लिए कस्टम मॉडल या LoRA प्रशिक्षित करने की आवाजाही ख़त्म करता है। आप एक बार सावधानीपूर्वक पात्र-विवरण लिखें, फिर उसी अनुच्छेद को हर दृश्य प्रॉम्प्ट में पात्र-एंकर के रूप में दोबारा इस्तेमाल करें और निरंतरता का काम मॉडल पर छोड़ दें।
जान लेने योग्य सीमाएँ हैं। निरंतरता तब सबसे मज़बूत होती है जब पात्र-विवरण विस्तृत और ठोस हो: निश्चित बालों का रंग और लंबाई, चश्मा, पहचान-योग्य कपड़े, विशेष सहायक उपकरण। तब सबसे कमज़ोर होती है जब पात्र अस्पष्ट रूप से वर्णित हो, जब दृश्य प्रकाश या रेंडरिंग शैली में अत्यधिक बदलाव हो, या जब पात्र-संकेत प्रॉम्प्ट के अंत में दबे हों। विवरण को कास्टिंग ब्रीफ़ की तरह लें, हल्के सुझाव की तरह नहीं।
घनी रचनाएँ जो सच में जम कर टिकती हैं
नेटिव रीज़निंग और सुधरी हुई पाठ रेंडरिंग का संयोजन यह दर्शाता है कि GPT Image 2 उन रचनाओं को संभालता है जिनमें पुराने सिस्टम चुपचाप घटिया हो जाते थे: कई लेबल वाले डेटा-संचालित इन्फ़ोग्राफ़िक, टूलबार-टैब-इनबॉक्स वाले मोबाइल UI मॉकअप, पदानुक्रम वाले बहु-तत्व मार्केटिंग पोस्टर, एक ही फ़्रेम में कई SKU वाले पैकेजिंग मॉकअप। ये वही रचनाएँ थीं जो AI जनरेशन को «स्पष्ट रूप से सहायक» होने का एहसास कराती थीं, «उपयोग-योग्य» का नहीं।
जहाँ DALL·E 3 या gpt-image-1 जटिलता को एक धुंधले प्रभाव में दबा देते थे ― «संख्याओं जैसी आकृतियों के साथ इन्फ़ोग्राफ़िक-जैसा चित्र» ― GPT Image 2 घनत्व को विनिर्देश के रूप में लेता है और उसका सम्मान करने की कोशिश करता है। बार पर लेबल लगते हैं। टैब के नाम मिलते हैं। टूलबार आइकनों को विशिष्ट आकृतियाँ मिलती हैं। परिणाम वह है जिस पर डिज़ाइनर प्रतिक्रिया देकर निखार सके, न कि वह जिसे फेंककर मैन्युअल लेआउट से शून्य से शुरू करना पड़े।
ईमानदारी से चेतावनी यह है कि बहुत घने लेआउट ― पूरे पन्ने की पत्रिका, बीस अलग विजेट वाले जटिल डैशबोर्ड, दर्जन-भर लेबल वाली प्रोप वाली अव्यवस्थित दृश्य ― अब भी ब्रीफ़ को छोटे पास में बाँटने से लाभ पाते हैं। चार्ट बनाएँ, फिर आसपास का संदर्भ, फिर एक ऐसे टूल में परतों का संयोजन करें जो पिक्सेल-स्तर का नियंत्रण देता हो। मैन्युअल कंपोज़िटिंग जिस सीमा पर जीतता है वह उल्लेखनीय रूप से ऊपर बढ़ी है, लेकिन जटिलता के ऊँचे छोर पर अब भी मौजूद है।
वाणिज्यिक उपयोग, सामान्य चेतावनियों के साथ
आप GPT Image 2 से जो चित्र बनाते हैं वे OpenAI की कंटेंट पॉलिसी और लागू क़ानून के अधीन व्यक्तिगत और व्यावसायिक प्रोजेक्ट में आपके इस्तेमाल के लिए हैं। न कोई अलग लाइसेंस-स्तर जिसमें अपग्रेड करना हो, न कोई रॉयल्टी मॉडल जिसे पढ़ना हो, न जनरेशन-लागत के ऊपर कोई उपयोग-शुल्क। आउटपुट उसी क्षण से आपका है जब वह आपके खाते में आता है, और aigazou आपके बनाए पर कोई आगे का अधिकार नहीं जताता।
व्यावहारिक दायरा: मार्केटिंग आस्तियाँ, ब्लॉग चित्र, उत्पाद मॉकअप, पैकेजिंग कांसेप्ट, सोशल मीडिया कंटेंट, ऐप-आंतरिक कलाकृति, कोर्स सामग्री, आंतरिक दस्तावेज़, वीडियो थंबनेल, प्रस्तुति स्लाइड्स। जहाँ आप किसी चित्रकार को रखते या स्टॉक के लिए भुगतान करते, वहाँ बजाय इसके आप एक उत्पन्न चित्र उपयोग कर सकते हैं, उसी तरह की उचित जाँच के साथ जो आप किसी तीसरे-पक्ष दृश्य आस्ति पर लागू करते।
सामान्य चेतावनियाँ अब भी लागू हैं — सहमति के बिना असली लोगों की शक्ल नहीं, ट्रेडमार्क या कॉपीराइट वाले चरित्रों का उल्लंघन नहीं, सार्वजनिक व्यक्तियों की गुमराह करने वाली छवियाँ नहीं। OpenAI की कंटेंट पॉलिसी को अनुबंध मानिए और आप रोज़मर्रा के वाणिज्यिक उपयोग के लिए एक साफ लाइसेंस में काम कर रहे हैं।
बिना दोबारा रेंडर किए पिक्सेल-स्तरीय एडिट
पुराने मॉडल हर एडिट को पूरी तरह दोबारा जनरेट करते थे। पोस्टर पर एक शब्द बदलिए और पूरी छवि फिर से डाल दी जाती थी — बैकग्राउंड खिसक जाता, रंग हट जाते, अभी-अभी पसंद आए डिटेल गायब हो जाते। पुनरावृत्ति जुए जैसी हो गई थी।
GPT Image 2 स्थानिक एडिट का समर्थन करता है जो केवल आपके बताए क्षेत्र को छूते हैं: शीर्षक बदलना, जैकेट का रंग बदलना, किसी बार का गलत लगा लेबल ठीक करना, हाथ दोबारा बनाना। बाकी छवि पिक्सेल-दर-पिक्सेल वैसी ही रहती है, इसलिए पुनरावृत्ति जोड़-जोड़ कर बढ़ती है — पसंद आई रचना लॉक करें और फिर जो एक डिटेल खटक रही है केवल उसी को ठीक करें, बाकी सब को दोबारा जोखिम में डाले बिना।
व्यवहार में यह छोटी-छोटी ठीक-ठाकों के लिए Photoshop तक की आवाजाही की जगह ले लेता है। रीज़निंग स्टेप के साथ मिलकर छवि-जनरेशन एक ड्राफ्ट-और-संशोधन वर्कफ़्लो जैसा हो जाता है: पसंद आया लेआउट जनरेट कीजिए, फिर उसी जगह डिटेल्स को तब तक बदलते रहिए जब तक वे ब्रीफ से मेल न खा जाएँ, हर बार पूरी छवि नए सिरे से फेंके बिना।