سبعة أخطاء كانت النماذج السابقة ترتكبها، وكيف يعالجها هذا النموذج.
دقة تصيير نص بنحو 99%
كانت نماذج الصور الأقدم تستطيع رسم ملصق لكنها لا تستطيع رسم العنوان عليه. تتشوّه أشكال الحروف، تنهار المسافات، تنحرف الأسطر، وأي جليف خارج الأبجدية اللاتينية يتحول إلى ضجيج زخرفي. الحل المعتاد للالتفاف كان توليد الخلفية بأداة، إخفاء منطقة نظيفة بقناع، ثم إعادة إدراج النص يدويًا. كان يعمل، لكنه لم يكن توليدًا؛ كان تركيبًا ارتدى ثوب التوليد.
يسد GPT Image 2 هذه الفجوة. يفيد معيار OpenAI الخاص بأن دقة عرض النص تبلغ نحو 99% على النصوص القابلة للطباعة — الفقرات والأسعار والتعليقات والتسميات. تحافظ الحروف على نسبها، وتستقر الكلمات على خط قاعدة متسق، ويُقرأ النص القصير كأنه تصميم طباعي متعمّد لا أشكال تقريبية.
المعنى العملي أن العمل الفني والكلمات تخرج من نفس المسار. يمكنك تكرار ملصق فيلم أو قائمة مقهى أو شاشة تطبيق أو إنفوجرافيك بالطريقة التي يكرّر بها كاتب نسخة مسوّداته ― غيّر الموجِّه، أعد التوليد، اقرأ النتيجة. النص الآن جزء من الصورة، لا طبقة تُضاف لاحقًا.
يخطط للتخطيط قبل الرسم
يأتي GPT Image 2 بخطوة استدلال أصلية. قبل أن يُولَّد أي بكسل، يقسم النموذج الموجِّه إلى خطة منظَّمة: ما يوضع أين، أي العناصر في المقدمة، كيف ترتبط اللوحات ببعضها، أين تقع المساحة السلبية. لا يبدأ النموذج برسم البكسلات إلا بعد أن تستقر هذه الخطة. الاستدلال غير مرئي لك، لكنه ينجز معظم العمل البنيوي الذي حاولت النماذج الأقدم تزويره على مستوى البكسل.
هذه الخطوة الإضافية هي السبب في أن التراكيب الكثيفة تتماسك أخيرًا. تُبقي القصص المصورة متعددة اللوحات فقاعات الحوار مرتبطة بالمتحدّث الصحيح. تضع الإنفوجرافيكس التسميات على القضبان الصحيحة والعناوين في التسلسل الهرمي الصحيح. تجمع نماذج الواجهات عناصر التحكم في أنماط معروفة بدلًا من نثر الأزرار والتسميات بانتظام عبر اللوحة. تقرأ المخرجات كأنها ما فكّر فيه المصمم بعناية، لا كأنها متوسط حسبه نموذج.
هذا يغيّر أيضًا طريقة كتابة الموجِّهات. مع النماذج الأقدم، كانت الموجِّهات المعقدة تُنتج صورًا مساومة، فكان أسلوب العمل إبقاء الموجِّهات ضيقة وتكديس عمليات التوليد لتجميع التعقيد. مع GPT Image 2 يستطيع النموذج هضم موجز أطول وما يزال ينتج تخطيطًا متماسكًا، فبإمكانك وصف التركيب كله في موجِّه واحد والاعتماد على النموذج في تخطيط الأجزاء.
متعدد اللغات بحكم التصميم
تظل جودة عرض النص متماسكة عبر كتابات CJK (الصينية المبسطة والتقليدية واليابانية والكورية) إلى جانب اللغات ذات الأبجدية اللاتينية. لا يوجد نموذج آخر تتحول إليه ولا علَم لغوي تضبطه. اكتب البرومبت باللغة التي تريد ظهورها داخل الصورة، وسيعامل النموذج تلك الكتابة كمواطن من الدرجة الأولى.
كانت نماذج الصور السابقة تُشحَن عمليًا بافتراض خفي بأن النص داخل الصور سيكون بالإنجليزية. أي شيء آخر كان يتفكّك إلى علامات تشبه الحروف بشكل غامض. ردّت فرق أسواق CJK بتجنّب توليد النص داخل الصورة كليًا، أو بالعودة إلى سير عمل التراكب، أو بدفع تكاليف ضبط دقيق خاص بالمنطقة. لا شيء من ذلك مطلوب هنا.
إن كنت تنتج محتوى مُحلّيًا لأسواق شرق آسيا — لافتات متاجر، أعمال تغليف، منشورات اجتماعية، بطاقات وصفات، قوائم مطاعم — فهذا هو الفارق العملي بين استخدام الإخراج المُولَّد مباشرة وإعادة بناء طبقة النص في Photoshop أو Figma. في أنبوب يُنتج عشرات النسخ المُحلّية أسبوعيًا، يتراكم فارق الساعات بسرعة.
اتساق الشخصيات عبر عمليات توليد منفصلة
أعد تشغيل البرومبت نفسه وستعود الشخصية قابلة للتمييز جيلًا بعد جيل — الوجه نفسه، الشعر نفسه، لوحة الألوان نفسها، تفاصيل الزي نفسها. أما عبر برومبتات مختلفة فلن ينقل النموذج الشخصية تلقائيًا: انسخ فقرة وصف الشخصية إلى كل برومبت مشهد باعتبارها موجز اختيار ممثلين، وسيلتزم بها النموذج. لا حاجة إلى LoRA مخصص ولا إلى ضبط دقيق ولا إلى صورة مرجعية.
من أجل القصص المصورة وتعويذات العلامات وتسلسلات التعليم ورسوم كتب الأطفال وسلسلات الكوميك الاجتماعي وأي عمل سردي تظهر فيه شخصية أكثر من مرة، يُزيل هذا رحلة تدريب نموذج مخصص أو LoRA لمجرد إبقاء الوجه مستقرًا. اكتب وصف شخصية دقيقًا مرة واحدة، ثم أعد استخدام تلك الفقرة كمرساة شخصية في كل موجِّه مشهد ودع النموذج يقوم بعمل الاتساق نيابة عنك.
ثمة حدود يجدر معرفتها. الاتساق أقوى ما يكون عندما يكون وصف الشخصية مفصّلًا وملموسًا: لون شعر وطول محدّدان، نظارة، ملابس قابلة للتمييز، إكسسوارات مميزة. وأضعف ما يكون حين يُوصف الشخصية بشكل غامض، أو يُغيّر المشهد الإضاءة أو أسلوب التصيير جذريًا، أو تُدفن إشارات الشخصية في نهاية الموجِّه. تعامل مع الوصف كموجز اختيار توزيع لا اقتراح ناعم.
تكوينات مزدحمة تصمد فعلًا
اجتماع الاستدلال الأصلي وتصيير النص المحسّن يعني أن GPT Image 2 يتعامل مع التراكيب التي كانت الأنظمة الأقدم تتدهور فيها بهدوء: إنفوجرافيك مدفوع بالبيانات بقيم متعددة ذات تسميات، نماذج واجهات هواتف بأشرطة أدوات وعلامات تبويب وقوائم رسائل، ملصقات تسويقية متعددة العناصر بهرمية، نماذج تغليف بعدة SKU في نفس الإطار. هذه هي التراكيب التي كانت تجعل التوليد الذكي يُحسّ بأنه «مساعد بوضوح» لا «صالح للاستخدام».
حيث كان DALL·E 3 أو gpt-image-1 يضغط التعقيد إلى انطباع غامض ― «صورة بشكل إنفوجرافيك بعلامات تشبه الأرقام» ― يعامل GPT Image 2 الكثافة كمواصفات ويحاول احترامها. تُلصق التسميات بالقضبان. تأخذ علامات التبويب أسماء. تأخذ أيقونات شريط الأدوات أشكالًا قابلة للتمييز. النتيجة شيء يستطيع المصمم الردّ عليه وصقله، لا شيء يضطر إلى رميه والبدء من جديد بتخطيط يدوي.
التحفظ الصادق هو أن التخطيطات الكثيفة جدًا ― صفحة مجلة كاملة، لوحة معلومات معقدة بعشرين أداة منفصلة، مشاهد مزدحمة بعشرات العناصر المعنونة ― ما تزال تستفيد من تقسيم الموجز إلى مراحل أصغر. ولّد المخطط، ثم السياق المحيط، ثم ركّب الطبقات في أداة تتيح تحكمًا على مستوى البكسل. ارتفعت العتبة التي يربح عندها التركيب اليدوي بشكل كبير، لكنها ما زالت موجودة في الطرف الأعلى من التعقيد.
الاستخدام التجاري، مع التحفظات المعتادة
الصور التي تنشئها بـ GPT Image 2 لك لاستخدامها في مشاريع شخصية وتجارية، وفق سياسة محتوى OpenAI والقوانين السارية. لا فئة ترخيص منفصلة يجب الترقية إليها، لا نموذج إتاوات يجب قراءته، لا رسم استخدام يُضاف فوق تكلفة التوليد. المخرَج لك من اللحظة التي يصل فيها إلى حسابك، ولا يدّعي aigazou أي حقوق تالية على ما تنتجه.
النطاق العملي: أصول تسويقية، رسومات مدوّنات، نماذج منتجات، مفاهيم تغليف، محتوى وسائل التواصل، أعمال فنية داخل التطبيق، مواد تعليمية، مستندات داخلية، صور مصغّرة لفيديو، شرائح عروض. حيث كنت ستوظّف رسامًا أو تشتري صورة من بنوك الصور، يمكنك استخدام صورة مُولَّدة بدلًا من ذلك، مع تطبيق نفس مستوى العناية الواجبة الذي تطبقه على أي أصل بصري لطرف ثالث.
تبقى التحفظات المعتادة سارية — لا تشبيه بأشخاص حقيقيين دون موافقتهم، ولا انتهاك لعلامات تجارية أو شخصيات محمية بحقوق النشر، ولا صور مضللة لشخصيات عامة. عامل سياسة المحتوى في OpenAI بوصفها العقد، وستعمل ضمن ترخيص نظيف للاستخدام التجاري اليومي.
تحرير بدقة البكسل بلا إعادة توليد
كانت النماذج السابقة تعامل كل تعديل كإعادة توليد كاملة. تغيّر كلمة واحدة على ملصق فتُعاد الصورة كلها رمي نرد — تتزحزح الخلفية، وتنحرف الألوان، وتختفي التفاصيل التي أعجبتك قبل لحظة. صار التكرار مقامرة.
يدعم GPT Image 2 تعديلات موضعية تلمس فقط المنطقة التي تحددها: استبدال عنوان، إعادة تلوين سترة، تصحيح تسمية شريط في رسم بياني، إعادة رسم يد. يبقى بقية الصورة متطابقًا بكسلًا ببكسل، فيصبح التكرار تراكميًا — ثبّت تكوينًا أعجبك ثم أصلح التفصيل الوحيد الذي يختل، دون المخاطرة بكل شيء آخر مجددًا.
في الممارسة يستبدل هذا الذهاب والعودة إلى Photoshop لأجل التعديلات الصغيرة. مع خطوة الاستدلال، يقترب توليد الصور من تدفق «مسودة ثم مراجعة»: ولّد تخطيطًا يرضيك ثم عدّل التفاصيل في مكانها حتى تطابق الموجز، بدلًا من إعادة رمي الإطار بأكمله في كل تمريرة.