جربتُ ميزة توليد الصور الأصلية الجديدة في Gemini، وهي مذهلة للغاية

المُلخص:

أطلقت Google ميزة توليد الصور وتحريرها أصلياً باستخدام نموذج Gemini 2.0 Flash التجريبي الجديد.
الميزة متاحة مجاناً على AI Studio الآن، ويمكنك توليد سلسلة من الصور المتناسقة وتحريرها باستخدام أوامر نصية بسيطة.
يمكنك إزالة وإضافة عناصر، وإدراج نصوص، وتلوين الصور، وإنشاء قصة مرئية، وغير ذلك الكثير.

لطالما سمعنا بمصطلح “متعدد الوسائط أصلياً” في مجال الذكاء الاصطناعي لأكثر من عام، لكن الشركات كانت بطيئة في إطلاق العنان للإمكانيات الكاملة متعددة الوسائط لنماذج الذكاء الاصطناعي الخاصة بها حتى الآن. أصدرت Google أخيراً أحدث نموذج لها “Gemini 2.0 Flash Experimental” مع القدرة على توليد الصور وتحريرها أصلياً.

الآن، قد تتساءل، ما هي أهمية توليد الصور؟ تُتاح ميزة توليد الصور بالذكاء الاصطناعي مع جميع روبوتات الدردشة الرئيسية بالذكاء الاصطناعي مثل ChatGPT منذ فترة. حسناً، عندما نولد صوراً بالذكاء الاصطناعي على ChatGPT أو Gemini، يتم توجيه الأمر إلى نموذج متخصص قائم على الانتشار مثل Dall-E 3 أو Imagen 3. يتم تدريب هذه النماذج على الصور ومصممة فقط لتوليد الصور؛ فهي بمثابة امتداد لنموذج الذكاء الاصطناعي الرئيسي وليست جزءاً منه.

ومع ذلك، فإن نماذج الرؤية اللغوية مثل Gemini متعددة الوسائط أصلياً، مما يعني أنها تستطيع فهم وتوليد وتعديل كل من النصوص والصور بشكل متأصل. حتى الآن، لم تُتح أي شركة تقنية هذه الإمكانية للمستخدمين. عرضت OpenAI ميزة توليد الصور الأصلية الخاصة بها مع GPT-4o في 2024، ولكن مرة أخرى، لم يتم إصدارها أبداً.

مع ميزة توليد الصور الأصلية، ستحصل على تناسق أفضل حيث يتم تدريب النماذج متعددة الوسائط على مجموعة بيانات ضخمة من وسائط مختلفة. نتيجة لذلك، تتميز هذه النماذج بفهم أفضل للمفاهيم وتُظهر معرفة أوسع بالعالم.

بالإضافة إلى توليد الصور، يمكنك تحرير الصور بسلاسة باستخدام أوامر نصية بسيطة. على سبيل المثال، يمكنك تحميل صورة وطلب من النموذج إضافة نظارات شمسية، أو إدراج نصوص واضحة، أو إزالة عناصر، والمزيد إلى الصورة. وعلى عكس نماذج الانتشار التي تُعيد توليد الصورة بأكملها مع كل أمر جديد، فإن النماذج متعددة الوسائط الأصلية تحافظ على التناسق عبر تعديلات متعددة.

إنشاء الصور باستخدام Gemini 2.0 Flash التجريبي

حاليًا، ميزة إنشاء الصور الأصلية غير متاحة للمستخدمين العامين. يتوفر نموذج Gemini 2.0 Flash التجريبي مع ميزة إنشاء الصور الأصلية فقط على منصة AI Studio من Google (زيارة) مجانًا.

بعد معاينة النموذج على AI Studio، سيتم إصداره على Gemini ليستخدمه الجميع في المستقبل القريب. ومع ذلك، قمتُ بتجربة نموذج Gemini الجديد مع ميزة إنشاء الصور، وكانت تجربة مثيرة للغاية.

أولًا، بدأتُ بدليل مرئي لعرض اتساق قدرة Gemini على إنشاء الصور. طلبتُ من Gemini إنشاء دليل مرئي حول كيفية صنع عجة، مع إنشاء صورة لكل خطوة من خطوات العملية.

كما تلاحظ، فالنتائج متسقة للغاية عبر الصور بدون أي أخطاء. حتى الوعاء هو نفسه في الصورة الثانية. أخيرًا، يمكنك تنزيل الصور بدقة 1024 × 680. بهذه الطريقة، يمكنك إنشاء دليل مرئي لأي شيء تريده.

بعد ذلك، طلبت من Gemini إنشاء صورة طاولة جمالية، ثم طلبت منه عرض الطاولة من زاوية الكاميرا المركزية. لقد قام بعمل مثالي. بعد ذلك، طلبت من Gemini إضافة جهاز PlayStation إلى الطاولة وإلقاء نظرة عن قرب. مرة أخرى، أجاد Gemini ذلك. كما ترى أدناه، قام نموذج الذكاء الاصطناعي أيضًا بتضمين انعكاس لجهاز PS5 في المرآة خلفه.

لإظهار تعديل الصور الأصلي، قمتُ بتحميل صورة من معرض الصور الخاص بي وطلبتُ من Gemini 2.0 إزالة كأس النبيذ من على الطاولة. بعد ذلك، طلبتُ من Gemini إضافة الفطر إلى البيتزا، وقد قام بمهمة رائعة. ثم طلبتُ من Gemini إضافة كرواسون، وها هو لديك تعديل الصور بالذكاء الاصطناعي بجميع مميزاته، وذلك بفضل إمكانيات Gemini المتعددة الوسائط.

بعد ذلك، قمتُ بتحميل صورة لي، وطلبتُ من Gemini إضافة نظارات شمسية ثم إضافة نص “Beebom” على قميصي. وقد تم تنفيذ كليهما بشكل جيد للغاية.

أخيرًا، طلبتُ من Gemini تلوين صورة، وقد نجح في ذلك بشكل جيد أيضًا. أعني، الصورة أصبحت أجمل مما كانت عليه من قبل، دون أي أخطاء غريبة أو تشوهات أو فقدان أي جزء من الصورة.

هناك العديد من حالات الاستخدام هذه التي يمكنك تجربتها مع إمكانيات Gemini الجديدة متعددة الوسائط. لقد قامت Google بعمل رائع في مجال إنشاء وتحرير الصور الأصلي، وأنا أخطط لاستخدامه بشكل أكثر دقة في الأسابيع المقبلة لاختبار حدوده.

بعد إصدار Veo 2 لإنشاء الفيديوهات و Imagen 3 لإنشاء الصور المتخصصة، يبدو أن Google قد تفوقت على OpenAI في العديد من المجالات؛ ليس فقط في مجال توليد النصوص بالذكاء الاصطناعي. لذلك، سيكون من المثير للاهتمام أن نرى ما ستفعله OpenAI لاستعادة الصدارة مع ChatGPT.