اختبرت 5 من أفضل مولدات الصور بالذكاء الاصطناعي باستخدام NightCafe – وهذا المولد تفوق على البقية

جميع أدواتك المفضلة في مكان واحد

0

في عصر الذكاء الاصطناعي التوليدي، تتسابق الشركات لتقديم أفضل الأدوات والمنصات التي تمكن المستخدمين من إنشاء محتوى إبداعي بسهولة وكفاءة. من بين هذه الأدوات، تبرز أسماء مثل Midjourney و ChatGPT و Gemini، وغيرها، كخيارات رائدة في مجالات توليد الصور والنصوص.

المنافسة في مجال مولدات الصور بالذكاء الاصطناعي محتدمة، حيث تتنافس شركات متعددة مثل Ideogram و Midjourney و OpenAI لإقناعك باستخدام منتجاتها. لهذا السبب أنا من المعجبين بـ NightCafe وأستخدمه منذ بضع سنوات. فهو يجمع جميع النماذج الرئيسية في مكان واحد، بما في ذلك DALL-E 3 و Flux و Google Imagen و Ideogram.

لقطة تم إنشاؤها بواسطة الذكاء الاصطناعي تظهر باريستا يسلم امرأة قهوة

لقد أنشأت الكثير من الصور بالذكاء الاصطناعي على مر السنين، وكل نموذج يقدم شيئًا مختلفًا. على سبيل المثال، Flux هو نموذج متعدد الأغراض رائع بإصدارات مختلفة. Imagen 4 مذهل للواقعية، و Ideogram يتعامل مع النصوص بشكل أفضل من أي شيء آخر باستثناء GPT-4o.

باستخدام NightCafe، يمكنك تجربة نفس المطالبة على نماذج متعددة، أو حتى إنشاء صورة واقعية لمحطة قطار باستخدام Google Imagen، ثم استخدام ذلك كصورة أولية لمشروع Ideogram لتراكب تسمية توضيحية أو شعار منمق. يمكنك أيضًا استخدام نفس المطالبة على نماذج متعددة لمعرفة النموذج الذي تفضله.

يقدم NightCafe أيضًا معظم نماذج الفيديو الرئيسية بما في ذلك Kling و Runway Gen-4 و Luma Dream Machine و Wan 2.1. في هذا الاختبار، سنركز على نماذج الصور.

اختيار النموذج الأمثل: رحلة في عالم الذكاء الاصطناعي التوليدي

إن امتلاك مجموعة متنوعة من النماذج الذكية يمثل فرصة ذهبية لاختبارها وتقييمها بدقة، بهدف اكتشاف النموذج الذي ينسجم مع رؤيتك الإبداعية وتفضيلاتك الشخصية. ستكتشف سريعًا أن الفروقات بين هذه النماذج أعمق وأكثر تأثيرًا مما تتخيل.

بالإضافة إلى النماذج الرائدة مثل Flux و Imagen، تتوفر أيضًا نماذج مجتمعية تمثل نسخًا محسّنة ومعدلة من Flux و Stable Diffusion. في هذا السياق، قمت بالتركيز على النماذج الأساسية التالية: OpenAI GPT1، و Recraft v3، و Google Imagen 4، و Ideogram 3، بالإضافة إلى Flux Kontext. هذه النماذج تمثل طليعة الابتكار في مجال الذكاء الاصطناعي التوليدي.

لتسهيل عملية المقارنة والتقييم، قمت بتطوير موجه (Prompt) اختبار مصمم خصيصًا لهذا الغرض. يتطلب هذا الموجه درجة عالية من الواقعية التصويرية (Photorealism)، ويقدم مشهدًا معقدًا يتضمن متطلبًا نصيًا دقيقًا. هذا النهج يتيح لنا تقييم قدرة كل نموذج على التعامل مع التفاصيل الدقيقة وإنتاج صور واقعية بجودة عالية، مع الالتزام بالمتطلبات النصية المحددة.

1. Google Imagen 4

يُعد Google Imagen 4 النموذج الأساسي الذي تعتمد عليه تطبيقات Gemini لإنشاء الصور بناءً على طلبك، كما أنه النموذج المستخدم في Google Slides لإنشاء الصور التوضيحية للعروض التقديمية. بفضل قدراته المتقدمة، يستطيع Imagen 4 توليد صور واقعية وعالية الجودة بناءً على وصف نصي بسيط.

في الاختبار الأولي، أنتج Imagen 4 صورة جذابة بصريًا لمقهى، مع التركيز بشكل ملحوظ على تصاعد الدخان. نجح النموذج في تضمين شخصين في المشهد، كما طُلب منه، وقدم صورة دقيقة للمركبة المطلوبة. ومع ذلك، لم يظهر النص المطلوب في الصورة النهائية. على الرغم من هذا النقص الطفيف، يظل Google Imagen 4 أداة قوية لإنشاء الصور، خاصةً عند استخدامه في تطبيقات مثل Gemini و Google Slides.

2. Flux Kontext Max

Barista serving Coffee
تُعد نماذج Flux من Black Forest Labs من بين الأكثر تنوعًا ومفتوحة المصدر. ومع وصول إصدار Kontext، حصلنا على نماذج صور تفهم اللغة الطبيعية بشكل أفضل. وهذا يعني، إلى حد ما مثل توليد الصور الأصلي في GPT-4o من OpenAI، أنها تعطي نتائج أكثر دقة، خاصة عند عرض النصوص أو المشاهد المعقدة.

لقد التقط Flux Kontext صورة “Cafe Matin” بشكل مثالي، وحصل على المرأة بشكل صحيح، وبطريقة ما يبدو أكثر فرنسية من Imagen، ولكن لا أعتقد أنه دقيق من الناحية الفوتوغرافية. هذا النموذج يمثل تطوراً هاماً في مجال الذكاء الاصطناعي التوليدي، حيث يقدم دقة وواقعية محسنة في إنشاء الصور من الأوصاف النصية، مما يجعله أداة قوية للمصممين والفنانين وغيرهم من المبدعين.

3. OpenAI GPT Image-1

يمثل نموذج GPT Image-1 من OpenAI، والذي يجب عدم الخلط بينه وبين النموذج الأصلي GPT-1 لعام 2018، نقلة نوعية في مجال الذكاء الاصطناعي متعدد الوسائط. صُمم هذا النموذج خصيصًا لتحسين دقة عرض الصور، مما يجعله أداة قوية تستخدمها كبرى الشركات في مجالات التصميم والإبداع الرقمي، مثل Adobe و Figma و Canva و NightCafe. يتميز GPT Image-1 بفهم متقدم للإشارات اللغوية الطبيعية، مما يتيح للمستخدمين إنشاء صور واقعية ومفصلة ببساطة عن طريق إدخال أوصاف نصية.

على الرغم من قدراته المذهلة، يواجه هذا النموذج بعض القيود، أبرزها عدم دعمه لنسب العرض إلى الارتفاع الشائعة مثل 9:16 أو 16:9، حيث يقتصر على إنتاج صور مربعة فقط. في المثال المرفق، نجح النموذج في التقاط الشاحنة والاسم المطلوبين، ولكن جودة المشهد العام ليست مثالية. بالإضافة إلى ذلك، قام النموذج بإنشاء مظلة ثانية بشكل عشوائي، ويبدو وضع الأيدي غير طبيعي، مما يشير إلى وجود بعض التحديات في تحقيق الواقعية الكاملة في بعض الحالات.

Barista

4. Ideogram v4

Barista

منذ إطلاقه، يعتبر Ideogram أحد نماذج الذكاء الاصطناعي المفضلة لدي لإنشاء الصور. فهو قادر دائمًا على إنشاء نصوص مقروءة، كما أنه أكثر مرونة من النماذج الأخرى من حيث الأسلوب. يتضمن موقع Ideogram على الويب لوحة مصممة بشكل جيد وأداة ترقية مدمجة.

النتيجة ليست مثالية تمامًا، حيث يميل باريستا بشكل مضحك، ولكن الإضاءة أكثر واقعية، والمشهد أيضًا أكثر واقعية مع وجود الشاحنة على الرصيف بدلاً من الطريق. كما أنه يبدو أكثر حداثة والنص مقروء ومصمم جيدًا.

5. Recraft v3

Recraft v3 Barista image

يعتبر برنامج Recraft بمثابة نموذج تصميمي متكامل، فهو مثالي لإنشاء النصوص المصورة والرسومات التوضيحية على حد سواء، وهذا لا يعني أنه غير قادر على إنتاج صور مذهلة. لقد أحدث برنامج Recraft ثورة في السوق عند إطلاقه، متفوقًا على النماذج الأخرى ليتربع على قمة لوحات الصدارة.

لكنني شخصيًا لم أُبهر كثيرًا بالنتائج. صحيح أن الصورة جذابة بصريًا إلى حد كبير، ويعود الفضل في ذلك جزئيًا إلى المساحة الممنوحة للمشهد. ومع ذلك، هناك مبالغة في إبراز الدخان، وأين هو عامل القهوة؟ والأهم من ذلك، بالنسبة لنموذج يركز على النصوص، لا يوجد أي أثر للكتابة أو العلامات النصية.

الاختيار الأمثل: Flux Kontext Max

Barista

على الرغم من بعض المشكلات البصرية التي ظهرت في Flux، إلا أنه كان الأكثر اتساقًا وتضمن كتابة إعلانية مقروءة وواضحة. إذا كنت سأستخدم هذه الصور تجاريًا، كصورة مخزنة، فسأختار صورة Google Imagen 4، ولكن من منظور بصري بحت – يفوز Flux.

ما يميز Flux Kontext أيضًا هو سهولة التعديل. يمكنك ببساطة إدخال أمر ثانوي لتغيير لون الشاحنة أو استبدال السيدة العجوز برجل أعمال. يمكنك فعل ذلك في Gemini ولكن ليس مع Imagen. ستحتاج إلى استخدام إنشاء الصور الأصلي من Gemini 2+.

إذا كنت ترغب في إجراء تغيير على أي صورة باستخدام Kontext، حتى لو لم تكن صورة Kontext في الأصل، فما عليك سوى النقر فوق الصورة في NightCafe وتحديد “Prompt to Edit”. سيكلفك ذلك حوالي 2.5 وحدة رصيد وهو مجرد أمر نصي وصفي بسيط.

خلاصة القول حول NightCafe

في هذا الاختبار، استخدمتُ الإصدار الأعلى تكلفة من كل نموذج، وهو الإصدار الذي يستغرق أطول وقت معالجة لإنتاج كل صورة. سمح لي ذلك بإجراء مقارنة أكثر عدالة. ما أدهشني حقًا هو الاختلاف الكبير في طريقة تفسير كل نموذج لنفس المطالبة الوصفية. لكن لم يفاجئني التحسن الكبير الذي طرأ على جميع النماذج في اتباع هذه المطالبة.

ما يعجبني في NightCafe هو أنه متجر شامل لإنشاء محتوى الذكاء الاصطناعي. فهو ليس مجرد مكان لاستخدام جميع نماذج الصور والفيديو الرائدة، بل يضم مجتمعًا كبيرًا يشتمل على مجموعة متنوعة من الألعاب والأنشطة والمجموعات التي تركز على إنشاء المحتوى. بالإضافة إلى ذلك، يمكنك تعديل أي صورة تقوم بإنشائها داخل التطبيق وتحسينها وإصلاح الوجوه وزيادة دقتها وتوسيعها. يعتبر NightCafe منصة متكاملة لإنشاء الصور بالذكاء الاصطناعي، توفر أدوات متقدمة ومجتمعًا داعمًا، مما يجعله خيارًا ممتازًا للمبدعين.

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.