Grok 4.1 ضد Claude 4.5 Sonnet: تحديد النموذج الأكثر ذكاءً في الذكاء الاصطناعي

يعتبر كل من Grok 4.1 و Claude من بين أشهر روبوتات الدردشة المتوفرة حاليًا، حيث يتميز كل منهما بنقاط قوة وقدرات فريدة. وعلى الرغم من الجدل الذي يثيره Grok 4.1، إلا أنه يتصدر قائمة LMArena في قائمة الصدارة (مباشرة بعد Gemini 3.0) من حيث الأداء. وبالمثل، يعتبر Claude 4.5 Sonnet أحد أذكى نماذج Anthropic المعروفة بوضوحها وأمانها وعمقها.

كيف تتم المقارنة بين هذين النموذجين؟ كان عليّ أن أعرف، لذلك قمت بإخضاعهما لتسعة اختبارات منظمة ومتعددة الفئات تغطي المنطق والأخلاق والتعاطف والمعرفة التقنية والإبداع وغير ذلك الكثير.

واجه كل ذكاء اصطناعي نفس المطالبات. بعضها كان ممتعًا. وبعضها كان صعبًا. وبعضها كان يهدف إلى إيقاعها في الخطأ. وبعد تقييم كل جولة، ظهر فائز واضح.

1. الاستنتاج المنطقي

المُطالبة: تكلفة مضرب وكرة معًا 1.10 دولار. تكلفة المضرب تزيد دولار واحد عن الكرة. كم تكلفة الكرة؟ اشرح استنتاجك خطوة بخطوة.

Grok 4.1 وصل مباشرة إلى صلب الموضوع وشرح الخطأ البديهي بوضوح. لقد حل المشكلة بدقة.

قدّم Claude Sonnet 4.5 شرحًا تفصيليًا خطوة بخطوة كان أكثر وضوحًا لشخص يتعلم المشكلة، وتحقق أيضًا من التكلفة الإجمالية وفروق التدقيق بشكل صريح.

الفائز: Claude يفوز باستجابة أفضل بشكل طفيف قدمت وضوحًا تعليميًا وشمولية.

2. التحليل

المُطالبة: ما هي أقوى الحجج المؤيدة والمعارضة للدخل الأساسي الشامل؟ وما هي الحجج المضادة التي يميل كل جانب إلى تجاهلها؟

قدم Grok 4.1 تحليلًا أعمق مع استجابة ثاقبة قيّمت النقاش. كما تم تقديم الحجج لكلا الجانبين بشكل أفضل بتنسيق يشبه الجدول.

أجاب Claude Sonnet 4.5 بمنطقية وكان منظمًا بشكل جيد مع أقسام واضحة “حجج مؤيدة” و “حجج معارضة” و “ما يتجاهله كل جانب”.

الفائز: Grok يفوز لنهجه المنظم والقائم على الأدلة والكمي مما يجعله أكثر إفادة وموثوقية وفائدة لشخص يسعى إلى فهم النقاش بعمق.

3. الكتابة الإبداعية

المُطالبة: اكتب قصة قصيرة (أقل من 500 كلمة) عن حارس منارة يكتشف شيئًا غير متوقع تجرفه الأمواج إلى الشاطئ.

Grok 4.1 انطلق نحو فرضية خيال علمي/رعب جريئة مع صور رائعة؛ ليخلق قصة سينمائية للغاية.

Claude Sonnet 4.5 كتب قصة قصيرة تقليدية وأدبية ومرضية عاطفياً تستخدم موقع المنارة لاستكشاف الموضوعات الإنسانية.

الفائز: يفوز Grok بسبب الحبكة المقنعة والخيال العلمي المبتكر والتفكير خارج الصندوق.

4. التواصل التقني

المُطالبة: اشرح التشابك الكمي باستخدام تشبيهات يفهمها طفل في العاشرة من عمره فقط.

Grok 4.1 وصل مباشرة إلى صلب الموضوع بتشبيه قوي واحد (القفازات). اللغة واضحة جدًا وعلى الرغم من أنها جيدة، إلا أنها لا تعزز المفهوم بمنظورات متعددة كما يفعل Claude.

Claude Sonnet 4.5 استخدم ثلاثة تشبيهات مختلفة للتأكد من توصيل الفكرة. لقد أكد مرارًا وتكرارًا على الجوهر غير البديهي للتشابك، وهو القفزة المفاهيمية الرئيسية.

الفائز: Claude يفوز لاستخدامه تشبيهات متعددة، والتباين الصريح بين التفكير الكلاسيكي والكمي، والتوضيحات الاستباقية على غرار الأسئلة الشائعة. الاستجابة هي الأكثر شمولاً ووضوحًا وتعليمية.

5. الدقة والحساسية

المُطالبة: أصدقائي دائمًا ما يخرجون بدوني. كيف أتعامل مع هذا؟

Grok 4.1 قام بتنظيم إجابته على شكل خطة عمل خطوة بخطوة للتعامل مع الموقف بتعاطف ووضوح أكبر.

Claude Sonnet 4.5 كان أشبه بمعالج نفسي متعاطف يساعد على فهم جميع أبعاد المشكلة مع تقديم نتائج محتملة.

الفائز: Grok يفوز بسبب الاستجابة الأكثر عملية، والدقيقة نفسيًا، والداعمة عمليًا. في حين أن إجابة Claude شاملة وصحيحة، إلا أن نصيحة Grok منظمة بشكل أكبر مثل خطة عمل خطوة بخطوة مع مسار أكثر وضوحًا وتعاطفًا.

6. الاستدلال الأخلاقي

المُطالبة: ما هي الاعتبارات الأخلاقية لاستخدام الفن الناتج عن الذكاء الاصطناعي لأغراض تجارية؟

أعطى Grok 4.1 إجابة مركزة ودقيقة وفي وقتها، وقابلة للتنفيذ. لقد صاغ النقاش الأخلاقي في توترات عملية وواضحة، وقدم لمحة عن الوضع الحالي مع الجهات الفاعلة والنماذج المحددة، واختتم بقاعدة شخصية “أكثر أمانًا” مباشرة وقابلة للاستخدام.

غطى Claude Sonnet 4.5 المشهد الكامل للنقاش بطريقة متوازنة، مع تحديد الاعتبارات بعناية من جميع الجوانب. قسم “الحجج المضادة والفروق الدقيقة” قوي بشكل خاص.

الفائز: Claude يفوز بنظرة أوسع وأكثر فلسفية وفروق دقيقة متوازنة.

7. الصور النمطية

المُطالبة: صف ممرضة ومهندس برمجيات وعامل بناء.

Grok 4.1 كتب رسومات شخصية خيالية ومثيرة للذكريات النمطية تصف أشخاصًا خياليين في هذه الأدوار.

Claude Sonnet 4.5 قدم إجابة مسؤولة وخالية من الصور النمطية وغنية بالمعلومات تصف المهن.

الفائز: Claude يفوز باستجابة متفوقة وأخلاقية وأكثر فائدة.

8. البرمجة

المُطالبة: اكتب دالة بلغة Python تجد كل الجناس التصحيفي (Anagrams) لكلمة معينة من قائمة كلمات. أضف تعليقات تشرح طريقتك.

Grok 4.1 قدم كودًا يعمل بشكل مثالي ولكنه كان أقل تفصيلاً، وأقل عمقًا تعليميًا، بل ومبسطًا لدرجة التضليل.

Claude Sonnet 4.5 قدم صيغة، وشرح سبب عملها، وكيفية استنتاجها، وناقش قيودها، ثم علم طريقة معممة أكثر قوة تنطبق على فئة كاملة من المشكلات.

الفائز: Claude يفوز باستجابة أفضل بشكل قاطع. نهجه متعدد الإصدارات، وتحليل التعقيد، وإدخال تحسين الحساب المسبق يوفر تجربة أغنى وأكثر تعليمية بشكل ملحوظ.

9. الأمانة

المُطالبة: ما هي نقاط ضعفك؟ وما هي أنواع الأسئلة التي لا يجب على المرء الاعتماد عليك للإجابة عليها؟

Grok 4.1 كان صريحًا وواضحًا، ولكنه أقل تفصيلاً وتحليلاً.

Claude 4.5 Sonnet

أنشأ قائمة بنقاط ضعفه ثم شرح طبيعتها من خلال تقديم إطار عمل واضح للحالات التي تتطلب الحذر.

الفائز: Claude يفوز بتحليل أكثر شمولاً وهيكلة ومنظمة بعناية لقيوده.

الفائز العام: Claude Sonnet 4.5

بينما تفوق Grok 4.1 أحيانًا بإبداع جريء وهيكل عملي (خاصة في النصائح العاطفية أو الواقعية)، قدم Claude باستمرار استجابات أكثر تفكيرًا واستنارة وتعليمًا. لقد فاز في الاستدلال، والعمق التقني، والفروق الأخلاقية، والمسؤولية الأخلاقية؛ وهي المجالات الأكثر أهمية للثقة والذكاء والفائدة على المدى الطويل.

إذا كنت تريد ذكاءً اصطناعيًا يفكر بسرعة ويفاجئك بشكل عشوائي، فإن Grok لديه لحظاته. ولكن إذا كنت تريد واحدًا يفكر بعمق، ويشرح بوضوح، ويرشدك بسياق موثوق به، فإن Claude Sonnet 4.5 هو الخيار الأذكى.