وهم ChatGPT حقيقي: هل نماذج الذكاء الاصطناعي تهلوس أكثر؟

0

أصدرت OpenAI ورقة بحثية الأسبوع الماضي توضح بالتفصيل اختبارات ونتائج داخلية مختلفة حول نموذجيها o3 و o4-mini. تتمثل الاختلافات الرئيسية بين هذه النماذج الأحدث والإصدارات الأولى من ChatGPT التي رأيناها في عام 2023 في قدراتها المتقدمة في الاستدلال والقدرات متعددة الوسائط. يمكن لـ o3 و o4-mini إنشاء صور والبحث في الويب وأتمتة المهام وتذكر المحادثات القديمة وحل المشكلات المعقدة. ومع ذلك، يبدو أن هذه التحسينات قد جلبت أيضًا آثارًا جانبية غير متوقعة، وهو ما يستدعي إجراء تقييمات شاملة لضمان سلامة استخدام الذكاء الاصطناعي.

ماذا تقول الاختبارات حول معدلات الهلوسة في نماذج الذكاء الاصطناعي؟

لدى OpenAI اختبار مُحدد لقياس معدلات الهلوسة يسمى PersonQA. يتضمن مجموعة من الحقائق حول الأشخاص “للتعلم” منها ومجموعة من الأسئلة حول هؤلاء الأشخاص للإجابة عليها. يتم قياس دقة النموذج بناءً على محاولاته للإجابة. حقق نموذج o1 في العام الماضي معدل دقة قدره 47% ومعدل هلوسة قدره 16%.

نظرًا لأن هاتين القيمتين لا تصلان إلى 100%، يمكننا أن نفترض أن بقية الردود لم تكن دقيقة ولا هلوسات. قد يقول النموذج أحيانًا إنه لا يعرف أو لا يمكنه تحديد موقع المعلومات، وقد لا يقدم أي ادعاءات على الإطلاق ويقدم معلومات ذات صلة بدلاً من ذلك، أو قد يرتكب خطأ طفيفًا لا يمكن تصنيفه على أنه هلوسة كاملة.

بيانات الهلوسة من ورقة OpenAI.

عندما تم اختبار o3 و o4-mini مقابل هذا التقييم، فقد هلوسا بمعدل أعلى بكثير من o1. وفقًا لـ OpenAI، كان هذا متوقعًا إلى حد ما لنموذج o4-mini لأنه أصغر ولديه معرفة عالمية أقل، مما يؤدي إلى المزيد من الهلوسات. ومع ذلك، يبدو معدل الهلوسة البالغ 48% الذي حققه مرتفعًا للغاية بالنظر إلى أن o4-mini منتج متاح تجاريًا يستخدمه الأشخاص للبحث في الويب والحصول على جميع أنواع المعلومات والنصائح المختلفة.

لقد هلوس نموذج o3، كامل الحجم، بنسبة 33% من ردوده خلال الاختبار، متفوقًا على o4-mini ولكنه ضاعف معدل الهلوسة مقارنة بـ o1. ومع ذلك، كان لديه أيضًا معدل دقة مرتفع، وهو ما تعزوه OpenAI إلى ميله إلى تقديم المزيد من الادعاءات بشكل عام. لذلك، إذا كنت تستخدم أيًا من هذين النموذجين الأحدث ولاحظت الكثير من الهلوسات، فهذا ليس مجرد خيال. (ربما يجب أن أقدم نكتة هناك مثل “لا تقلق، لست أنت من يهلوس.”)

ما هي “هلوسات” الذكاء الاصطناعي ولماذا تحدث؟

من المحتمل أنك سمعت عن نماذج الذكاء الاصطناعي “تهلوس” من قبل، ولكن ليس من الواضح دائمًا ما يعنيه ذلك. عند استخدام أي منتج للذكاء الاصطناعي، سواء كان OpenAI أو غيره، فمن المؤكد أنك سترى إخلاء مسؤولية في مكان ما ينص على أن استجاباته يمكن أن تكون غير دقيقة ويجب عليك التحقق من الحقائق بنفسك. تعتبر هلوسات الذكاء الاصطناعي تحديًا كبيرًا في مجال تطوير الذكاء الاصطناعي.

يمكن أن تأتي المعلومات غير الدقيقة من كل مكان – في بعض الأحيان يتم وضع حقيقة سيئة على ويكيبيديا أو ينشر المستخدمون هراء على Reddit، ويمكن أن تجد هذه المعلومات المضللة طريقها إلى استجابات الذكاء الاصطناعي. على سبيل المثال، حظيت ملخصات الذكاء الاصطناعي من Google بالكثير من الاهتمام عندما اقترحت وصفة للبيتزا تضمنت ” غراء غير سام “. في النهاية، تم اكتشاف أن Google حصلت على هذه “المعلومات” من مزحة في موضوع Reddit.

ومع ذلك، هذه ليست “هلوسات”، بل هي أشبه بأخطاء يمكن تتبعها تنشأ من البيانات السيئة وسوء التفسير. من ناحية أخرى، تحدث الهلوسات عندما يقدم نموذج الذكاء الاصطناعي ادعاءً دون أي مصدر أو سبب واضح. غالبًا ما يحدث ذلك عندما لا يتمكن نموذج الذكاء الاصطناعي من العثور على المعلومات التي يحتاجها للإجابة على استعلام معين، وقد عرّفت OpenAI ذلك بأنه “ميل إلى اختراع الحقائق في لحظات عدم اليقين”. وقد أطلق عليها شخصيات أخرى في الصناعة اسم “ملء الفجوات الإبداعي”.

يمكنك تشجيع الهلوسات من خلال إعطاء ChatGPT أسئلة توجيهية مثل “ما هي نماذج iPhone 16 السبعة المتوفرة الآن؟” نظرًا لعدم وجود سبعة نماذج، فمن المحتمل أن يمنحك LLM بعض الإجابات الحقيقية – ثم يقوم بتكوين نماذج إضافية لإنهاء المهمة.

ChatGPT falling for a leading question.

لا يتم تدريب روبوتات الدردشة مثل ChatGPT فقط على بيانات الإنترنت التي تُعلم محتوى ردودها، ولكنها تتدرب أيضًا على “كيفية الرد”. يتم عرض آلاف الأمثلة للاستعلامات والاستجابات المثالية المطابقة لتشجيع النوع المناسب من النبرة والموقف ومستوى الأدب.

هذا الجزء من عملية التدريب هو ما يجعل LLM يبدو وكأنه يتفق معك أو يفهم ما تقوله حتى عندما يتعارض بقية إخراجه تمامًا مع هذه التصريحات. من المحتمل أن يكون هذا التدريب جزءًا من سبب تكرار الهلوسات – لأن الاستجابة الواثقة التي تجيب على السؤال قد تم تعزيزها كنتيجة أكثر ملاءمة مقارنة بالاستجابة التي تفشل في الإجابة على السؤال.

بالنسبة لنا، يبدو من الواضح أن إطلاق الأكاذيب العشوائية أسوأ من مجرد عدم معرفة الإجابة – لكن LLM لا “تكذب”. إنهم لا يعرفون حتى ما هي الكذبة. يقول بعض الناس أن أخطاء الذكاء الاصطناعي تشبه الأخطاء البشرية، وبما أن “نحن لا نصيب الأمور بشكل صحيح طوال الوقت، فلا ينبغي أن نتوقع أن يفعل الذكاء الاصطناعي ذلك أيضًا”. ومع ذلك، من المهم أن نتذكر أن الأخطاء من الذكاء الاصطناعي هي ببساطة نتيجة لعمليات غير كاملة صممناها نحن.

لا تكذب نماذج الذكاء الاصطناعي، أو تطور سوء فهم، أو تتذكر المعلومات بشكل خاطئ كما نفعل. ليس لديهم حتى مفاهيم الدقة أو عدم الدقة – فهم ببساطة يتوقعون الكلمة التالية في جملة بناءً على الاحتمالات. وبما أننا لحسن الحظ لا نزال في حالة حيث من المرجح أن يكون الشيء الأكثر شيوعًا هو الشيء الصحيح، فإن عمليات إعادة البناء هذه غالبًا ما تعكس معلومات دقيقة. هذا يجعل الأمر يبدو وكأنه عندما نحصل على “الإجابة الصحيحة”، فإنها مجرد تأثير جانبي عشوائي بدلاً من نتيجة قمنا بتصميمها – وهذا هو بالفعل كيف تسير الأمور.

نحن نغذي هذه النماذج بمعلومات بقيمة الإنترنت بأكمله – لكننا لا نخبرهم بالمعلومات الجيدة أو السيئة، الدقيقة أو غير الدقيقة – نحن لا نخبرهم بأي شيء. ليس لديهم معرفة تأسيسية موجودة أو مجموعة من المبادئ الأساسية لمساعدتهم على فرز المعلومات بأنفسهم أيضًا. الأمر كله مجرد لعبة أرقام – أنماط الكلمات الموجودة بشكل متكرر في سياق معين تصبح “حقيقة” LLM. بالنسبة لي، يبدو هذا وكأنه نظام متجه إلى الانهيار والاحتراق – لكن يعتقد آخرون أن هذا هو النظام الذي سيؤدي إلى AGI (على الرغم من أن هذه مناقشة مختلفة.)

ما هو الحل؟

A ChatGPT conversation.

المشكلة هي أن OpenAI لا تعرف حتى الآن سبب ميل هذه النماذج المتقدمة إلى الهلوسة بشكل متكرر. ربما مع المزيد من البحث، سنكون قادرين على فهم المشكلة وإصلاحها – ولكن هناك أيضًا فرصة ألا تسير الأمور بسلاسة. لا شك أن الشركة ستواصل إصدار المزيد والمزيد من النماذج “المتقدمة”، وهناك احتمال أن تستمر معدلات الهلوسة في الارتفاع.

في هذه الحالة، قد تحتاج OpenAI إلى متابعة حل قصير الأجل بالإضافة إلى مواصلة أبحاثها في السبب الجذري. بعد كل شيء، هذه النماذج هي منتجات مدرة للدخل ويجب أن تكون في حالة قابلة للاستخدام. أنا لست عالمًا في مجال الذكاء الاصطناعي، ولكن أعتقد أن فكرتي الأولى ستكون إنشاء نوع من المنتجات المجمعة – واجهة دردشة لديها حق الوصول إلى نماذج OpenAI مختلفة متعددة.

عندما تتطلب الاستعلامات استدلالًا متقدمًا، فإنها ستستدعي GPT-4o، وعندما تريد تقليل فرص الهلوسة، فإنها ستستدعي نموذجًا أقدم مثل o1. ربما ستتمكن الشركة من أن تكون أكثر أناقة واستخدام نماذج مختلفة لرعاية عناصر مختلفة لاستعلام واحد، ثم استخدام نموذج إضافي لربط كل شيء معًا في النهاية. نظرًا لأن هذا سيكون في الأساس عملًا جماعيًا بين نماذج الذكاء الاصطناعي المتعددة، فربما يمكن أيضًا تنفيذ نوع من نظام التحقق من الحقائق.

ومع ذلك، فإن رفع معدلات الدقة ليس هو الهدف الرئيسي. الهدف الرئيسي هو خفض معدلات الهلوسة، مما يعني أننا بحاجة إلى تقدير الاستجابات التي تقول “لا أعرف” بالإضافة إلى الاستجابات التي تحتوي على الإجابات الصحيحة.

في الواقع، ليس لدي أي فكرة عما ستفعله OpenAI أو مدى قلق باحثيها حقًا بشأن المعدل المتزايد للهلوسة. كل ما أعرفه هو أن المزيد من الهلوسة أمر سيئ للمستخدمين النهائيين – وهذا يعني فقط المزيد والمزيد من الفرص لتضليلنا دون أن ندرك ذلك. إذا كنت من كبار المعجبين بنماذج LLM، فليست هناك حاجة للتوقف عن استخدامها – ولكن لا تدع الرغبة في توفير الوقت تتغلب على الحاجة إلى التحقق من نتائج الحقائق. تحقق دائمًا من الحقائق!

اترك رد

لن يتم نشر عنوان بريدك الإلكتروني.