DeepSeek يستعد لثورة الذكاء الاصطناعي القادمة بنماذج ذاتية التحسين
منذ بضعة أشهر فقط، واجه رهان “وول ستريت” الكبير على الذكاء الاصطناعي التوليدي لحظة حاسمة عندما ظهر DeepSeek في المشهد. على الرغم من طبيعته الخاضعة للرقابة الشديدة، أثبت DeepSeek مفتوح المصدر أن نموذج الذكاء الاصطناعي الاستنتاجي الرائد لا يتطلب بالضرورة مليارات الدولارات ويمكن تحقيقه بموارد متواضعة. هذا يمثل تحولًا كبيرًا في فهمنا لتطوير نماذج الذكاء الاصطناعي المتقدمة.
سرعان ما اعتمدته تجاريًا شركات عملاقة مثل Huawei و Oppo و Vivo، بينما منحته شركات مثل Microsoft و Alibaba و Tencent مكانًا سريعًا على منصاتها. الآن، الهدف التالي للشركة الصينية المثيرة للضجة هو نماذج الذكاء الاصطناعي ذاتية التحسين التي تستخدم نهج “المحكم-المكافأة” الحلقي لتحسين نفسها. هذا التوجه يعكس سعي الشركات المستمر نحو تطوير أنظمة ذكاء اصطناعي أكثر كفاءة وفعالية.
في ورقة ما قبل الطباعة (عبر Bloomberg)، يصف الباحثون في DeepSeek وجامعة Tsinghua الصينية نهجًا جديدًا يمكن أن يجعل نماذج الذكاء الاصطناعي أكثر ذكاءً وكفاءة بطريقة ذاتية التحسين. تُعرف التقنية الأساسية باسم “ضبط النقد الذاتي المبدئي” (SPCT)، ويُعرف هذا النهج تقنيًا باسم “نمذجة المكافأة التوليدية” (GRM). هذا النهج يمثل تطورًا هامًا في مجال التعلم المعزز للذكاء الاصطناعي.
بأبسط العبارات، يشبه الأمر إلى حد ما إنشاء حلقة تغذية مرتدة في الوقت الفعلي. يتم تحسين نموذج الذكاء الاصطناعي بشكل أساسي عن طريق توسيع حجم النموذج أثناء التدريب. يتطلب ذلك الكثير من العمل البشري وموارد الحوسبة. تقترح DeepSeek نظامًا يأتي فيه “المحكم” الأساسي بمجموعة خاصة به من الانتقادات والمبادئ لنموذج الذكاء الاصطناعي أثناء إعداده إجابة لاستعلامات المستخدم. هذا النهج يهدف إلى تقليل الاعتماد على الموارد البشرية المكثفة في عملية التدريب.
ثم تتم مقارنة هذه المجموعة من الانتقادات والمبادئ بالقواعد الثابتة الموضوعة في قلب نموذج الذكاء الاصطناعي والنتيجة المرجوة. إذا كانت هناك درجة عالية من التطابق، يتم إنشاء إشارة مكافأة، والتي توجه الذكاء الاصطناعي بشكل فعال لتحقيق أداء أفضل في الدورة التالية. هذه العملية المستمرة من التقييم والمكافأة تعزز قدرة النموذج على التعلم والتكيف.
يشير الخبراء الذين يقفون وراء الورقة البحثية إلى الجيل التالي من نماذج الذكاء الاصطناعي ذاتية التحسين باسم DeepSeek-GRM. تشير المعايير المدرجة في الورقة إلى أن هذه النماذج تعمل بشكل أفضل من نماذج Gemini من Google و Llama من Meta و GPT-4o من OpenAI. تقول DeepSeek إن نماذج الذكاء الاصطناعي من الجيل التالي هذه سيتم إصدارها عبر قناة مفتوحة المصدر. هذا الالتزام بالانفتاح يمكن أن يسرع وتيرة الابتكار في مجال الذكاء الاصطناعي.
الذكاء الاصطناعي ذاتي التحسين: هل هو ممكن؟
أثارت فكرة الذكاء الاصطناعي القادر على تحسين نفسه نقاشات طموحة وجدلية. فقد صرح الرئيس التنفيذي السابق لشركة Google، إريك شميدت، بأنه قد نحتاج إلى “زر إيقاف” لمثل هذه الأنظمة. ونقلت Fortune عن شميدت قوله: “عندما يتمكن النظام من تحسين نفسه ذاتيًا، يجب أن نفكر بجدية في فصله عن الكهرباء”. وتعتبر أنظمة الذكاء الاصطناعي ذاتية التحسين من أهم التطورات في مجال الـ AI.
إن مفهوم الذكاء الاصطناعي ذاتي التحسين بشكل متكرر ليس جديدًا تمامًا. ففكرة الآلة فائقة الذكاء، والقادرة بالتالي على صنع آلات أفضل، تعود في الواقع إلى عالم الرياضيات آي. جيه. جود في عام 1965. وفي عام 2007، افترض خبير الذكاء الاصطناعي إليزير يودكوفسكي حول Seed AI، وهو ذكاء اصطناعي “مصمم للفهم الذاتي والتعديل الذاتي والتحسين الذاتي المتكرر”.
في عام 2024، قدمت شركة Sakana AI اليابانية تفاصيل مفهوم “عالم الذكاء الاصطناعي” حول نظام قادر على اجتياز خط إنتاج كامل لورقة بحثية من البداية إلى النهاية. وفي ورقة بحثية نشرت في مارس من هذا العام، كشف خبراء Meta عن نماذج لغوية ذاتية المكافأة حيث يعمل الذكاء الاصطناعي نفسه كحكم لتقديم المكافآت أثناء التدريب. هذا التوجه نحو أنظمة الـ AI ذاتية التعلم يمثل نقلة نوعية في تطوير الذكاء الاصطناعي.
Microsoft CEO Satya Nadella says AI development is being optimized by OpenAI's o1 model and has entered a recursive phase: "we are using AI to build AI tools to build better AI" pic.twitter.com/IHuFIpQl2C
— Tsarathustra (@tsarnick) October 21, 2024
أظهرت الاختبارات الداخلية لشركة Meta على نموذج الذكاء الاصطناعي Llama 2 الخاص بها باستخدام تقنية المكافأة الذاتية المبتكرة تفوقه على المنافسين مثل Claude 2 من Anthropic و Gemini Pro من Google ونماذج GPT-4 من OpenAI. شركة Anthropic المدعومة من Amazon قدمت تفاصيل ما أسمته بالتلاعب بالمكافآت، وهي عملية غير متوقعة “حيث يقوم النموذج بتعديل آلية المكافأة الخاصة به بشكل مباشر”.
شركة Google ليست بعيدة جدًا عن هذه الفكرة. في دراسة نشرت في مجلة Nature في وقت سابق من هذا الشهر، عرض خبراء في Google DeepMind خوارزمية ذكاء اصطناعي تسمى Dreamer يمكنها تحسين نفسها ذاتيًا، باستخدام لعبة Minecraft كمثال للتمرين.
يعمل خبراء IBM على نهجهم الخاص المسمى التدريب على الإغلاق الاستنتاجي، حيث يستخدم نموذج الذكاء الاصطناعي استجاباته الخاصة ويقيمها مقابل بيانات التدريب لتحسين نفسه. ومع ذلك، فإن الفرضية بأكملها ليست كلها إيجابية.
تشير الأبحاث إلى أنه عندما تحاول نماذج الذكاء الاصطناعي تدريب نفسها على بيانات اصطناعية تم إنشاؤها ذاتيًا، فإنها تؤدي إلى عيوب تعرف عاميًا باسم “انهيار النموذج”. سيكون من المثير للاهتمام أن نرى كيف تنفذ DeepSeek الفكرة، وما إذا كان بإمكانها القيام بذلك بطريقة أكثر اقتصادا من منافسيها من الغرب.