من المعروف أن chatgpt وغيرها من الدردشة من الذكاء الاصطناعى القائمة على نماذج اللغة الكبيرة تصنع الأشياء أحيانًا ، بما في ذلك الاستشهادات العلمية والقانونية. اتضح أن قياس مدى دقة استشهادات نموذج الذكاء الاصطناعي هي وسيلة جيدة لتقييم قدرات التفكير النموذجية.
نموذج الذكاء الاصطناعى “أسباب” عن طريق تقسيم الاستعلام إلى خطوات والعمل من خلالها بالترتيب. فكر في كيفية تعلم حل مشاكل كلمات الرياضيات في المدرسة.
من الناحية المثالية ، لإنشاء الاستشهادات ، فإن نموذج الذكاء الاصطناعي سوف يفهم المفاهيم الرئيسية في وثيقة ما ، وإنشاء قائمة مرتبة من الأوراق ذات الصلة للاستشهاد بها ، وتوفير منطق مقنع لكيفية دعم كل ورقة مقترحة للنص المقابل. سوف يسلط الضوء على اتصالات محددة بين النص والبحث المذكور ، مما يوضح سبب أهمية كل مصدر.
والسؤال هو ، هل يمكن الوثوق بنماذج اليوم لإجراء هذه الاتصالات وتقديم منطق واضح يبرر خيارات مصدرهم؟ تتجاوز الإجابة دقة الاقتباس لمعالجة مدى فائدة نماذج اللغة الكبيرة ودقيقة لأي غرض استرجاع للمعلومات.
أنا عالم كمبيوتر. زملائي – باحثون من معهد الذكاء الاصطناعى بجامعة ساوث كارولينا ، جامعة ولاية أوهايو وجامعة ماريلاند بالتيمور – وقد طورت الأسباب المعيارية لاختبار مدى قدرة نماذج اللغة الكبيرة على توليد الاستشهادات البحثية تلقائيًا وتقديم منطق مفهوم.
استخدمنا المعيار لمقارنة أداء نماذج التفكير الشهيرة من الذكاء الاصطناعي ، Deepseek's R1 و Openai's O1. على الرغم من أن Deepseek تصدر عناوين الصحف بكفاءتها المذهلة وفعالية التكلفة ، إلا أن الصينيين يمتلكون وسيلة للذهاب لمطابقة أداء التفكير في Openai.
الجملة محددة
إن دقة الاستشهادات لها علاقة كبيرة بما إذا كان نموذج الذكاء الاصطناعى هو التفكير في المعلومات على مستوى الجملة بدلاً من الفقرة أو مستوى المستند. يمكن اعتبار الاستشهادات على مستوى الفقرة ومستوى المستندات على أنها رمي جزء كبير من المعلومات في نموذج لغة كبير وطلب تقديم العديد من الاستشهادات.
في هذه العملية ، يفرط نموذج اللغة الكبير ويسيء تفسير الجمل الفردية. ينتهي المستخدم بالاستشهادات التي تشرح الفقرة بأكملها أو المستند ، وليس المعلومات الدقيقة نسبيًا في الجملة.
علاوة على ذلك ، يعاني التفكير عندما تطلب من نموذج اللغة الكبير قراءة وثيقة كاملة. تعتمد هذه النماذج في الغالب على حفظ الأنماط التي عادة ما تكون أفضل في العثور على النصوص الأطول ونهايتها من الوسط. هذا يجعل من الصعب عليهم فهم جميع المعلومات المهمة بالكامل خلال وثيقة طويلة.
يتم الخلط بين نماذج اللغة الكبيرة لأن الفقرات والمستندات تحمل الكثير من المعلومات ، مما يؤثر على توليد الاقتباس وعملية التفكير. وبالتالي ، يصبح التفكير من نماذج اللغة الكبيرة على الفقرات والمستندات أشبه بتلخيص أو إعادة صياغة.
يعالج الأسباب المعيارية هذا الضعف من خلال فحص توليد استشهاد نماذج اللغة الكبيرة والتفكير.
اختبار الاستشهادات والتفكير
بعد إصدار Deepseek R1 في يناير 2025 ، أردنا فحص دقتها في توليد الاستشهادات وجودة التفكير ومقارنتها مع نموذج O1 من Openai. أنشأنا فقرة كانت لها جمل من مصادر مختلفة ، وأعطنا النماذج جمل فردية من هذه الفقرة ، وطلبوا الاستشهادات والتفكير.
لبدء اختبارنا ، قمنا بتطوير سرير اختبار صغير يضم حوالي 4100 مقالة بحثية حول أربعة مواضيع رئيسية مرتبطة بالأدمغة البشرية وعلوم الكمبيوتر: الخلايا العصبية والإدراك ، والتفاعل بين الإنسان والحاسوب ، وقواعد البيانات والذكاء الاصطناعي. قمنا بتقييم النماذج باستخدام مقربين: درجة F-1 ، والتي تقيس مدى دقة الاستشهاد المقدم ، ومعدل الهلوسة ، وهو ما يقيس مدى صوت التفكير في النموذج-أي عدد المرات التي تنتج فيها استجابة غير دقيقة أو مضللة.
كشفت اختباراتنا عن اختلافات كبيرة في الأداء بين Openai O1 و Deepseek R1 عبر المجالات العلمية المختلفة. قامت Openai's O1 بتوصيل المعلومات بشكل جيد بين مواضيع مختلفة ، مثل فهم كيفية ارتباط الأبحاث حول الخلايا العصبية والإدراك بتفاعل الحاسوب البشري ومن ثم بالمفاهيم في الذكاء الاصطناعي ، مع الاستمرار في الدقة. فاقت مقاييس الأداء الخاصة بها دائمًا Deepseek R1 في جميع فئات التقييم ، وخاصة في الحد من الهلوسة واستكمال المهام المخصصة بنجاح.
كان Openai O1 أفضل في الجمع بين الأفكار بشكل دلالي ، في حين ركز R1 على التأكد من توليد استجابة لكل مهمة إسناد ، والتي بدورها زادت الهلوسة أثناء التفكير. كان معدل الهلوسة Openai O1 حوالي 35 ٪ مقارنة مع معدل Deepseek R1 البالغ حوالي 85 ٪ في مهمة التفكير القائمة على الإسناد.
من حيث الدقة والكفاءة اللغوية ، سجل Openai O1 حوالي 0.65 في اختبار F-1 ، مما يعني أنه كان حوالي 65 ٪ من الوقت عند الإجابة على الأسئلة. وسجل أيضًا حوالي 0.70 في اختبار Bleu ، والذي يقيس مدى جودة نموذج اللغة في اللغة الطبيعية. هذه درجات جيدة جدا.
سجل Deepseek R1 أقل ، مع حوالي 0.35 في اختبار F-1 ، مما يعني أنه كان حوالي 35 ٪ من الوقت. ومع ذلك ، كانت درجة Bleu حوالي 0.2 ، مما يعني أن كتابتها لم تكن طبيعية مثل Openai's O1. هذا يدل على أن O1 كان أفضل في تقديم هذه المعلومات بلغة طبيعية واضحة.
Openai يحمل الميزة
على معايير أخرى ، يؤدي Deepseek R1 على قدم المساواة مع Openai O1 على مهام الرياضيات والترميز والتفكير العلمي. لكن الاختلاف الكبير في معيارنا يشير إلى أن O1 يوفر معلومات أكثر موثوقية ، في حين أن R1 يكافح مع الاتساق الواقعية.
على الرغم من أننا قمنا بتضمين نماذج أخرى في اختباراتنا الشاملة ، إلا أن فجوة الأداء بين O1 و R1 تبرز على وجه التحديد المشهد التنافسي الحالي في تطوير الذكاء الاصطناعي ، مع تقديم Openai مع الحفاظ على ميزة كبيرة في إمكانيات التكامل المنطقي والمعرفة.
تشير هذه النتائج إلى أن Openai لا يزال لديه ساق عندما يتعلق الأمر بإسناد المصدر والتفكير ، ربما بسبب طبيعة وحجم البيانات التي تم تدريبها. أعلنت الشركة مؤخرًا عن أداة البحث العميق ، والتي يمكنها إنشاء تقارير مع الاستشهادات ، وطرح أسئلة المتابعة وتقديم التفكير للاستجابة التي تم إنشاؤها.
لا تزال هيئة المحلفين خارج قيمة الأداة للباحثين ، لكن التحذير يبقى للجميع: تحقق من جميع الاستشهادات التي تمنحكها الذكاء الاصطناعي.
يتم إعادة نشر هذه المقالة من المحادثة ، وهي مؤسسة إخبارية مستقلة غير ربحية تجلب لك الحقائق والتحليلات الجديرة بالثقة لمساعدتك على فهم عالمنا المعقد. كتبه: ماناس غور ، جامعة ماريلاند ، مقاطعة بالتيمور
اقرأ المزيد:
ماناس غور يتلقى تمويلًا من صندوق USISTEF Endowment.
اترك ردك