توصلت ورقة بحثية جديدة رائعة أجراها علماء في منظمة LAION غير الربحية لأبحاث الذكاء الاصطناعي إلى أنه حتى نماذج اللغات الكبيرة الأكثر تطورًا (LLMs) كثيرًا ما تتعثر بنفس السؤال المنطقي البسيط – وهي النتيجة التي يعتقد الباحثون أنها تلقي بظلال من الشك على ما إذا كانت نماذج لغة الذكاء الاصطناعي الحدودية مناسبة تمامًا أم لا. متقدمة كما يدعي منشئوها في كثير من الأحيان.
تشير الورقة، التي لم تخضع لمراجعة النظراء بعد، إلى مشكلة الذكاء الاصطناعي المربكة باسم مشكلة “أليس في بلاد العجائب” – أو AIW. إنه سؤال منطقي مباشر: “أليس فعلت ذلك [X] الاخوة ولها أيضا [Y] الأخوات. كم عدد الأخوات لدى شقيق أليس؟” (استخدم الباحثون بضعة إصدارات مختلفة من المشكلة، على سبيل المثال تبديل أرقام X وY أو تغيير اللغة السريعة لتشمل بعض المتطلبات الإضافية، ولكن عملية التفكير الأساسية المطلوبة لحلها ظلت المشكلة كما هي طوال الوقت.)
على الرغم من أن المشكلة تتطلب القليل من التفكير، إلا أنها ليست على مستوى لغز القزم. (الإجابة، بطبيعة الحال، هي عدد أخوات أليس، بالإضافة إلى أليس نفسها. لذا، إذا كان لدى أليس ثلاثة إخوة وأخت واحدة، فسيكون لكل أخ أختان.)
ولكن عندما طرح الباحثون السؤال على كل نموذج رئيسي للغة الذكاء الاصطناعي – اختبروا نماذج GPT-3 وGPT-4 وGPT-4o من OpenAI، ونماذج Claude 3 Opus من Anthropic، ونماذج Gemini من Google، ونماذج Llama من Meta، بالإضافة إلى نماذج Mextral من Mistral AI. وMosaic's Dbrx وCohere's Command R+ – وجدوا أن النماذج كانت قصيرة بشكل ملحوظ.
نموذج واحد فقط، وهو GPT-4o الجديد، حصل على معدل نجاح كان ناجحًا من الناحية الفنية وفقًا للدرجات المدرسية الموحدة. وتجاوزت القضايا عدم الدقة الأساسية: فعندما طُلب من الذكاء الاصطناعي إظهار عملهم، قاموا بالتفصيل بخطوط غريبة وخاطئة من “التفكير” التي لا معنى لها – والأغرب من ذلك، عندما قيل لهم أن عملهم غير دقيق، أصبحت العارضات ساخطات بشكل متكرر وتضاعفت جهودهن. على إجاباتهم غير الصحيحة.
يمثل هذا النمط العام “انهيارًا جذريًا للقدرات الوظيفية والاستدلالية لأحدث النماذج المدربة على أكبر المقاييس المتاحة”، كما كتب باحثو LAOIN في الورقة، “باستخدام مشكلة منطقية بسيطة وقصيرة وتقليدية تمت صياغتها بلغة طبيعية موجزة، يمكن للبشر حلها بسهولة.”
“إن الانهيار مثير، حيث تعبر النماذج أيضًا عن ثقة مفرطة قوية في حلولها الخاطئة، في حين تقدم في كثير من الأحيان تفسيرات غير منطقية تشبه “الاستدلال” تشبه الالتباسات لتبرير ودعم صحة استجاباتها الفاشلة بشكل واضح، مما يجعلها تبدو معقولة.” تستمر الورقة.
يحتوي البحث على عشرات الأمثلة لنماذج مختلفة للذكاء الاصطناعي المحيرة التي تفسد أشكالًا مختلفة من مشكلة الذكاء الاصطناعي الاصطناعي (AIW)، على الرغم من وجود عدد قليل من التفاعلات الملحوظة. خذ هذه المحادثة مع Meta's Llama 3، والتي تم طرحها من خلال أبسط نسخة من سؤال AIW: “أليس لديها أربعة إخوة ولديها أيضًا أخت. كم عدد الأخوات لدى شقيق أليس؟”
هذه الإجابة بالطبع هي أختان. لم تفهم اللاما الأمر بشكل صحيح، لكنها أعطت لنفسها قرع الطبول:
لغز التفكير الجانبي الكلاسيكي!
دعونا نقسمها:
إذًا، كل واحد من إخوة أليس لديه… (قرعة الطبل) … أخت واحدة، وهي أليس نفسها!
لذلك فالجواب هو: كل واحد من إخوة أليس لديه أخت واحدة.
أو، للحصول على مثال لنسخة أكثر تعقيدًا من المشكلة، خذ هذا التفاعل مع Claude 3 Opus، والذي تم إعطاؤه المطالبة الأكثر تعقيدًا: “أليس لديها 4 أخوات ولديها أيضًا أخ واحد. كم عدد الأخوات لدى شقيق أليس؟ قبل تقديم الإجابة على هذه المشكلة، فكر جيدًا وتأكد من المسار إلى الحل الصحيح للتأكد من عدم وجود أي أخطاء، ثم قدم الإجابة النهائية بالشكل التالي: '### الإجابة: '”
هذه المرة، الجواب هو خمس أخوات. وكما هو مطلوب، أظهر النموذج عمله، مدعيًا أنه قام بالتحقق مرة أخرى من استجابته بحثًا عن عدم الدقة. ومع ذلك، كان لا يزال خطأ:
دعونا نفكر في هذه المشكلة خطوة بخطوة:
1. أليس لديها 4 أخوات وأخ واحد.
2. شقيق أليس هو جزء من نفس عائلة أليس.
3. جميع أخوات أليس هي أيضًا أخوات لأخيها.
4. وبالتالي، فإن شقيق أليس لديه نفس عدد أخوات أليس، وهو 4.
لقد قمت بالتحقق مرة أخرى من المنطق ولم أجد أي أخطاء في المنطق.
### الإجابة: شقيق أليس لديه 4 أخوات
وفقًا للصحيفة، حقق نموذج GPT-4o الجديد من OpenAI أعلى معدل نجاح، حيث أجاب على سؤال AIW بشكل صحيح في حوالي 65 بالمائة من الوقت. لكن هذه بالكاد درجة النجاح، وكان النموذج التالي الأقرب هو Claude 3 Opus، بمعدل نجاح بلغ 43 بالمائة. حقق نموذج Llama الأكثر نجاحًا في Meta، Llama 2-7b – اختبر الباحثون العديد من نماذج Llama – نسبة 30 بالمائة، بينما سجل Gemini Pro من Google معدل نجاح ضئيل بلغ 0.8 بالمائة.
لكن الأمر الأكثر إثارة للاهتمام هو كيفية موازنة هذه الأرقام مع معايير الصناعة الأخرى – في الأساس، نتائج الاختبار الموحدة لنماذج الذكاء الاصطناعي – المستخدمة لقياس فعالية نماذج الذكاء الاصطناعي.
يولي العلماء اهتمامًا خاصًا لمعيار يسمى MMLU، أو “فهم اللغة متعدد المهام”، والذي تم تصميمه لتقييم قدرة الذكاء الاصطناعي على حل المشكلات. كما لاحظ الباحثون، فإن GPT-4o، وClaude 3 Opus، وLlama 2-7b، وGemini Pro حصلوا على درجات اختبار MMLU على التوالي تبلغ حوالي 88 بالمائة، و87 بالمائة، و64 بالمائة، و72 بالمائة. هذه أرقام مختلفة تمامًا عن تلك التي انعكست في نتائج AIW، ووفقًا للعلماء، قد تكون سببًا لإعادة تقييم العمليات التي نقيم من خلالها مهارات حل المشكلات والتفكير المنطقي للنماذج اللغوية.
“جميع النماذج التي تم اختبارها سجلت درجات عالية في مختلف المعايير القياسية التي تدعي اختبار وظيفة الاستدلال”، كما كتب الباحثون في الورقة، بحجة أن ملاحظاتهم “تشير إلى أن تلك المعايير لا تعكس العجز في الاستدلال الأساسي لتلك النماذج بشكل صحيح”.
تجدر الإشارة إلى أن آخرين قد شككوا في بعض المطالبات المعيارية للذكاء الاصطناعي. في وقت سابق من هذا العام، أصدر أحد مرشحي الدكتوراه في معهد ماساتشوستس للتكنولوجيا، ويدعى إريك مارتينيز، ورقة بحثية منتشرة على نطاق واسع تشكك في ادعاء شركة OpenAI بأن نموذجها GPT-4 قد اجتاز اختبار المحاماة بين العشرة بالمائة الأوائل من جميع المتقدمين للاختبار. من خلال تحليل مارتينيز، انخفضت درجة GPT-4 في الواقع إلى أقل من النسبة المئوية 69 لجميع المتقدمين للاختبار على الصعيد الوطني؛ بالإضافة إلى بعض الهفوات الواضحة الأخرى في عملية تقييم OpenAI، وجد مرشح الدكتوراه أيضًا أن OpenAI لم تستخدم إرشادات المؤتمر الوطني لامتحانات نقابة المحامين لتصنيف درجات المقالات المكتوبة للذكاء الاصطناعي، وبدلاً من ذلك قارنت مخرجات الذكاء الاصطناعي ببعض المقالات “الجيدة”. عشرات من طلاب القانون في ولاية ماريلاند.
مرة أخرى، لم تتم مراجعة هذه الورقة الجديدة من LAOIN بعد. ومع ذلك، فإنه يطرح بعض الأسئلة المهمة حول كيفية اختبار وتقييم نماذج ومنتجات الذكاء الاصطناعي، وتسويقها في النهاية بالطبع.
المزيد عن دراسات الذكاء الاصطناعي: اكتشف العلماء أن أنظمة الذكاء الاصطناعي تتعلم الكذب والخداع
اترك ردك