اختبار لغة AIS Flunk الذي يأخذ القواعد النحوية من المعادلة

يمكن أن أنظمة الذكاء الاصطناعى التوليدي مثل نماذج اللغة الكبيرة والمولدات النصية إلى الصور يمكنها اجتياز امتحانات صارمة مطلوبة من أي شخص يسعى ليصبح طبيبًا أو محاميًا. يمكنهم أداء أفضل من معظم الناس في الألعاب الأولمبية الرياضية. يمكنهم كتابة الشعر اللائق في منتصف الطريق ، وتوليد لوحات جمالية وتكوين الموسيقى الأصلية.

قد تجعل هذه القدرات الرائعة تبدو وكأنها أنظمة الذكاء الاصطناعي التوليدي تستعد لتولي الوظائف البشرية ولها تأثير كبير على جميع جوانب المجتمع تقريبًا. ومع ذلك ، في حين أن جودة إنتاجهم تعمل في بعض الأحيان من قبل البشر ، فإنهم أيضًا عرضة للتشجيع بثقة على معلومات غير صحيحة من الناحية الواقعية. وقد استدعى المتشككون أيضًا في قدرتهم على التفكير.

تم بناء نماذج لغوية كبيرة لتقليد اللغة البشرية والتفكير ، لكنها بعيدة عن الإنسان. من الطفولة ، يتعلم البشر من خلال عدد لا يحصى من التجارب الحسية والتفاعلات مع العالم من حولهم. لا تتعلم نماذج اللغة الكبيرة كما يفعل البشر – فهي تدرب بدلاً من ذلك على مجموعات شاسعة من البيانات ، ومعظمها مستمدة من الإنترنت.

إن إمكانيات هذه النماذج مثيرة للإعجاب للغاية ، وهناك وكلاء منظمة العفو الدولية يمكنهم حضور الاجتماعات لك ، أو تسوق لك أو تتعامل مع مطالبات التأمين. ولكن قبل تسليم مفاتيح نموذج لغة كبير في أي مهمة مهمة ، من المهم تقييم كيفية مقارنة فهمهم للعالم مع البشر.

أنا باحث يدرس اللغة والمعنى. طورت مجموعتي البحثية معيارًا جديدًا يمكن أن يساعد الناس على فهم قيود نماذج اللغة الكبيرة في فهم المعنى.

فهم مجموعات الكلمات البسيطة

إذن ما هو “منطقي” لنماذج اللغة الكبيرة؟ يتضمن اختبارنا الحكم على معنى عبارات اسم الأسماء المكونة من كلمتين. بالنسبة لمعظم الأشخاص الذين يتحدثون باللغة الإنجليزية بطلاقة ، فإن أزواج الكلمات الاسمية مثل “Beach Ball” و “Apple Cake” ذات مغزى ، لكن “Ball Beach” و “Cake Apple” ليس لديهم معنى شائع. أسباب هذا لا علاقة له بالقواعد. هذه هي العبارات التي أصبح الناس يتعلمونها ويقبلونها عادةً على أنها ذات معنى ، من خلال التحدث والتفاعل مع بعضهم البعض مع مرور الوقت.

أردنا أن نرى ما إذا كان نموذج اللغة الكبير لديه نفس المعنى لمجموعات الكلمات ، لذلك قمنا ببناء اختبار تقيس هذه القدرة ، باستخدام أزواج الاسم التي ستكون قواعد القواعد غير مجدية في تحديد ما إذا كانت العبارة ذات معنى يمكن التعرف عليها. على سبيل المثال ، فإن زوج الصفة مثل “الكرة الحمراء” ذات معنى ، مع عكسها ، “الكرة الأحمر” ، مما يجعل مجموعة كلمات لا معنى لها.

المعيار لا يسأل نموذج اللغة الكبيرة عما تعنيه الكلمات. بدلاً من ذلك ، فإنه يختبر قدرة نموذج اللغة الكبير على جمع المعنى من أزواج الكلمات ، دون الاعتماد على عكاز المنطق النحوي البسيط. لا يقوم الاختبار بتقييم الإجابة الصحيحة الموضوعية في حد ذاتها ، ولكن القضاة ما إذا كانت نماذج اللغة الكبيرة لها شعور مماثل بالتعني كأشخاص.

استخدمنا مجموعة من 1789 زوجًا من الأسماء التي تم تقييمها مسبقًا من قِبل البشر على مقياس من 1 ، لا معنى لها على الإطلاق ، إلى 5 ، منطقية كاملة. لقد قمنا بإزالة الأزواج مع التصنيفات المتوسطة بحيث يكون هناك فصل واضح بين أزواج ذات مستويات عالية ومنخفضة من المعنى.

ثم طلبنا من النماذج اللغوية الكبيرة على أحدث طراز تقييم أزواج الكلمات هذه بنفس الطريقة التي طُلب بها من المشاركين البشريين من الدراسة السابقة تقييمها ، باستخدام تعليمات متطابقة. نماذج اللغة الكبيرة تؤدي بشكل سيء. على سبيل المثال ، تم تصنيف “Cake Apple” على أنها ذات رمية منخفضة من قبل البشر ، بمتوسط ​​تصنيف يبلغ حوالي 1 على مقياس من 0 إلى 4. بين 2 و 4. لم يكن الفرق واسعًا بالنسبة للعبارات ذات مغزى مثل “مزلقة الكلاب” ، على الرغم من وجود حالات لنموذج لغة كبير يعطي مثل هذه العبارات تصنيفات أقل من 95 ٪ من البشر أيضًا.

لمساعدة نماذج اللغة الكبيرة ، أضفنا المزيد من الأمثلة إلى الإرشادات لمعرفة ما إذا كانت ستستفيد من المزيد من السياق حول ما يعتبر زوجًا كبيرًا للغاية مقابل زوج غير ذي معنى. في حين تحسن أدائهم قليلاً ، كان لا يزال أكثر فقراً من أداء البشر. لجعل المهمة أسهل ، طلبنا من نماذج اللغة الكبيرة أن تصدر حكمًا ثنائيًا – قل نعم أو لا لما إذا كانت العبارة منطقية – بدلاً من تصنيف مستوى الاهتمام على مقياس من 0 إلى 4. هنا ، تم تحسين الأداء ، مع أداء GPT-4 و Claude 3 Opus بشكل أفضل من غيرها-لكنهما كانوا لا يزالون أقل بكثير من الأداء البشري.

إبداعي لخطأ

تشير النتائج إلى أن نماذج اللغة الكبيرة لا تتمتع بنفس قدرات صناعة الإحساس مثل البشر. تجدر الإشارة إلى أن اختبارنا يعتمد على مهمة ذاتية ، حيث يكون المعيار الذهبي تصنيفًا من قِبل الأشخاص. لا توجد إجابة صحيحة بموضوعية ، على عكس معايير تقييم نموذج اللغة الكبيرة النموذجية التي تنطوي على التفكير أو التخطيط أو توليد الكود.

كان الأداء المنخفض مدفوعًا إلى حد كبير بحقيقة أن نماذج اللغة الكبيرة تميل إلى المبالغة في تقدير الدرجة التي يتأهل فيها زوج الاسم إلى هذا النحو. لقد فهموا الأشياء التي لا ينبغي أن يكون لها معنى كبير. بطريقة التحدث ، كانت النماذج مبدعة للغاية. أحد التفسيرات المحتملة هو أن أزواج الكلمات ذات التركيبة المنخفضة يمكن أن تكون منطقية في بعض السياق. يمكن أن يطلق على الشاطئ المغطى بالكرات “Ball Beach”. ولكن لا يوجد استخدام شائع لهذا المزيج الاسم بين المتحدثين باللغة الإنجليزية.

إذا كانت نماذج اللغة الكبيرة هي استبدال البشر جزئيًا أو كاملًا في بعض المهام ، فسوف تحتاج إلى تطوير مزيد من التطوير حتى يتمكنوا من التحسن في فهم العالم ، في توافق أوثق مع الطرق التي يفعلها البشر. عندما تكون الأمور غير واضحة أو مربكة أو مجرد هراء عادي – سواء بسبب خطأ أو هجوم ضار – من المهم أن تعلن النماذج أنه بدلاً من محاولة فهم كل شيء تقريبًا.

إذا حصل وكيل AI الذي يستجيب تلقائيًا لرسائل البريد الإلكتروني على رسالة مخصصة لمستخدم آخر عن طريق الخطأ ، فقد تكون الاستجابة المناسبة ، “آسف ، هذا لا معنى له” ، بدلاً من التفسير الإبداعي. إذا أدلى شخص ما في اجتماع بتصريحات غير مفهومة ، نريد وكيلًا حضر الاجتماع ليقول إن التعليقات لم تكن منطقية. يجب أن يقول الوكيل ، “يبدو أن هذا يتحدث عن مطالبة تأمين مختلفة” بدلاً من مجرد “مطالبة تم رفضها” إذا لم تكن تفاصيل المطالبة منطقية.

بمعنى آخر ، من المهم بالنسبة لعامل الذكاء الاصطناعى أن يكون لديه شعور مماثل بالمعنى وتصرف مثل الإنسان عندما يكون غير مؤكد ، بدلاً من توفير تفسيرات إبداعية دائمًا.

يتم إعادة نشر هذه المقالة من المحادثة ، وهي مؤسسة إخبارية مستقلة غير ربحية تجلب لك الحقائق والتحليلات الجديرة بالثقة لمساعدتك على فهم عالمنا المعقد. كتبه: روتفيك ديساي ، جامعة ساوث كارولينا

اقرأ المزيد:

يتلقى Rutvik Desai تمويلًا من NIH/NIDCD.