تؤدي الاختلافات البشرية في الحكم إلى مشاكل بالنسبة للذكاء الاصطناعي

يفهم الكثير من الناس مفهوم التحيز على مستوى حدسي ما. في المجتمع، وفي أنظمة الذكاء الاصطناعي، تم توثيق التحيزات العنصرية والجنسانية بشكل جيد.

إذا تمكن المجتمع بطريقة أو بأخرى من إزالة التحيز، فهل ستختفي جميع المشاكل؟ وقد زعم دانييل كانيمان، الحائز على جائزة نوبل الراحل، والذي كان شخصية رئيسية في مجال الاقتصاد السلوكي، في كتابه الأخير أن التحيز ليس سوى وجه واحد من العملة. يمكن أن ترجع الأخطاء في الأحكام إلى مصدرين: التحيز والضجيج.

يلعب كل من التحيز والضوضاء أدوارًا مهمة في مجالات مثل القانون والطب والتنبؤ المالي، حيث تكون الأحكام البشرية مركزية. في عملنا كعلماء كمبيوتر ومعلومات، وجدت أنا وزملائي أن الضوضاء تلعب أيضًا دورًا في الذكاء الاصطناعي.

الضوضاء الإحصائية

الضجيج في هذا السياق يعني الاختلاف في كيفية إصدار الأشخاص للأحكام حول نفس المشكلة أو الموقف. مشكلة الضوضاء أكثر انتشارًا مما تراه العين في البداية. لقد وجد عمل أساسي، يعود تاريخه إلى فترة الكساد الكبير، أن القضاة المختلفين أصدروا أحكامًا مختلفة في قضايا مماثلة.

ومما يثير القلق أن إصدار الأحكام في قضايا المحاكم يمكن أن يعتمد على أشياء مثل درجة الحرارة وما إذا كان فريق كرة القدم المحلي قد فاز أم لا. تساهم مثل هذه العوامل، جزئيًا على الأقل، في التصور بأن نظام العدالة ليس متحيزًا فحسب، بل تعسفيًا أيضًا في بعض الأحيان.

أمثلة أخرى: قد يقدم خبراء التأمين تقديرات مختلفة لمطالبات مماثلة، مما يعكس الضجيج في أحكامهم. من المحتمل أن تكون الضوضاء موجودة في جميع أنواع المسابقات، بدءًا من تذوق النبيذ إلى مسابقات ملكات الجمال المحلية إلى القبول في الجامعات.

الضوضاء في البيانات

ظاهريًا، لا يبدو من المحتمل أن تؤثر الضوضاء على أداء أنظمة الذكاء الاصطناعي. ففي نهاية المطاف، لا تتأثر الآلات بالطقس أو بفرق كرة القدم، فلماذا تصدر أحكامًا تختلف باختلاف الظروف؟ ومن ناحية أخرى، يعرف الباحثون أن التحيز يؤثر على الذكاء الاصطناعي، لأنه ينعكس في البيانات التي يتم تدريب الذكاء الاصطناعي عليها.

بالنسبة للموجة الجديدة من نماذج الذكاء الاصطناعي مثل ChatGPT، فإن المعيار الذهبي هو الأداء البشري في مشاكل الذكاء العامة مثل المنطق السليم. يتم قياس ChatGPT وأقرانه مقابل مجموعات البيانات المنطقية التي يطلق عليها الإنسان.

وببساطة، يمكن للباحثين والمطورين أن يطرحوا على الآلة سؤالا منطقيا ويقارنوه بإجابات الإنسان: “إذا وضعت صخرة ثقيلة على طاولة ورقية، فهل ستنهار؟ هل ستنهار؟”. نعم أو لا.” إذا كان هناك اتفاق كبير بين الاثنين – في أفضل الأحوال، اتفاق تام – فإن الآلة تقترب من مستوى المنطق البشري، وفقًا للاختبار.

إذن من أين تأتي الضوضاء؟ يبدو السؤال المنطقي أعلاه بسيطًا، ومن المرجح أن يتفق معظم البشر على إجابته، ولكن هناك العديد من الأسئلة التي يوجد فيها مزيد من الخلاف أو عدم اليقين: “هل الجملة التالية معقولة أم غير قابلة للتصديق؟ كلبي يلعب الكرة الطائرة.” وبعبارة أخرى، هناك احتمال للضوضاء. ليس من المستغرب أن يكون للأسئلة المنطقية المثيرة للاهتمام بعض الضجيج.

لكن المشكلة هي أن معظم اختبارات الذكاء الاصطناعي لا تأخذ في الاعتبار هذا الضجيج في التجارب. ومن البديهي أن الأسئلة التي تولد إجابات بشرية تميل إلى الاتفاق مع بعضها البعض لابد أن يتم ترجيحها بدرجة أعلى مما لو كانت الإجابات متباينة ــ أو بعبارة أخرى، حيثما يكون هناك ضجيج. لا يزال الباحثون لا يعرفون ما إذا كانوا سيزنون إجابات الذكاء الاصطناعي في هذا الموقف أم لا، ولكن الخطوة الأولى هي الاعتراف بوجود المشكلة.

تتبع الضوضاء في الجهاز

وبغض النظر عن النظرية، يظل السؤال قائمًا ما إذا كان كل ما سبق افتراضيًا أم أن هناك ضجيجًا في الاختبارات الحقيقية للحس السليم. أفضل طريقة لإثبات أو دحض وجود الضوضاء هي إجراء اختبار موجود، وإزالة الإجابات وحث عدة أشخاص على تصنيفها بشكل مستقل، مما يعني تقديم الإجابات. ومن خلال قياس الخلاف بين البشر، يمكن للباحثين معرفة مقدار الضوضاء في الاختبار.

التفاصيل وراء قياس هذا الخلاف معقدة، وتتضمن إحصائيات ورياضيات مهمة. علاوة على ذلك، من يستطيع أن يقول كيف ينبغي تعريف الفطرة السليمة؟ كيف تعرف أن القضاة البشريين لديهم الدافع الكافي للتفكير في السؤال؟ تكمن هذه القضايا في نقطة التقاطع بين التصميم التجريبي الجيد والإحصاءات. المتانة هي المفتاح: من غير المرجح أن تقنع نتيجة واحدة، أو اختبار، أو مجموعة من واضعي العلامات البشرية أي شخص. ومن الناحية العملية، فإن العمالة البشرية باهظة الثمن. وربما لهذا السبب، لم تكن هناك أي دراسات حول الضوضاء المحتملة في اختبارات الذكاء الاصطناعي.

ولمعالجة هذه الفجوة، قمت أنا وزملائي بتصميم مثل هذه الدراسة ونشرنا النتائج التي توصلنا إليها في مجلة Nature Scientific Reports، والتي أظهرت أنه حتى في مجال المنطق السليم، فإن الضوضاء أمر لا مفر منه. ولأن البيئة التي يتم فيها استنباط الأحكام يمكن أن تكون ذات أهمية، فقد قمنا بنوعين من الدراسات. شمل أحد أنواع الدراسات عمالًا بأجر من شركة Amazon Mechanical Turk، بينما تضمنت الدراسة الأخرى تمرينًا على نطاق أصغر لوضع العلامات في مختبرين في جامعة جنوب كاليفورنيا ومعهد رينسيلار للفنون التطبيقية.

يمكنك التفكير في الأول باعتباره إعدادًا أكثر واقعية عبر الإنترنت، يعكس عدد اختبارات الذكاء الاصطناعي التي تم تصنيفها فعليًا قبل إصدارها للتدريب والتقييم. أما الخيار الأخير فهو أكثر تطرفًا، حيث يضمن جودة عالية ولكن على نطاقات أصغر بكثير. كان السؤال الذي شرعنا في الإجابة عليه هو ما مدى حتمية الضوضاء، وهل الأمر يتعلق فقط بمراقبة الجودة؟

وكانت النتائج واقعية. وفي كلا السياقين، وحتى في ما يتعلق بالأسئلة المنطقية التي كان من المتوقع أن تحظى باتفاق كبير ــ بل وحتى عالمي ــ وجدنا درجة لا بأس بها من الضجيج. كان الضجيج مرتفعًا بدرجة كافية لدرجة أننا استنتجنا أن ما بين 4% و10% من أداء النظام يمكن أن يعزى إلى الضوضاء.

للتأكيد على ما يعنيه هذا، لنفترض أنني قمت ببناء نظام ذكاء اصطناعي حقق 85% في الاختبار، وقمت ببناء نظام ذكاء اصطناعي حقق 91%. يبدو أن نظامك أفضل بكثير من نظامي. ولكن إذا كان هناك ضجيج في التسميات البشرية التي تم استخدامها لتسجيل الإجابات، فسنكون غير متأكدين بعد الآن من أن التحسن بنسبة 6٪ يعني الكثير. على حد علمنا، قد لا يكون هناك تحسن حقيقي.

في لوحات الصدارة الخاصة بالذكاء الاصطناعي، حيث تتم مقارنة نماذج اللغات الكبيرة مثل تلك التي تدعم ChatGPT، تكون فروق الأداء بين الأنظمة المنافسة أضيق بكثير، وعادةً ما تكون أقل من 1%. وكما أوضحنا في بحثنا، فإن الإحصائيات العادية لا تساعد حقًا في فصل تأثيرات الضوضاء عن تأثيرات تحسينات الأداء الحقيقية.

عمليات تدقيق الضوضاء

ما هو الطريق إلى الأمام؟ وبالعودة إلى كتاب كانيمان، فقد اقترح مفهوم “تدقيق الضوضاء” لقياس الضوضاء وتخفيفها في نهاية المطاف قدر الإمكان. على أقل تقدير، يحتاج باحثو الذكاء الاصطناعي إلى تقدير التأثير الذي قد تحدثه الضوضاء.

يعد تدقيق أنظمة الذكاء الاصطناعي بحثًا عن التحيز أمرًا شائعًا إلى حد ما، لذلك نعتقد أن مفهوم تدقيق الضوضاء يجب أن يتبعه بطبيعة الحال. ونأمل أن تؤدي هذه الدراسة، وغيرها من الدراسات المماثلة، إلى اعتمادها.

تم إعادة نشر هذا المقال من The Conversation، وهي منظمة إخبارية مستقلة غير ربحية تقدم لك حقائق وتحليلات لمساعدتك على فهم عالمنا المعقد.

كتب بواسطة: مايانك كيجريوال، جامعة جنوب كاليفورنيا.

اقرأ أكثر:

مايانك كيجريوال يتلقى تمويلًا من DARPA.