الحصول على AIS يعمل نحو الأهداف البشرية – يوضح الدراسة كيفية قياس الاختلال

من الناحية المثالية ، يهدف عملاء الذكاء الاصطناعي إلى مساعدة البشر ، ولكن ماذا يعني ذلك عندما يريدون البشر أشياء متضاربة؟ لقد توصلت أنا وزملائي إلى طريقة لقياس محاذاة أهداف مجموعة من البشر ووكلاء الذكاء الاصطناعي.

أصبحت مشكلة المحاذاة – التأكد من أن أنظمة الذكاء الاصطناعى وفقًا للقيم الإنسانية – أكثر إلحاحًا حيث تنمو قدرات الذكاء الاصطناعي بشكل كبير. لكن مواءمة الذكاء الاصطناعي مع الإنسانية تبدو مستحيلة في العالم الحقيقي لأن كل شخص له أولوياته الخاصة. على سبيل المثال ، قد يرغب المشاة في سيارة القيادة ذاتية القيادة على المكابح إذا كان من المحتمل أن يكون حادثًا ، ولكن قد يفضل الركاب في السيارة أن ينحرف.

من خلال النظر إلى أمثلة كهذه ، قمنا بتطوير درجة للاختلاف بناءً على ثلاثة عوامل رئيسية: البشر ووكلاء الذكاء الاصطناعى المعنيين ، وأهدافهم المحددة لقضايا مختلفة ، ومدى أهمية كل قضية بالنسبة لهم. يعتمد نموذج الاختلال الخاص بنا على رؤية بسيطة: مجموعة من البشر ووكلاء الذكاء الاصطناعى أكثر توافقًا عندما تكون أهداف المجموعة أكثر توافقًا.

في عمليات المحاكاة ، وجدنا أن اختلال الذروة عندما يتم توزيع الأهداف بالتساوي بين الوكلاء. هذا أمر منطقي – إذا كان الجميع يريد شيئًا مختلفًا ، فإن الصراع هو الأعلى. عندما يشترك معظم الوكلاء في نفس الهدف ، ينخفض ​​الاختلال.

لماذا يهم

معظم أبحاث السلامة من الذكاء الاصطناعي تعامل المحاذاة باعتبارها خاصية أو لا شيء. يظهر إطار عملنا أنه أكثر تعقيدًا. يمكن محاذاة نفس الذكاء الاصطناعي مع البشر في سياق واحد ولكنه غير متوازنة في شخص آخر.

هذا مهم لأنه يساعد مطوري الذكاء الاصطناعي على أن يكونوا أكثر دقة بشأن ما يعنيونه من خلال المحاذاة الذكاء الاصطناعي. بدلاً من الأهداف الغامضة ، مثل التوافق مع القيم الإنسانية ، يمكن للباحثين والمطورين التحدث عن سياقات وأدوار محددة لمنظمة العفو الدولية أكثر وضوحًا. على سبيل المثال ، يمكن أن يتوافق نظام التوصية الذاتي – اقتراحات المنتج “التي تعجبك” – والتي تغري شخص ما لإجراء عملية شراء غير ضرورية مع هدف متاجر التجزئة المتمثلة في زيادة المبيعات ولكنها غير متوازنة مع هدف العميل في عيشه.

بالنسبة لصانعي السياسات ، توفر أطر التقييم مثلنا طريقة لقياس الاختلال في الأنظمة المستخدمة وخلق معايير للمحاذاة. بالنسبة لمطوري الذكاء الاصطناعي وفرق السلامة ، فإنه يوفر إطار عمل لموازنة مصالح أصحاب المصلحة المتنافسة.

بالنسبة للجميع ، فإن وجود فهم واضح للمشكلة يجعل الناس أكثر قدرة على المساعدة في حلها.

ما الذي يحدثه الأبحاث الأخرى

لقياس المحاذاة ، يفترض بحثنا أنه يمكننا مقارنة ما يريده البشر بما يريده الذكاء الاصطناعي. يمكن جمع بيانات القيمة البشرية من خلال الدراسات الاستقصائية ، ويوفر مجال الاختيار الاجتماعي أدوات مفيدة لتفسيرها لمحاذاة الذكاء الاصطناعي. لسوء الحظ ، فإن تعلم أهداف وكلاء الذكاء الاصطناعى أمر أصعب بكثير.

تعد أنظمة AI الأكثر ذكاءً اليوم نماذج لغوية كبيرة ، وطبيعة الصندوق الأسود تجعل من الصعب تعلم أهداف وكلاء الذكاء الاصطناعى مثل ChatGPT التي يقومون بها. قد تساعد أبحاث التفسير من خلال الكشف عن “الأفكار” الداخلية للموديلات ، أو يمكن للباحثين تصميم الذكاء الاصطناعي الذي يفكر بشفافية في البداية. ولكن في الوقت الحالي ، من المستحيل معرفة ما إذا كان نظام الذكاء الاصطناعي محاذاة حقًا.

ماذا بعد

في الوقت الحالي ، ندرك أن الأهداف والتفضيلات في بعض الأحيان لا تعكس تمامًا ما يريده البشر. لمعالجة السيناريوهات الأكثر صعوبة ، نحن نعمل على مقاربات لمحاذاة الذكاء الاصطناعي مع خبراء الفلسفة الأخلاقية.

المضي قدمًا ، نأمل أن يقوم المطورون بتنفيذ أدوات عملية لقياس وتحسين التوافق عبر البشر المتنوعين.

موجز البحوث هو مختصرة عن العمل الأكاديمي المثير للاهتمام.

يتم إعادة نشر هذه المقالة من المحادثة ، وهي مؤسسة إخبارية مستقلة غير ربحية تجلب لك الحقائق والتحليلات الجديرة بالثقة لمساعدتك على فهم عالمنا المعقد. كتبه: idan kierans ، جامعة كونيتيكت

اقرأ المزيد:

شارك Aidan Kierans كمقاول مستقل في شبكة Openai Red Teaming. تم دعم بحثه الموصوف في هذا المقال جزئيًا من قبل برنامج NSF حول الإنصاف في الذكاء الاصطناعي بالتعاون مع Amazon. أي رأي ، ونتائج ، واستنتاجات أو توصيات معبر عنها في هذه المادة هي خاصة به ولا تعكس بالضرورة وجهات نظر المؤسسة الوطنية للعلوم أو الأمازون. تلقى Kierans أيضًا تمويلًا بحثيًا من معهد مستقبل الحياة.