ما هو التعلم التعزيز؟ يشرح باحث من الذكاء الاصطناعى طريقة أساسية لتدريس آلات – وكيف يتعلق بتدريب كلبك

إن فهم الذكاء وإنشاء آلات ذكية هي تحديات علمية كبيرة في عصرنا. القدرة على التعلم من التجربة هي حجر الزاوية في الذكاء للآلات والكائنات الحية على حد سواء.

في تقرير عام 1948 بشكل ملحوظ ، اقترح آلان تورينج – والد علوم الكمبيوتر الحديثة – بناء الآلات التي تعرض السلوك الذكي. كما ناقش “تعليم” مثل هذه الآلات “عن طريق المكافآت والعقوبات”.

أدت أفكار تورينج في النهاية إلى تطوير التعلم التعزيز ، وهو فرع من الذكاء الاصطناعي. تعزيز التعلم يصمم الوكلاء الذكيين من خلال تدريبهم على زيادة المكافآت إلى أقصى حد أثناء تفاعلهم مع بيئتهم.

بصفتي باحثًا في التعلم الآلي ، أجد أنه من المناسب أن يحصل رواد التعلم التعليمي أندرو بارتو وريتشارد سوتون على جائزة 2024 ACM Turing.

ما هو التعلم التعزيز؟

يعرف مدربو الحيوانات أن سلوك الحيوانات يمكن أن يتأثر بمكافأة السلوكيات المرغوبة. مدرب الكلاب يعطي الكلب علاجًا عندما يقوم بالخدعة بشكل صحيح. هذا يعزز السلوك ، ومن المرجح أن يقوم الكلب بالخدعة بشكل صحيح في المرة القادمة. استعار التعلم التعزيز هذه البصيرة من علم النفس الحيوان.

لكن التعلم التعزيز يدور حول تدريب الوكلاء الحسابيين ، وليس الحيوانات. يمكن للوكيل أن يكون وكيل برمجيات مثل برنامج لعب الشطرنج. لكن يمكن للوكيل أيضًا أن يكون كيانًا مجسدًا مثل الروبوت الذي يتعلم القيام بالأعمال المنزلية. وبالمثل ، يمكن أن تكون بيئة الوكيل افتراضية ، مثل الشطرنج أو العالم المصمم في لعبة فيديو. ولكن يمكن أن يكون أيضًا منزلًا يعمل فيه الروبوت.

تمامًا مثل الحيوانات ، يمكن للوكيل أن يرى جوانب بيئته واتخاذ الإجراءات. يمكن لوكيل لعب الشطرنج الوصول إلى تكوين الشطرنج وتجعل التحركات. يمكن أن يشعر الروبوت محيطه مع الكاميرات والميكروفونات. يمكن أن تستخدم محركاتها للتحرك في العالم المادي.

الوكلاء لديهم أيضا أهداف يبرمها المصممون البشريون فيها. هدف وكيل لعب الشطرنج هو الفوز في اللعبة. قد يكون هدف الروبوت هو مساعدة مالكها البشري في الأعمال المنزلية.

مشكلة التعلم التعزيز في الذكاء الاصطناعي هي كيفية تصميم الوكلاء الذين يحققون أهدافهم من خلال إدراك وتصرف بيئاتهم. يقدم التعلم التعزيز مطالبة جريئة: يمكن تحقيق جميع الأهداف من خلال تصميم إشارة رقمية ، تسمى المكافأة ، وجعل الوكيل يزيد من مجموع المكافآت الذي يتلقاه.

لا يعرف الباحثون ما إذا كان هذا الادعاء صحيحًا بالفعل ، بسبب مجموعة واسعة من الأهداف المحتملة. لذلك ، يشار إليها غالبًا باسم فرضية المكافأة.

في بعض الأحيان يكون من السهل اختيار إشارة المكافأة المقابلة للهدف. بالنسبة لوكيل لعب الشطرنج ، يمكن أن تكون المكافأة +1 للفوز ، 0 للسحب ، و -1 لخسارة. من غير الواضح كيفية تصميم إشارة مكافأة لمساعد روبوتي للأسرة مفيدة. ومع ذلك ، فإن قائمة التطبيقات التي تمكن فيها باحثو التعلم التعزيز من تصميم إشارات المكافآت الجيدة.

كان النجاح الكبير للتعلم التعزيز في لعبة اللوحة GO. اعتقد الباحثون أن GOS كان أصعب بكثير من الشطرنج للآلات لإتقانها. استخدمت شركة DeepMind ، التي الآن Google DeepMind ، تعلم التعزيز لإنشاء AlphaGo. هزم Alphago لاعب Top Go Lee Sedol في لعبة من خمس مباريات في عام 2016.

ومن الأمثلة الأكثر حداثة استخدام التعلم التعزيز لجعل chatbots مثل chatgpt أكثر فائدة. كما يتم استخدام التعلم التعزيز لتحسين قدرات التفكير في chatbots.

أصول التعلم التعزيز

ومع ذلك ، لم يكن من الممكن توقع أي من هذه النجاحات في الثمانينات. وذلك عندما بارتو وبهشه آنذاك. اقترح الطالب سوتون التعلم التعزيز كإطار عام لحل المشكلات. استلهموا ليس فقط من علم النفس الحيوان ولكن أيضًا من مجال نظرية التحكم ، واستخدام التعليقات للتأثير على سلوك النظام ، والتحسين ، وهو فرع من الرياضيات يدرس كيفية اختيار أفضل خيار بين مجموعة من الخيارات المتاحة. لقد وفروا لمجتمع الأبحاث الأسس الرياضية التي وقفت على اختبار الزمن. كما أنشأوا خوارزميات أصبحت الآن أدوات قياسية في هذا المجال.

إنها ميزة نادرة للحقل عندما يستغرق الرواد الوقت الكافي لكتابة كتاب مدرسي. أمثلة مشرقة مثل “طبيعة الرابطة الكيميائية” من تأليف Linus Pauling و “The Art of Computer Programming” من Donald E. Knuth لا تنسى لأنها قليلة ومتباعدة. تم نشر “التعلم التعزيز: مقدمة” من سوتون وبارتو لأول مرة في عام 1998. صدرت الطبعة الثانية في عام 2018. وقد أثر كتابهما على جيل من الباحثين وتم الاستشهاد به أكثر من 75000 مرة.

كان للتعلم التعزيز تأثير غير متوقع على علم الأعصاب. يلعب الدوبامين الناقل العصبي دورًا رئيسيًا في السلوكيات التي يحركها المكافأة في البشر والحيوانات. استخدم الباحثون خوارزميات محددة تم تطويرها في التعلم التعزيز لشرح النتائج التجريبية في نظام الدوبامين للأفراد والحيوانات.

ساعدت أعمال بارتو وسوتون التأسيسية والرؤية والدعوة في تعزيز التعلم. لقد ألهم عملهم مجموعة كبيرة من الأبحاث ، وتأثيرًا على التطبيقات في العالم الحقيقي ، وجذب استثمارات ضخمة من قبل شركات التكنولوجيا. أنا متأكد من أن الباحثين في التعلم التعزيز سيستمرون في رؤية المزيد من خلال الوقوف على أكتافهم.

يتم إعادة نشر هذه المقالة من المحادثة ، وهي مؤسسة إخبارية مستقلة غير ربحية تجلب لك الحقائق والتحليلات الجديرة بالثقة لمساعدتك على فهم عالمنا المعقد. كتبه: Ambuj Tewari ، جامعة ميشيغان

اقرأ المزيد:

Ambuj Tewari يتلقى تمويل من NSF و NIH.