لقد تجاوز التعلم الآلي الحدود في العديد من المجالات، بما في ذلك الطب الشخصي والسيارات ذاتية القيادة والإعلانات المخصصة. ومع ذلك، أظهرت الأبحاث أن هذه الأنظمة تحفظ جوانب من البيانات التي تم تدريبها عليها من أجل تعلم الأنماط، مما يثير مخاوف بشأن الخصوصية.
في الإحصاء والتعلم الآلي، الهدف هو التعلم من البيانات السابقة لعمل تنبؤات أو استنتاجات جديدة حول البيانات المستقبلية. ومن أجل تحقيق هذا الهدف، يختار الإحصائي أو خبير التعلم الآلي نموذجًا لالتقاط الأنماط المشتبه بها في البيانات. يطبق النموذج بنية مبسطة على البيانات، مما يجعل من الممكن تعلم الأنماط وإجراء التنبؤات.
نماذج التعلم الآلي المعقدة لها بعض الإيجابيات والسلبيات. على الجانب الإيجابي، يمكنهم تعلم أنماط أكثر تعقيدًا والعمل مع مجموعات بيانات أكثر ثراءً لمهام مثل التعرف على الصور والتنبؤ بكيفية استجابة شخص معين للعلاج.
ومع ذلك، لديهم أيضًا خطر الإفراط في التعامل مع البيانات. وهذا يعني أنهم يقومون بتنبؤات دقيقة حول البيانات التي تم تدريبهم عليها ولكنهم يبدأون في تعلم جوانب إضافية من البيانات التي لا تتعلق بشكل مباشر بالمهمة التي يقومون بها. يؤدي هذا إلى نماذج غير معممة، مما يعني أن أداءها ضعيف على البيانات الجديدة التي هي نفس النوع ولكنها ليست مطابقة تمامًا لبيانات التدريب.
في حين أن هناك تقنيات لمعالجة الخطأ التنبؤي المرتبط بالتركيب الزائد، إلا أن هناك أيضًا مخاوف تتعلق بالخصوصية من القدرة على تعلم الكثير من البيانات.
كيف تقوم خوارزميات التعلم الآلي بالاستدلالات
كل نموذج لديه عدد معين من المعلمات. المعلمة هي عنصر من عناصر النموذج الذي يمكن تغييره. تحتوي كل معلمة على قيمة أو إعداد يشتقه النموذج من بيانات التدريب. يمكن اعتبار المعلمات بمثابة المقابض المختلفة التي يمكن تشغيلها للتأثير على أداء الخوارزمية. في حين أن نمط الخط المستقيم يحتوي على مقبضين فقط، الميل والتقاطع، فإن نماذج التعلم الآلي تحتوي على عدد كبير من المعلمات. على سبيل المثال، نموذج اللغة GPT-3، لديه 175 مليار.
من أجل اختيار المعلمات، تستخدم أساليب التعلم الآلي بيانات التدريب بهدف تقليل الخطأ التنبؤي في بيانات التدريب. على سبيل المثال، إذا كان الهدف هو التنبؤ بما إذا كان الشخص سيستجيب بشكل جيد لعلاج طبي معين بناءً على تاريخه الطبي، فإن نموذج التعلم الآلي سيقدم تنبؤات حول البيانات حيث يعرف مطورو النموذج ما إذا كان شخص ما قد استجاب جيدًا أم سيئًا. تتم مكافأة النموذج على التنبؤات الصحيحة ومعاقبته على التنبؤات غير الصحيحة، مما يدفع الخوارزمية إلى ضبط معلماتها – أي إدارة بعض “المقابض” – والمحاولة مرة أخرى.
لتجنب الإفراط في تجهيز بيانات التدريب، يتم فحص نماذج التعلم الآلي مقابل مجموعة بيانات التحقق أيضًا. مجموعة بيانات التحقق من الصحة هي مجموعة بيانات منفصلة لا يتم استخدامها في عملية التدريب. من خلال التحقق من أداء نموذج التعلم الآلي في مجموعة بيانات التحقق من الصحة هذه، يمكن للمطورين التأكد من أن النموذج قادر على تعميم تعلمه بما يتجاوز بيانات التدريب، وتجنب الإفراط في التجهيز.
على الرغم من نجاح هذه العملية في ضمان الأداء الجيد لنموذج التعلم الآلي، إلا أنها لا تمنع نموذج التعلم الآلي بشكل مباشر من حفظ المعلومات في بيانات التدريب.
مخاوف الخصوصية
نظرًا للعدد الكبير من المعلمات في نماذج التعلم الآلي، هناك احتمال أن تحفظ طريقة التعلم الآلي بعض البيانات التي تم تدريبها عليها. في الواقع، هذه ظاهرة منتشرة على نطاق واسع، ويمكن للمستخدمين استخراج البيانات المحفوظة من نموذج التعلم الآلي باستخدام استعلامات مصممة خصيصًا للحصول على البيانات.
إذا كانت بيانات التدريب تحتوي على معلومات حساسة، مثل البيانات الطبية أو الجينومية، فقد تتعرض خصوصية الأشخاص الذين تم استخدام بياناتهم لتدريب النموذج للخطر. أظهرت الأبحاث الحديثة أنه من الضروري فعليًا لنماذج التعلم الآلي حفظ جوانب بيانات التدريب من أجل الحصول على الأداء الأمثل لحل مشكلات معينة. يشير هذا إلى أنه قد يكون هناك مفاضلة أساسية بين أداء طريقة التعلم الآلي والخصوصية.
تتيح نماذج التعلم الآلي أيضًا التنبؤ بالمعلومات الحساسة باستخدام بيانات تبدو غير حساسة. على سبيل المثال، تمكنت شركة Target من التنبؤ بالعملاء المحتملين من خلال تحليل العادات الشرائية للعملاء الذين قاموا بالتسجيل في سجل الأطفال المستهدفين. بمجرد تدريب النموذج على مجموعة البيانات هذه، أصبح قادرًا على إرسال إعلانات متعلقة بالحمل إلى العملاء الذين يشتبه في أنهم حوامل لأنهم اشتروا عناصر مثل المكملات الغذائية أو المستحضرات غير المعطرة.
هل حماية الخصوصية ممكنة حتى؟
في حين أن هناك العديد من الطرق المقترحة لتقليل الحفظ في أساليب التعلم الآلي، إلا أن معظمها كان غير فعال إلى حد كبير. حاليًا، الحل الواعد لهذه المشكلة هو ضمان حد رياضي لمخاطر الخصوصية.
الطريقة الحديثة لحماية الخصوصية الرسمية هي الخصوصية التفاضلية. تتطلب الخصوصية التفاضلية ألا يتغير نموذج التعلم الآلي كثيرًا إذا تم تغيير بيانات فرد واحد في مجموعة بيانات التدريب. تحقق أساليب الخصوصية التفاضلية هذا الضمان من خلال إدخال عشوائية إضافية في تعلم الخوارزمية التي “تغطي” مساهمة أي فرد معين. بمجرد حماية الطريقة بالخصوصية التفاضلية، لا يمكن لأي هجوم محتمل أن ينتهك ضمان الخصوصية هذا.
حتى لو تم تدريب نموذج التعلم الآلي باستخدام الخصوصية التفاضلية، فإن هذا لا يمنعه من إجراء استنتاجات حساسة كما هو الحال في المثال المستهدف. ولمنع انتهاكات الخصوصية هذه، يجب حماية جميع البيانات المرسلة إلى المنظمة. يُسمى هذا النهج بالخصوصية التفاضلية المحلية، وقد قامت Apple وGoogle بتنفيذه.
نظرًا لأن الخصوصية التفاضلية تحد من مدى اعتماد نموذج التعلم الآلي على بيانات فرد واحد، فإن هذا يمنع الحفظ. ولسوء الحظ، فإنه يحد أيضًا من أداء أساليب التعلم الآلي. وبسبب هذه المقايضة، هناك انتقادات حول فائدة الخصوصية التفاضلية، لأنها تؤدي غالبًا إلى انخفاض كبير في الأداء.
للمضي قدما
بسبب التوتر بين التعلم الاستدلالي ومخاوف الخصوصية، هناك في نهاية المطاف سؤال مجتمعي حول أي السياقات أكثر أهمية. عندما لا تحتوي البيانات على معلومات حساسة، فمن السهل التوصية باستخدام أقوى أساليب التعلم الآلي المتاحة.
ومع ذلك، عند التعامل مع البيانات الحساسة، من المهم الموازنة بين عواقب تسرب الخصوصية، وقد يكون من الضروري التضحية ببعض أداء التعلم الآلي من أجل حماية خصوصية الأشخاص الذين قامت بياناتهم بتدريب النموذج.
تم إعادة نشر هذا المقال من The Conversation، وهي منظمة إخبارية مستقلة غير ربحية تقدم لك حقائق وتحليلات لمساعدتك على فهم عالمنا المعقد.
بقلم: جوردان أوان، جامعة بوردو.
اقرأ أكثر:
يحصل جوردان أوان على تمويل من مؤسسة العلوم الوطنية والمعهد الوطني للصحة. ويعمل أيضًا كمستشار خصوصية لمنظمة MITRE الفيدرالية غير الربحية.
اترك ردك