المشروع الذي يجمع مجموعة بيانات جديدة ضخمة

يتم تطوير أدوات الذكاء الاصطناعي (AI) مثل ChatGPT أو DeepSeek أو Siri أو Google Assistant بواسطة الشمال العالمي ويتم تدريبها باللغات الإنجليزية أو الصينية أو الأوروبية. وبالمقارنة، فإن اللغات الأفريقية مفقودة إلى حد كبير من الإنترنت.

لقد عمل فريق من علماء الكمبيوتر واللغويين والمتخصصين اللغويين الأفارقة وغيرهم على هذه المشكلة على وجه التحديد لمدة عامين بالفعل. أصدر مشروع الأصوات التالية الأفريقية، الذي تموله في المقام الأول مؤسسة جيتس (مع تمويل آخر من شركة ميتا) والذي يضم شبكة من الجامعات والمنظمات الأفريقية، مؤخرًا ما يُعتقد أنه أكبر مجموعة بيانات للغات الأفريقية للذكاء الاصطناعي حتى الآن. سألناهم عن مشروعهم الذي يتضمن مواقع في كينيا ونيجيريا وجنوب أفريقيا.


لماذا تعتبر اللغة مهمة جدًا للذكاء الاصطناعي؟

اللغة هي الطريقة التي نتفاعل بها، ونطلب المساعدة، ونحمل المعنى في المجتمع. نستخدمها لتنظيم الأفكار المعقدة ومشاركة الأفكار. إنها الوسيلة التي نستخدمها لإخبار الذكاء الاصطناعي بما نريده، وللحكم على ما إذا كان يفهمنا أم لا.

إننا نشهد طفرة في التطبيقات التي تعتمد على الذكاء الاصطناعي، من التعليم إلى الصحة إلى الزراعة. يتم تدريب هذه النماذج من خلال كميات كبيرة من البيانات اللغوية (في الغالب). تسمى هذه النماذج اللغوية الكبيرة أو LLMs ولكنها موجودة في عدد قليل فقط من لغات العالم.


اقرأ المزيد: الذكاء الاصطناعي في أفريقيا: 5 قضايا يجب معالجتها لتحقيق المساواة الرقمية


تحمل اللغات أيضًا الثقافة والقيم والحكمة المحلية. إذا كان الذكاء الاصطناعي لا يتحدث لغاتنا، فلن يتمكن من فهم نوايانا بشكل موثوق، ولا يمكننا أن نثق في إجاباته أو التحقق منها. باختصار: بدون اللغة، لا يستطيع الذكاء الاصطناعي التواصل معنا، ولا يمكننا التواصل معه. وبالتالي فإن بناء الذكاء الاصطناعي بلغاتنا هو الطريقة الوحيدة التي يعمل بها الذكاء الاصطناعي لصالح الناس.

إذا قمنا بتحديد من يتم تصميم لغته، فإننا نخاطر بفقدان غالبية الثقافات البشرية والتاريخ والمعرفة.

لماذا تختفي اللغات الأفريقية وما هي العواقب على الذكاء الاصطناعي؟

يتشابك تطور اللغة مع تاريخ الناس. لقد رأى العديد من الذين عانوا من الاستعمار والإمبراطورية أن لغاتهم الخاصة مهمشة ولم يتم تطويرها بنفس القدر الذي تطورت به اللغات الاستعمارية. لا يتم تسجيل اللغات الأفريقية في كثير من الأحيان، بما في ذلك على شبكة الإنترنت.

لذلك لا يوجد ما يكفي من النصوص والكلام الرقمي عالي الجودة لتدريب وتقييم نماذج الذكاء الاصطناعي القوية. هذه الندرة هي نتيجة عقود من الخيارات السياسية التي تميز اللغات الاستعمارية في المدارس ووسائل الإعلام والحكومة.


اقرأ المزيد: يمكن لروبوتات الدردشة المدعمة بالذكاء الاصطناعي تعزيز الصحة العامة في أفريقيا – ما سبب أهمية إدراج اللغة


تعد بيانات اللغة مجرد أحد الأشياء المفقودة. هل لدينا قواميس ومصطلحات ومعاجم؟ الأدوات الأساسية قليلة والعديد من المشكلات الأخرى تزيد من تكلفة بناء مجموعات البيانات. وتشمل هذه لوحات المفاتيح باللغة الأفريقية، والخطوط، والمدققات الإملائية، وأدوات الرموز المميزة (التي تقسم النص إلى أجزاء أصغر حتى يتمكن نموذج اللغة من فهمه)، والتنوع الإملائي (الاختلافات في كيفية تهجئة الكلمات عبر المناطق)، ووضع علامات النغمات وتنوع اللهجات الغني.

والنتيجة هي أن أداء الذكاء الاصطناعي ضعيف وغير آمن في بعض الأحيان: الترجمة الخاطئة، والنسخ الرديء، والأنظمة التي بالكاد تفهم اللغات الأفريقية.

ومن الناحية العملية، يحرم هذا العديد من الأفارقة من الوصول – بلغاتهم الخاصة – إلى الأخبار العالمية، والمواد التعليمية، ومعلومات الرعاية الصحية، ومكاسب الإنتاجية التي يمكن أن يحققها الذكاء الاصطناعي.

عندما لا تكون اللغة موجودة في البيانات، فإن المتحدثين بها لا يكونون موجودين في المنتج، ولا يمكن أن يكون الذكاء الاصطناعي آمنًا أو مفيدًا أو عادلاً بالنسبة لهم. وينتهي بهم الأمر إلى افتقارهم إلى أدوات تكنولوجيا اللغة الضرورية التي يمكن أن تدعم تقديم الخدمات. وهذا يؤدي إلى تهميش ملايين الأشخاص وزيادة الفجوة التكنولوجية.

ماذا يفعل مشروعك حيال ذلك – وكيف؟

هدفنا الرئيسي هو جمع بيانات الكلام للتعرف التلقائي على الكلام (ASR). تعد ASR أداة مهمة للغات التي يتم التحدث بها على نطاق واسع. تعمل هذه التقنية على تحويل اللغة المنطوقة إلى نص مكتوب.

الطموح الأكبر لمشروعنا هو استكشاف كيفية جمع البيانات الخاصة بـ ASR ومقدارها المطلوب لإنشاء أدوات ASR. ونحن نهدف إلى تبادل خبراتنا عبر مناطق جغرافية مختلفة.

البيانات التي نجمعها متنوعة حسب تصميمها: كلام عفوي ومقروء؛ في مجالات مختلفة – المحادثات اليومية والرعاية الصحية والشمول المالي والزراعة. نحن نجمع البيانات من أشخاص من مختلف الأعمار والجنس والخلفيات التعليمية.

يتم جمع كل تسجيل بموافقة مستنيرة وتعويض عادل وشروط واضحة لحقوق البيانات. نقوم بالنسخ باستخدام إرشادات خاصة باللغة ومجموعة كبيرة من الفحوصات الفنية الأخرى.

في كينيا، من خلال مركز ماسينو للذكاء الاصطناعي التطبيقي، نقوم بجمع البيانات الصوتية لخمس لغات. نحن نلتقط المجموعات اللغوية الثلاث الرئيسية النيلية (دهولو وماساي وكالينجين) بالإضافة إلى الكوشية (الصومالية) والبانتو (كيكويو).


اقرأ المزيد: ما رأي الأطفال النيجيريين في أجهزة الكمبيوتر؟ وجدت دراستنا


من خلال Data Science Nigeria، نقوم بجمع الكلام بخمس لغات منتشرة على نطاق واسع – البامبارا والهاوسا والإيغبو والبيدجين النيجيري واليوروبا. تهدف مجموعة البيانات إلى أن تعكس بدقة استخدام اللغة الأصيلة داخل هذه المجتمعات.

في جنوب أفريقيا، ومن خلال العمل من خلال مختبر علوم البيانات من أجل التأثير الاجتماعي والمتعاونين معه، قمنا بتسجيل سبع لغات جنوب أفريقية. والهدف من ذلك هو عكس التنوع اللغوي الغني في البلاد: إيسيزولو، إيسيكسهوسا، سيسوتو، سيبيدي، سيتسوانا، إيسينديبيلي وتشيفيندا.

والأهم من ذلك أن هذا العمل لا يحدث بمعزل عن الآخر. نحن نبني على الزخم والأفكار المستمدة من شبكة مؤسسة ماساكاني للأبحاث، وLelapa AI، وMozilla Common Voice، وEqualyzAI، والعديد من المنظمات والأفراد الآخرين الذين كانوا روادًا في نماذج اللغة الأفريقية وبياناتها وأدواتها.

يعمل كل مشروع على تعزيز المشاريع الأخرى، ويشكلون معًا نظامًا بيئيًا متناميًا ملتزمًا بجعل اللغات الأفريقية مرئية وقابلة للاستخدام في عصر الذكاء الاصطناعي.

كيف يمكن استخدام هذا؟

ستكون البيانات والنماذج مفيدة في وضع التعليقات التوضيحية على الوسائط الناطقة باللغة المحلية؛ المساعدين الصوتيين للزراعة والصحة؛ مركز الاتصال والدعم باللغات. سيتم أيضًا أرشفة البيانات للحفاظ على الثقافة.


اقرأ المزيد: الضجيج والقيم الغربية تشكل تقارير الذكاء الاصطناعي في أفريقيا: ما الذي يحتاج إلى التغيير


ستسمح لنا مجموعات البيانات اللغوية الأفريقية الأكبر حجمًا والمتوازنة والمتاحة للجمهور بربط موارد النص والكلام. لن تكون النماذج تجريبية فحسب، بل ستكون مفيدة في برامج الدردشة الآلية وأدوات التعليم وتقديم الخدمات المحلية. الفرصة موجودة لتجاوز مجموعات البيانات إلى أنظمة بيئية من الأدوات (المدققين الإملائيين، والقواميس، وأنظمة الترجمة، ومحركات التلخيص) التي تجعل اللغات الأفريقية وجودًا حيًا في المساحات الرقمية.

باختصار، نحن نقوم بإقران الخطاب عالي الجودة الذي تم جمعه بشكل أخلاقي على نطاق واسع مع النماذج. الهدف هو أن يتمكن الأشخاص من التحدث بشكل طبيعي، وأن يتم فهمهم بدقة، والوصول إلى الذكاء الاصطناعي باللغات التي يعيشون بها حياتهم.

ماذا سيحدث بعد ذلك للمشروع؟

قام هذا المشروع بجمع البيانات الصوتية للغات معينة فقط. وماذا عن اللغات المتبقية؟ ماذا عن الأدوات الأخرى مثل الترجمة الآلية أو المدقق النحوي؟

سنواصل العمل على لغات متعددة، لضمان بناء البيانات والنماذج التي تعكس كيفية استخدام الأفارقة للغاتهم. نحن نعطي الأولوية لبناء نماذج لغوية أصغر تكون موفرة للطاقة ودقيقة للسياق الأفريقي.

ويتمثل التحدي الآن في التكامل: جعل هذه القطع تعمل معًا بحيث لا يتم تمثيل اللغات الأفريقية في عروض تجريبية معزولة فحسب، بل في منصات العالم الحقيقي.

أحد الدروس المستفادة من هذا المشروع وغيره من المشاريع المشابهة هو أن جمع البيانات هو الخطوة الأولى فقط. ما يهم هو التأكد من أن البيانات يمكن قياسها وقابلية إعادة استخدامها وربطها بمجتمعات الممارسة. بالنسبة لنا، فإن “الخطوة التالية” هي التأكد من أن معايير ASR التي نبنيها يمكن أن تتصل بالجهود الأفريقية الجارية الأخرى.


اقرأ المزيد: هل يشكل الذكاء الاصطناعي خطراً وجودياً؟ سألنا 5 خبراء


نحتاج أيضًا إلى ضمان الاستدامة: أن يتمكن الطلاب والباحثون والمبتكرون من الوصول المستمر إلى الحوسبة (موارد الكمبيوتر وقوة المعالجة)، والمواد التدريبية وأطر الترخيص (مثل NODL أو Esethu). وتتمثل الرؤية طويلة المدى في تمكين الاختيار: بحيث يتمكن المزارع أو المعلم أو الشركة المحلية من استخدام الذكاء الاصطناعي بلغة إيسيزولو، أو الهوسا، أو كيكويو، وليس فقط باللغة الإنجليزية أو الفرنسية.

إذا نجحنا، فإن الذكاء الاصطناعي المدمج في اللغات الأفريقية لن يتمكن من اللحاق بالركب فحسب. وسوف تضع معايير جديدة للذكاء الاصطناعي الشامل والمسؤول في جميع أنحاء العالم.

تم إعادة نشر هذا المقال من The Conversation، وهي منظمة إخبارية مستقلة غير ربحية تقدم لك حقائق وتحليلات جديرة بالثقة لمساعدتك على فهم عالمنا المعقد. كتب بواسطة: فوكوسي ماريفيت، جامعة بريتوريا; إيفي أديبارا, جامعة ألبرتا، و ليليان وانزاري، جامعة ماسينو

اقرأ المزيد:

Vukosi Marivate هو أحد مؤسسي Lelapa AI. يتم تمويل DSFSI من قبل مؤسسة Gates، Meta، Google.org، ABSA (لكرسي ABSA UP لعلوم البيانات). فوكوسي هو أحد مؤسسي مؤسسة Deep Learning Indaba وMasakhane للأبحاث. فوكوسي هو عضو مجلس إدارة الشراكة في الذكاء الاصطناعي ومجلس التعليم العالي في جنوب أفريقيا.

إيفي أديبارا هو المؤسس المشارك والرئيس التنفيذي للتكنولوجيا في EqualyzAI. وهي تتلقى تمويلًا من مؤسسة جيتس ولاكونا وجامعة كولومبيا البريطانية وهي تابعة لعلوم البيانات في نيجيريا.

تتلقى ليليان وانزاري تمويلًا من مؤسسة جيتس. وهي تابعة لجامعة ماسينو ومؤسسة Utavu AI. .

Exit mobile version