يمكن أن ينفد “الاندفاع الذهبي” للذكاء الاصطناعي لبيانات تدريب روبوتات المحادثة من النص المكتوب بواسطة الإنسان

قد تنفد قريبًا أنظمة الذكاء الاصطناعي مثل ChatGPT مما يجعلها أكثر ذكاءً، وهي عشرات التريليونات من الكلمات التي كتبها الأشخاص وشاركوها عبر الإنترنت.

تتوقع دراسة جديدة صدرت يوم الخميس من قبل مجموعة الأبحاث Epoch AI أن شركات التكنولوجيا سوف تستنفد إمدادات بيانات التدريب المتاحة للجمهور لنماذج لغة الذكاء الاصطناعي بحلول نهاية العقد تقريبًا – في وقت ما بين عامي 2026 و 2032.

وبمقارنته بـ “الاندفاع الحرفي للذهب” الذي يستنزف الموارد الطبيعية المحدودة، قال تاماي بيسيروغلو، مؤلف الدراسة، إن مجال الذكاء الاصطناعي قد يواجه تحديات في الحفاظ على وتيرة التقدم الحالية بمجرد استنزاف احتياطيات الكتابة التي ينتجها الإنسان.

على المدى القصير، تتسابق شركات التكنولوجيا مثل OpenAI التي تصنع ChatGPT وGoogle لتأمين مصادر بيانات عالية الجودة، وفي بعض الأحيان الدفع مقابلها، لتدريب نماذجها اللغوية الكبيرة المستندة إلى الذكاء الاصطناعي – على سبيل المثال، من خلال توقيع صفقات للاستفادة من التدفق المستمر للجمل القادمة. من منتديات Reddit ووسائل الإعلام الإخبارية.

على المدى الطويل، لن يكون هناك ما يكفي من المدونات الجديدة والمقالات الإخبارية والتعليقات على وسائل التواصل الاجتماعي للحفاظ على المسار الحالي لتطوير الذكاء الاصطناعي، مما يضغط على الشركات للاستفادة من البيانات الحساسة التي تعتبر الآن خاصة – مثل رسائل البريد الإلكتروني أو الرسائل النصية – أو الاعتماد على “بيانات اصطناعية” أقل موثوقية تبثها روبوتات الدردشة نفسها.

وقال بيسيروغلو: “هناك عنق الزجاجة الخطير هنا”. “إذا بدأت في التغلب على تلك القيود المتعلقة بكمية البيانات المتوفرة لديك، فلن تتمكن حقًا من توسيع نطاق نماذجك بكفاءة بعد الآن. وربما كان توسيع نطاق النماذج هو الطريقة الأكثر أهمية لتوسيع قدراتها وتحسين جودة مخرجاتها.

قدم الباحثون توقعاتهم لأول مرة قبل عامين – قبل وقت قصير من ظهور ChatGPT لأول مرة – في ورقة عمل تتنبأ بقطع وشيك للبيانات النصية عالية الجودة في عام 2026. لقد تغير الكثير منذ ذلك الحين، بما في ذلك التقنيات الجديدة التي مكنت باحثي الذكاء الاصطناعي من الاستفادة بشكل أفضل من البيانات المتوفرة لديهم بالفعل وفي بعض الأحيان “الإفراط في التدريب” على نفس المصادر عدة مرات.

ولكن هناك حدود، وبعد مزيد من البحث، تتوقع شركة Epoch الآن نفاد البيانات النصية العامة في وقت ما خلال السنتين إلى الثماني سنوات القادمة.

وتخضع أحدث دراسة للفريق لمراجعة النظراء، ومن المقرر تقديمها في المؤتمر الدولي للتعلم الآلي هذا الصيف في فيينا، النمسا. Epoch هو معهد غير ربحي تستضيفه منظمة Rethink Priorities ومقرها سان فرانسيسكو، ويتم تمويله من قبل أنصار الإيثار الفعال – وهي حركة خيرية ضخت الأموال للتخفيف من أسوأ مخاطر الذكاء الاصطناعي.

وقال بيسيروغلو إن باحثي الذكاء الاصطناعي أدركوا منذ أكثر من عقد من الزمن أن التوسع بقوة في مكونين رئيسيين – قوة الحوسبة ومخازن ضخمة من بيانات الإنترنت – يمكن أن يحسن أداء أنظمة الذكاء الاصطناعي بشكل كبير.

وتنمو كمية البيانات النصية التي يتم تغذيتها في نماذج لغة الذكاء الاصطناعي بنحو 2.5 مرة سنويًا، بينما تنمو الحوسبة بنحو 4 مرات سنويًا، وفقًا لدراسة Epoch. ادعت شركة Meta Platforms، الشركة الأم لفيسبوك، مؤخرًا أن النسخة الأكبر من نموذج Llama 3 القادم – والذي لم يتم إصداره بعد – قد تم تدريبها على ما يصل إلى 15 تريليون رمز، كل منها يمكن أن يمثل جزءًا من الكلمة.

ولكن مدى أهمية القلق بشأن عنق الزجاجة في البيانات هو أمر قابل للنقاش.

وقال نيكولاس بابيرنوت، الأستاذ المساعد في هندسة الكمبيوتر في جامعة تورنتو والباحث في معهد فيكتور للذكاء الاصطناعي غير الربحي: “أعتقد أنه من المهم أن نأخذ في الاعتبار أننا لا نحتاج بالضرورة إلى تدريب نماذج أكبر وأكبر”.

وقال بابيرنوت، الذي لم يشارك في دراسة إيبوك، إن بناء أنظمة ذكاء اصطناعي أكثر مهارة يمكن أن يأتي أيضًا من نماذج التدريب الأكثر تخصصًا لمهام محددة. لكن لديه مخاوف بشأن تدريب أنظمة الذكاء الاصطناعي التوليدية على نفس المخرجات التي تنتجها، مما يؤدي إلى تدهور الأداء المعروف باسم “انهيار النموذج”.

إن التدريب على البيانات التي ينشئها الذكاء الاصطناعي “يشبه ما يحدث عندما تقوم بتصوير قطعة من الورق ثم تقوم بتصوير النسخة. وقال بابيرنوت: “إنك تفقد بعض المعلومات”. ليس هذا فحسب، بل وجدت أبحاث Papernot أيضًا أنه يمكن أن يزيد من تشفير الأخطاء والتحيز والظلم الموجودة بالفعل في النظام البيئي للمعلومات.

إذا ظلت الجمل الحقيقية التي صاغها الإنسان مصدرًا بالغ الأهمية لبيانات الذكاء الاصطناعي، فإن أولئك الذين يشرفون على أكثر الكنوز المرغوبة – مواقع مثل Reddit وWikipedia، بالإضافة إلى ناشري الأخبار والكتب – قد اضطروا إلى التفكير مليًا في كيفية صياغتها. تم استخدامها.

“ربما لا تتسلق قمم كل الجبال”، مازحة سيلينا ديكلمان، كبيرة مسؤولي المنتجات والتكنولوجيا في مؤسسة ويكيميديا، التي تدير ويكيبيديا. “إنها مشكلة مثيرة للاهتمام في الوقت الحالي أننا نجري محادثات حول الموارد الطبيعية حول البيانات التي أنشأها الإنسان. لا ينبغي لي أن أضحك بشأن ذلك، لكنني أجد ذلك مذهلاً نوعًا ما.”

في حين أن البعض سعى إلى إغلاق بياناتهم من التدريب على الذكاء الاصطناعي – غالبًا بعد أن يتم أخذها بالفعل دون تعويض – فقد وضعت ويكيبيديا قيودًا قليلة على كيفية استخدام شركات الذكاء الاصطناعي لمدخلاتها المكتوبة من قبل المتطوعين. ومع ذلك، قالت ديكلمان إنها تأمل في استمرار وجود حوافز للناس لمواصلة المساهمة، خاصة وأن طوفانًا من “المحتوى المهمل” الرخيص والمولد تلقائيًا يبدأ في تلويث الإنترنت.

وقالت إن شركات الذكاء الاصطناعي يجب أن “تشعر بالقلق إزاء كيفية استمرار وجود المحتوى الذي ينتجه الإنسان واستمرار إمكانية الوصول إليه”.

من وجهة نظر مطوري الذكاء الاصطناعي، تقول دراسة إيبوك إن الدفع لملايين البشر لإنشاء النص الذي ستحتاجه نماذج الذكاء الاصطناعي “من غير المرجح أن يكون وسيلة اقتصادية” لتحقيق أداء تقني أفضل.

بينما تبدأ شركة OpenAI العمل على تدريب الجيل القادم من نماذج اللغات الكبيرة GPT، أخبر الرئيس التنفيذي سام ألتمان الجمهور في حدث للأمم المتحدة الشهر الماضي أن الشركة جربت بالفعل “توليد الكثير من البيانات الاصطناعية” للتدريب.

“أعتقد أن ما تحتاجه هو بيانات عالية الجودة. هناك بيانات اصطناعية منخفضة الجودة. قال ألتمان: “هناك بيانات بشرية منخفضة الجودة”. لكنه أعرب أيضًا عن تحفظاته بشأن الاعتماد بشكل كبير على البيانات الاصطناعية مقارنة بالطرق التقنية الأخرى لتحسين نماذج الذكاء الاصطناعي.

قال ألتمان: “سيكون هناك شيء غريب جدًا إذا كانت أفضل طريقة لتدريب النموذج هي توليد كوادريليون رمز من البيانات الاصطناعية وتغذيتها مرة أخرى”. “بطريقة ما يبدو هذا غير فعال.”

——————

لدى Associated Press وOpenAI اتفاقية ترخيص وتقنية تسمح لـ OpenAI بالوصول إلى جزء من أرشيفات النصوص الخاصة بـ AP.