الفيروسات هي قوة غامضة وغير مفهومة بشكل جيد في النظم البيئية الميكروبية. يعرف الباحثون أن بإمكانهم إصابة الخلايا البشرية والبكتيرية وقتلها والتلاعب بها في كل بيئة تقريبًا، بدءًا من المحيطات وحتى أمعائك. لكن العلماء ليس لديهم بعد صورة كاملة عن كيفية تأثير الفيروسات على البيئات المحيطة بها، ويرجع ذلك إلى حد كبير إلى تنوعها الاستثنائي وقدرتها على التطور السريع.
من الصعب دراسة مجتمعات الميكروبات في بيئة معملية. يصعب زراعة العديد من الميكروبات، كما أن بيئتها الطبيعية تحتوي على العديد من الميزات التي تؤثر على نجاحها أو فشلها أكثر مما يستطيع العلماء تكراره في المختبر.
لذا فإن علماء بيولوجيا الأنظمة من أمثالي غالبًا ما يقومون بتسلسل كل الحمض النووي الموجود في العينة – على سبيل المثال، عينة براز من مريض – ويفصلون تسلسل الحمض النووي الفيروسي، ثم يقومون بتعليق أجزاء الجينوم الفيروسي التي ترمز للبروتينات. تساعد هذه الملاحظات حول موقع الجينات وبنيتها وميزاتها الأخرى الباحثين على فهم الوظائف التي قد تؤديها الفيروسات في البيئة وتساعد في تحديد أنواع مختلفة من الفيروسات. يقوم الباحثون بتعليق الفيروسات عن طريق مطابقة التسلسلات الفيروسية في العينة مع التسلسلات المشروحة مسبقًا المتوفرة في قواعد البيانات العامة للتسلسلات الجينية الفيروسية.
ومع ذلك، يقوم العلماء بتحديد التسلسلات الفيروسية في الحمض النووي الذي تم جمعه من البيئة بمعدل يفوق بكثير قدرتنا على وضع تعليقات توضيحية على تلك الجينات. وهذا يعني أن الباحثين ينشرون نتائج حول الفيروسات في النظم البيئية الميكروبية باستخدام أجزاء صغيرة غير مقبولة من البيانات المتاحة.
لتحسين قدرة الباحثين على دراسة الفيروسات في جميع أنحاء العالم، قمت أنا وفريقي بتطوير نهج جديد لتعليق التسلسلات الفيروسية باستخدام الذكاء الاصطناعي. من خلال نماذج لغة البروتين المشابهة لنماذج اللغة الكبيرة مثل ChatGPT ولكنها خاصة بالبروتينات، تمكنا من تصنيف التسلسلات الفيروسية غير المرئية سابقًا. وهذا يفتح الباب أمام الباحثين ليس فقط لمعرفة المزيد عن الفيروسات، ولكن أيضًا لمعالجة الأسئلة البيولوجية التي يصعب الإجابة عليها بالتقنيات الحالية.
شرح الفيروسات باستخدام الذكاء الاصطناعي
تستخدم نماذج اللغة الكبيرة العلاقات بين الكلمات في مجموعات البيانات الكبيرة من النصوص لتقديم إجابات محتملة للأسئلة التي لم يتم “تعليم” الإجابة عليها بشكل صريح. عندما تسأل روبوت الدردشة “ما هي عاصمة فرنسا؟” على سبيل المثال، لا يبحث النموذج عن الإجابة في جدول العواصم. بل إنها تستخدم تدريباتها على مجموعات بيانات ضخمة من الوثائق والمعلومات لاستنتاج الإجابة: “عاصمة فرنسا هي باريس”.
وبالمثل، فإن نماذج لغة البروتين هي خوارزميات الذكاء الاصطناعي التي يتم تدريبها للتعرف على العلاقات بين مليارات تسلسلات البروتين من البيئات حول العالم. ومن خلال هذا التدريب، قد يتمكنون من استنتاج شيء ما حول جوهر البروتينات الفيروسية ووظائفها.
لقد تساءلنا عما إذا كانت نماذج لغة البروتين يمكنها الإجابة على هذا السؤال: “بالنظر إلى جميع التسلسلات الجينية الفيروسية المشروحة، ما هي وظيفة هذا التسلسل الجديد؟”
في إثبات المفهوم، قمنا بتدريب الشبكات العصبية على تسلسلات البروتين الفيروسي المشروحة مسبقًا في نماذج لغة البروتين المدربة مسبقًا ثم استخدمناها للتنبؤ بشرح تسلسلات البروتين الفيروسي الجديدة. يسمح لنا نهجنا باستكشاف ما “يراه” النموذج في تسلسل فيروسي معين يؤدي إلى تعليق توضيحي معين. ويساعد ذلك في تحديد البروتينات المرشحة ذات الاهتمام إما بناءً على وظائفها المحددة أو كيفية ترتيب الجينوم الخاص بها، مما يؤدي إلى غربلة مساحة البحث في مجموعات البيانات الواسعة.
ومن خلال تحديد وظائف الجينات الفيروسية ذات الصلة البعيدة، يمكن لنماذج لغة البروتين أن تكمل الأساليب الحالية لتقديم رؤى جديدة في علم الأحياء الدقيقة. على سبيل المثال، تمكنت أنا وفريقي من استخدام نموذجنا لاكتشاف إنزيم التكامل الذي لم يتم التعرف عليه سابقًا – وهو نوع من البروتين يمكنه نقل المعلومات الوراثية داخل وخارج الخلايا – في بكتيريا بيكوسيانوبكتيريا البحرية المتوفرة عالميًا. بروكلوروكوكوس و المكورات العنقودية. والجدير بالذكر أن هذا التكامل قد يكون قادرًا على نقل الجينات داخل وخارج مجموعات البكتيريا الموجودة في المحيطات وتمكين هذه الميكروبات من التكيف بشكل أفضل مع البيئات المتغيرة.
حدد نموذجنا اللغوي أيضًا بروتين قفيصة فيروسي جديد منتشر على نطاق واسع في المحيطات العالمية. وأنتجنا الصورة الأولى لكيفية ترتيب جيناته، موضحة أنه يمكن أن يحتوي على مجموعات مختلفة من الجينات التي نعتقد أنها تشير إلى أن هذا الفيروس يؤدي وظائف مختلفة في بيئته.
تمثل هذه النتائج الأولية اثنين فقط من آلاف التعليقات التوضيحية التي قدمها نهجنا.
تحليل المجهول
معظم مئات الآلاف من الفيروسات المكتشفة حديثًا لا تزال غير مصنفة. تتطابق العديد من التسلسلات الجينية الفيروسية مع عائلات بروتينية ليس لها وظيفة معروفة أو لم يتم رؤيتها من قبل. يوضح عملنا أن نماذج لغة البروتين المماثلة يمكن أن تساعد في دراسة التهديد والوعود التي تمثلها العديد من الفيروسات غير المميزة على كوكبنا.
بينما ركزت دراستنا على الفيروسات الموجودة في المحيطات العالمية، فإن تحسين شرح البروتينات الفيروسية أمر بالغ الأهمية لفهم الدور الذي تلعبه الفيروسات في الصحة والمرض في جسم الإنسان بشكل أفضل. لقد افترضنا نحن وباحثون آخرون أن النشاط الفيروسي في ميكروبيوم الأمعاء البشرية قد يتغير عندما تكون مريضًا. وهذا يعني أن الفيروسات قد تساعد في تحديد الإجهاد في المجتمعات الميكروبية.
ومع ذلك، فإن نهجنا محدود أيضًا لأنه يتطلب تعليقات توضيحية عالية الجودة. يقوم الباحثون بتطوير نماذج لغة البروتين الأحدث التي تتضمن “مهام” أخرى كجزء من تدريبهم، وخاصة التنبؤ بهياكل البروتين لاكتشاف البروتينات المماثلة، لجعلها أكثر قوة.
إن إتاحة جميع أدوات الذكاء الاصطناعي عبر مبادئ بيانات FAIR – البيانات التي يمكن العثور عليها ويمكن الوصول إليها وقابلة للتشغيل البيني وإعادة الاستخدام – يمكن أن تساعد الباحثين بشكل عام على إدراك إمكانات هذه الطرق الجديدة لتعليق تسلسلات البروتين التي تؤدي إلى اكتشافات تعود بالنفع على صحة الإنسان.
تم إعادة نشر هذا المقال من The Conversation، وهي منظمة إخبارية مستقلة غير ربحية تقدم لك حقائق وتحليلات لمساعدتك على فهم عالمنا المعقد.
كتب بواسطة: ليبوشا كيلي، كلية ألبرت أينشتاين للطب.
اقرأ أكثر:
تتلقى ليبوشا كيلي تمويلًا من المعاهد الوطنية للصحة.
اترك ردك