databelarebia
بحث

شركة DeepMind طلقات طريقة جديدة لتدريب النماذج الكبيرة على مراكز بيانات بعيدة

·

# طريقة جديدة من DeepMind باش تتدرب النماذج الكبيرة بلا مشاكل

شركة DeepMind نشرات ورقة بحثية جديدة كتقدم معمارية مبتكرة سميوها **Decoupled DiLoCo**، والهدف منها هو حل مشكلة كبيرة كتواجه تدريب نماذج الذكاء الاصطناعي على مستوى عالمي.


المشكلة اللي كانت موجودة

تدريب نموذج ذكاء اصطناعي من الجيل الأول كيحتاج آلاف الشرائح الإلكترونية تبقى متزامنة بشكل شبه كامل مع بعضها. هاد الأسلوب كيشتغل مزيان اليوم، لكن ملي كنبدو نكبرو الحجم، تنسيق الآلاف من الشرائح كيبدا يولي تحدي لوجيستيكي ضخم.

الطريقة القديمة المسماة **Data-Parallel** كانت عندها مشكلة أساسية: التأخيرات فالتواصل بين الخوادم البعيدة كانت تخليها غير عملية على مستوى عالمي.


شنو هي Decoupled DiLoCo

الحل الجديد ديال DeepMind كيقسم عملية التدريب على "جزر" من الحواسيب منفصلة عن بعضها، مع تدفق غير متزامن للبيانات بينها. هاد المعمارية كتعزل المشاكل المحلية، بحال ما يعطل شيء فخادم واحد، باقي الأجزاء كتكمل التعلم بلا توقف.

النتيجة هي نظام أكثر مرونة وقدرة على التحمل، كيسمح بتدريب النماذج المتقدمة عبر **data centers** موزعة حول العالم.


علاش هاد الطريقة مختلفة

النقطة الأساسية اللي كتميز نهج **Decoupled DiLoCo** على باقي الطرق:

- **تواصل أقل**: ما كيحتاجش **bandwidth** كبير بين المراكز، عكس الطرق التقليدية

- **مقاومة للأعطال**: إذا عطل جزء من النظام، باقي الأجزاء كتكمل التدريب بشكل مستقل

- **توزيع جغرافي حقيقي**: كيسمح بتدريب نموذج واحد عبر **data centers** فبلدان مختلفة بلا عوائق تقنية كبيرة

هاد المعمارية كتبني على تطورات سابقة فمجال التدريب غير المتزامن، ومزيانا أن DeepMind صرحات بأنها كتحقق هاد الأهداف دون التضحية بجودة النموذج النهائي.


فين كيندرج هاد البحث

شركة DeepMind كتوضح أن هاد الطريقة مرتبطة برؤيتها للأجيال القادمة من النماذج، اللي غادية تكون أكبر وأكثر تعقيداً. التوجه العام هو البحث عن طرق متعددة باش تتم عملية التدريب عبر **compute** أكثر، ومواقع متعددة، وأجهزة متنوعة.


خلاصة وتأثير على القطاع

هاد البحث كيفتح باب مهم فقطاع الذكاء الاصطناعي: إمكانية تدريب نماذج ضخمة بدون الحاجة لبنية تحتية مركزية ومتزامنة بالكامل. هاد التحول ممكن يغير قواعد اللعبة من ناحيتين: أولاً، تكلفة التدريب ممكن تنخفض لأن ما كيحتاجوش **bandwidth** غالي، وثانياً، الشركات الصغيرة نسبياً ممكن يقدرو يوزعو مواردهم عبر مراكز متعددة بلا قيود تقنية كبيرة. كذلك، مقاومة الأعطال كتعني أن مشاريع التدريب الطويلة غادي تكون أقل عرضة للانهيار الكامل بسبب عطل تقني واحد.


مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية