databelarebia
بحث

منصة Hugging Face تبحث فكيفية تقييم النماذج المفتوحة فمهام الـ agentic

·

# كيفاش تعرف واش النموذج ديالك كيشتغل مزيان مع الأدوات ديالك؟

فعالم الـ coding agents، الطريقة اللي كنقيسو بيها الأداء بدات تتبدل بشكل واضح. مبادرة جديدة من فريق **Hugging Face** كتطرح سؤال مهم بزاف: واش يكفي نشوفو النتيجة النهائية، ولا خاصنا نفهمو **كيفاش** وصل النموذج ليها؟


المشكلة: المقاييس التقليدية ما عادش تكفي

الـ benchmarks المعروفة كتشوف غير النتيجة — صح ولا غلط. لكن فريق **Hugging Face** قرر يمشي بعيد أكثر من هاكا. الهدف ماشي بس "واش النموذج جاوب صح؟"، لكن "شحال خدا من وقت ومجهود باش يوصل؟".

هاد التساؤل خرج من ملاحظة عملية: الـ coding agents دابا كيخدمو مع البرامج عوضنا — كتوصف ليهم المهمة، وهوما كيختارو الـ library، كيكتبو الـ code، كيشغلوه، وكيصلحو الأخطاء بوحدهم. المشكلة تجي منين تكون الـ API معقدة أو الـ docs قديمة — هنا النموذج كياخد طريق أطول وأغلى.


الحل: بنشمارك متمحور حول الأداة

الفريق بنا نظام قياس متخصص يتتبع **العملية كاملة**، مو غير النتيجة. الـ benchmark كيقيس:

- **شحال** خدا النموذج باش يكمل المهمة

- **كيفاش** تبدل الأداء عبر نسخ مختلفة ديال نفس الـ library

- **فين** كتفرق النماذج على بعضها عند نفس المهام

الأداة المستعملة كـ case study هي مكتبة **transformers** — واحدة من أشهر الـ libraries فمجال الذكاء الاصطناعي.


التقنية: نماذج مفتوحة وبنية موزعة

الـ harness كيشتغل بالكامل على نماذج مفتوحة المصدر، مدفوعة بالـ pi coding agent. كولشي كيتشغل فوق منصة **Hugging Face Jobs** — بمعنى كل مزيج من النموذج × النسخة × المهمة كيشتغل على نفس الـ hardware بالضبط، باش تكون المقارنة عادلة.

الفريق كيتبنى مبدأين أساسيين فتطوير البرامج:

- إلا ما كانش عندها tests، مكتوبش عليها

- الـ API الكيشنكل النموذج، كيكلف أغلى وكياخد وقت أطول


الخلاصة: شنو كيعني هاد الخبر للقطاع؟

هاد المبادرة كتفتح بوابة جديدة فكيفية تقييم الأدوات والمكتبات البرمجية. مع انتشار الـ coding agents، المطورون غيبداو محتاجين يفكرو مو بس فصحة الـ code ديالهم، لكن فمدى قابليته للاستخدام من طرف النماذج. الـ benchmarks ديال الغد مو غادي يكونو "واش النموذج ذكي؟" — غادي يكونو "واش الأداة ديالك مبنية بالشكل اللي يخلي النموذج يشتغل بكفاءة؟". هاد التحول ممكن يغير الطريقة اللي كتصمم بيها الـ libraries والـ APIs بشكل كامل.


مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية