بحث

نتائج معيار ITBench-AA كتبين أن النماذج الحديثة كتفشل فأكثر من نصف المهام

Miloud Belarebia · 2026-05-28

# معيار جديد كيكشف محدودية نماذج الذكاء الاصطناعي فالمهام المعقدة لتقنية المعلومات

شركة Artificial Analysis وشركة IBM أطلقتا معيار تقييم جديد اسمو ITBench-AA، وهو أول معيار من نوعه مخصص لتقييم أداء نماذج الذكاء الاصطناعي فالمهام التشغيلية المعقدة ديال قطاع تقنية المعلومات على مستوى المؤسسات الكبيرة.

شنو هو معيار ITBench-AA الجديد؟

هاد المعيار جاء ثمرة تعاون دام ستة أشهر بين فريق Artificial Analysis وفريق IBM Software Innovation Lab. الهدف الأساسي هو قياس قدرة النماذج الأمامية على أداء مهام وكيلة داخل البيئات التقنية الخاصة بالمؤسسات الكبيرة. البداية كانت مع مهام هندسة موثوقية الموقع — اللي كيعرفوها بـ SRE — ومع الوقت غادي يتوسع المعيار باش يشمل مهام Financial Operations وكذلك مهام CISO المتعلقة بالأمن المعلوماتي.

نتائج مفاجئة تحت عتبة خمسين بالمئة

النتيجة الأبرز اللي خرجت من هاد الاختبار هي أن جميع النماذج الأمامية المختبرة ما قدرتش تتجاوز عتبة خمسين بالمئة. المركز الأول أخدو نموذج Claude Opus 4.7 بنسبة سبعة وأربعين بالمئة، والمركز الثاني حصل عليه نموذج GPT-5.5 بنسبة ستة وأربعين بالمئة، وفالمرتبة الثالثة جاء نموذج Qwen3.7 Max بنسبة اثنين وأربعين بالمئة.

هاد الأرقام تخلي معيار ITBench-AA SRE واحدًا من المعايير الأقل تشبعًا فالمجموعة بأكملها. وكمقارنة، النماذج نفسها كتسجل نتائج أعلى بكثير فمعيار Terminal-Bench الآخر.

مهام SRE: تشخيص حي للأنظمة المعقدة

مهام SRE اللي يقيسها هاد المعيار مبنية على استجابة النماذج للحوادث داخل بيئات Kubernetes. الأمر مش مجرد أسئلة نظرية — النموذج والوكيل الخاص به خاصهم يشتغلو على أنظمة حية: يقراو السجلات، يتتبعو الاعتماديات، ويحددو الكيانات المسؤولة عن المشكل فبنية تحتية معقدة. قاعدة البيانات ITBench اللي عليها المعيار مبني طورتها شركة IBM بالاعتماد على خبرتها العميقة فعمليات تقنية المعلومات الخاصة بالمؤسسات.

تفاوت ملحوظ فعدد الأدوار

نتيجة لافتة أخرى كشف عليها التقرير هي أن عدد الأدوار — أو turns — بين النماذج تفاوت بنسبة تقريبًا ثلاثة أضعاف. والأهم من ذلك أن المسارات الأطول ما ترجمتش بالضرورة إلى نتائج أفضل، مما يطرح تساؤلات حقيقية حول كفاءة استراتيجيات الاستدلال الحالية.

خلاصة: شنو كيعني هاد الخبر للقطاع؟

هاد النتائج تبعث برسالة واضحة للقطاع: النماذج الأمامية، رغم تطورها الكبير، ما زالت بعيدة على استيعاب التعقيد الحقيقي للعمليات التشغيلية داخل المؤسسات الكبيرة. وجود معيار ITBench-AA متخصص كيعطي لمطوري النماذج مرجعًا ملموسًا لقياس التقدم فهاد المجال تحديدًا. التوسع المرتقب نحو مهام Financial Operations ومهام CISO غادي يزيد الضغط على هاد النماذج ويكشف محدوديات إضافية. عمليًا، هاد الوضع كيعني أن اعتماد الذكاء الاصطناعي فالعمليات الحساسة ديال تقنية المعلومات غادي يحتاج وقت أطول مما تتوقعه بعض الشركات.

مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية