GPT-5.5 ضد Claude Opus 4.7 — شكون فيهم "الأحسن فـ Agentic AI"؟

databelarebia — تدقيق فالأرقام والمنهجيات

السلام عليكم. كل ما كتخرج شي شركة موديل جديد، كتقول ليك "حنا الواعرين، حنا رقم 1 فـ Agentic AI". شركة OpenAI دارتها مع GPT-5.5، وشركة Anthropic دارتها مع Claude Opus 4.7. ولكن، منين كيجيبو هاد الهضرة؟ وعلى أش كيبنيو هاد الادعاءات؟

درنا تدقيق للمنهجيات ديال الجوج بجوج، ولقينا بلي كاين بزاف ديال التلاعب فالأرقام اللي كيعطيونا. وها الخلاصة بلا زواق.

الأرقام الرسمية — جنب بجنب

شركة OpenAI كتركز على هاد الاختبارات :

— Terminal-Bench 2.0 : 82,7% (أوامر النظام، state-of-the-art)

— SWE-Bench Pro : 58,6% (حل تذاكر GitHub حقيقية)

— Expert-SWE : بنشمارك داخلي، مهام طويلة تدوم 20 ساعة بالإنسان

— GDPval : 84,9% (مهام اقتصادية)

شركة Anthropic كتركز على هاد الاختبارات :

— SWE-Bench Verified : 87,6%

— SWE-Bench Pro : 64,3% (فوق GPT-5.5)

— Terminal-Bench 2.0 : 69,4% (⚠️ قل من GPT-5.5)

— MCP-Atlas : 77,3% (تنسيق الأدوات، الأحسن فالعالم)

— Finance Agent v1.1 : 64,4%

أربعة مشاكل منهجية خطيرة

1. كيعزلو غير اللي مسلكهم (Cherry-picking)

كل شركة كتفضل تركز على الاختبار اللي رابحة فيه.

— OpenAI كتركز على Terminal-Bench 2.0 (82,7% ضد 69,4% ديال Opus)

— Anthropic كتركز على SWE-Bench Pro وكتقول إنو "أصعب وأهم فالصناعة"

— OpenAI ما تهضرات حتى كلمة على MCP-Atlas (اللي Opus فيه رقم 1)

— Anthropic حيدات Terminal-Bench من أول الصفحة

2. اتهامات بـ "الحفاظة" (Memorization)

فاش جابت شركة Anthropic نقطة طالعة فـ SWE-Bench Pro (64,3%)، خرجات شركة OpenAI كتقول بطريقة غير مباشرة : "لاحظنا علامات ديال الحفاظة عند Anthropic على مجموعة فرعية من المسائل." الترجمة بالدارجة : OpenAI كتقول إن Claude شاف جوابات الاختبار فالتدريب.

شركة Anthropic من جهتها طبقات "memorization screens" — ديال الفلاتر اللي كتحذف المسائل المشبوهة. النتيجة : المقارنة المباشرة بين الرقمين ما عاد لها معنى كبير.

3. شروط اللعب ماشي بحال بحال (Harnesses)

شركة Anthropic جربات Opus 4.7 على Terminal-Bench بخاصية "التفكير" مطفية (thinking disabled). بينما شركة OpenAI جربات GPT-5.5 بطريقتها الخاصة.

نفس الامتحان، ولكن شروط الحراسة مبدلة. هاد الحاجة كتفسر جزء كبير من الفرق ديال 13 نقطة اللي كتطنطن بيها OpenAI.

4. اختبارات سرية (Benchmarks داخلية)

كل شركة كتقول "جربناه فاختبار ديالنا ونجح" :

— OpenAI : Expert-SWE (بنشمارك 20 ساعة بالإنسان)

— Anthropic : بنشمارك 93 مهمة برمجة، بنشمارك research-agent ب 6 وحدات، "implicit-need tests"

المشكل؟ هاد الاختبارات سرية، حتى واحد ما يقدر يراجعهم أو يأكد النتيجة ديالهم بشكل مستقل (third-party verification).

الشهادات ديال الشركاء — دليل أو إعلان؟

باش يعوضو على المشاكل المنهجية، الشركتان زادو شهادات ديال شركات شريكة :

— Anthropic : Hebbia (تحسين الدقة بأرقام من خانتين)، Rakuten (3 أضعاف المهام الإنتاجية)، Genspark (أفضل نسبة جودة لكل استدعاء أداة)، Notion (أول نموذج ينجح فاختبار "implicit-need").

— OpenAI : NVIDIA (نشرو Codex على 10 آلاف موظف، تصحيح الأخطاء طاح من أيام لساعات، الاختبارات اللي كانت كتاخد أسابيع ولات كتسالى فليلة).

الحقيقة؟ هاد الشركاء كيتخلصو أو عندهم اتفاقيات تجارية. الشهادات ديالهم مفيدة، ولكن ماشي دليل علمي محايد.

الخلاصة العملية — شكون نختار لشنو؟

الواقع هو أن كل موديل عندو التخصص ديالو :

— البرمجة وهندسة البرامج (Coding / Software Engineering) : سير مع Opus 4.7 — أرقام قوية على SWE-Bench Pro وMCP-Atlas، بالإضافة لتقييمات شركاء جدية.

— الطرفية وDevOps (أوامر النظام) : GPT-5.5 هو الأحسن ب 82,7% فـ Terminal-Bench 2.0.

— البحث فالويب (Web Research) : GPT-5.5 ومعاه Gemini.

— تنسيق الأدوات المعقدة بدون دوامات (Tool Orchestration) : Opus 4.7 — مقاومة أحسن للـ loops، تقدر تستافد من implicit-need tests.

خلاصة

الحل الوحيد هو تجرب الموديل فالحالة الخاصة ديالك (Use case).

مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية. فاش كتخرج موديل جديد، حنا كنحللوه بلا ماركيتينغ.

← ارجع لكل المقالات

مشروع ديال 2PiData