LLM

تقنية NVFP4 الجديدة كتعطي سرعة أكبر بـ 5.9 مرة

Miloud Belarebia · 2026-06-28

# شركة NVIDIA طلقات نموذج Nemotron Ultra بتقنية ضغط جديدة وفعالة

شركة NVIDIA كشفات على تقنية جديدة باش تضغط نماذج الذكاء الاصطناعي الكبيرة وتخليها تشتغل بسرعة أكبر بكثير. الأمر يتعلق بنموذج Nemotron 3 Ultra اللي تم تحويله لفورمات NVFP4، وهو فورمات من 4 بيتات مبني على معالجات Blackwell الجديدة.

شنو هو فورمات NVFP4 الجديد هاد؟

فورمات NVFP4 هو تقنية quantization — يعني ضغط أوزان النموذج فحجم أصغر باش يشتغل بسرعة أكبر. النموذج Nemotron 3 Ultra اللي كان بـ 1,121 غيغابايت فصيغة BF16، تصغر لـ 352.3 غيغابايت بعد الضغط — يعني تقليص بنسبة 3.2x مقارنة مع الحجم الأصلي.

هاد التقليص مهم بزاف فالوقت اللي فيه نوافذ السياق context windows كتكبر وتحتاج لتنقل كميات ضخمة من أوزان النماذج.

الأداء: 5.9x أسرع من منافسيه

النتائج اللي نشراتهم شركة NVIDIA كتبين أن نموذج Nemotron 3 Ultra NVFP4 كيوصل لسرعة inference أعلى بـ 5.9x مقارنة مع نموذج GLM-5.1 754B FP4، وهاد الفارق كيظهر بالخصوص فالمهام اللي فيها decode-heavy workloads — يعني التوليد الطويل للنصوص.

الأهم من هاد كله، هو أن الدقة ما تأثراتش: النموذج المضغوط كيحافظ على نفس accuracy ديال النموذج الأصلي BF16 فتقريبا كل البنشمارك benchmarks الرئيسية.

غلطة شائعة: مشي كل layer بنفس الفورمات

كاين سوء فهم بزاف حول طريقة اشتغال NVFP4: كثير من الناس كيظنو أن كل طبقات layer ديال النموذج كتتضغط لنفس الفورمات. الواقع غير هاد — كل طبقة layer كتتعامل معاها بشكل مختلف حسب حساسيتها للأداء وتأثيرها على الدقة.

هاد النهج الانتقائي هو اللي كيسمح للنموذج بالحفاظ على جودته رغم التخفيض الكبير فحجمه.

الأداة المستعملة: NVIDIA Model Optimizer

عملية الضغط هاد تمات باستخدام أداة NVIDIA Model Optimizer. شركة NVIDIA نشرات التفاصيل التقنية ديال الطريقة باش يتمكن المطورين من إعادة تطبيق نفس المنهجية على نماذجهم الخاصة.

الخلاصة: شنو كيعني هاد الخبر للقطاع؟

تقنية NVFP4 مع نموذج Nemotron 3 Ultra كتبين اتجاها واضحا فقطاع الذكاء الاصطناعي: الأولوية مشات لتقليص تكلفة الـ inference وتسريعه، بدل التركيز فقط على زيادة حجم النماذج.

تقليص 3.2x فحجم النموذج مع الحفاظ على الدقة كيفتح الباب أمام نشر نماذج ضخمة على hardware أصغر وأرخص. هاد التطور ممكن يغير معادلة التكلفة بالنسبة للشركات اللي بغات تشغل نماذج كبيرة بدون الحاجة لبنية تحتية ضخمة. والتوجه هاد غادي يتسارع مع توسع نوافذ السياق context windows فالنماذج الجديدة.

مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية