databelarebia
بحث

تقنية DFlash كتحسن أداء الاستدلال بـ 15 مرة فمعالجات Blackwell

·

# تقنية DFlash الجديدة كتسرع الاستدلال بالذكاء الاصطناعي حتى 15 مرة على معالجات NVIDIA

فعالم الذكاء الاصطناعي، السرعة والكفاءة ماشي رفاهية — هما أساس كل شيء. وهادشي بالضبط اللي جات تحله تقنية DFlash الجديدة المصممة خصيصاً لتسريع الاستدلال فأنظمة الذكاء الاصطناعي المعقدة.

شنو هي مشكلة الأساس؟

النماذج الكبيرة ديال اللغة، أو ما كنسميوهم LLMs، كتولد التوكنات واحد واحد بالترتيب. هاد الأسلوب كيخلي معالجات GPU ما كتستغلش طاقتها الكاملة، وكيضيق الخناق على الأداء فالسيناريوهات اللي كتحتاج استجابة سريعة. والمشكلة كتكبر أكثر ملي كتبدا الأنظمة تشتغل بطريقة متعددة الوكلاء أو ما كنسميوه multiagent، حيث كل تأخير كيتضاعف.

شنو كتدير تقنية DFlash بالضبط؟

تقنية DFlash مبنية على مبدأ speculative decoding — يعني عوض ما النموذج الكبير يولد كل توكن لوحده، كيستعمل نموذجاً خفيفاً يسمى drafter باش يقترح مجموعة من التوكنات، ومن بعد النموذج الأصلي الكبير كيتحقق منها بالتوازي.

اللي كيميز هاد التقنية DFlash على غيرها هو أنها كتستعمل نهج block diffusion. بدل ما الـ drafter يولد توكن واحد فكل مرة، كيولد block كامل ديال التوكنات فpassage واحد. هادشي كيحول الشغل السيقونسيال إلى شغل parallel على الـ GPU، وفنفس الوقت كيحافظ على جودة المخرجات عبر آلية التحقق.

الأرقام اللي خرجات من الاختبارات

النتائج اللي خرجات من الاختبارات على معالجات NVIDIA Blackwell واضحة:

- فاستعمال نموذج gpt-oss-120b، وصلت تقنية DFlash لتحسين الأداء بـ 15 مرة فنفس مستوى التفاعلية

- فاستعمال نموذج Llama 3.1 8B، تضاعفت التفاعلية تقريباً عند نفس درجة الـ concurrency مقارنة بتقنية EAGLE-3 اللي كانت تعتبر الأحسن فهاد المجال

الاتاحة للمطورين

فريق البحث ما بقاش عند الأوراق والنظريات — خرج بسرعة للتطبيق العملي. تم نشر 20 نقطة تفتيش أو checkpoint ديال تقنية DFlash على منصة Hugging Face، مع وصفات جاهزة للشغل على معالجات NVIDIA Blackwell وكذلك معالجات NVIDIA Hopper.

كما تم نشر منحنى Pareto الخاص بالـ latency والـ throughput لهاد التقنية وهي تشتغل على نظام NVIDIA Blackwell Ultra باستعمال إطار عمل TensorRT-LLM. والتقنية كتمشي بخطى سريعة نحو الاندماج فمختلف طبقات الـ inference الخاصة بـ NVIDIA GPUs.


الخلاصة: شنو كيعني هاد الخبر للقطاع؟

ظهور تقنية DFlash كيجي في وقت كيتزايد فيه الطلب على أنظمة الذكاء الاصطناعي المتعددة الوكلاء. المشكلة الأساسية — وهي البطء الناجم عن التوليد التسلسلي للتوكنات — كانت عائقاً حقيقياً أمام توسع هاد الأنظمة. تحسين بـ 15 مرة على نموذج gpt-oss-120b ومضاعفة التفاعلية على نموذج Llama 3.1 8B هي أرقام كبيرة، وإلا تأكدات فبيئات الإنتاج الحقيقية، ممكن تغير حسابات التكلفة والكفاءة لأي شركة كتشغل نماذج لغوية على نطاق واسع. الإتاحة المفتوحة عبر منصة Hugging Face كتعني كذلك أن المطورين المستقلين والمؤسسات الصغيرة ممكن يستفيدو منها بلا انتظار.


مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية