databelarebia
بحث

تقنية DPO كتتجاوز روبوتات الدردشة لتحسين النماذج

·

# بعد الـ SFT ماشي كافي: كيفاش الـ DPO خفض معدل الأخطاء بـ 59% فنماذج الـ OCR

فعالم تدريب النماذج اللغوية، كاين مشكل تقني واحد كيبقى صعب يتحل حتى مع الـ fine-tuning التقليدي: ظاهرة "text degeneration"، يعني ملي كيبدا النموذج يكرر نفس الكلام بلوب بدل ما يكمل الترجمة أو الاستخراج. فريق شركة Nanonets خرج بنتائج مثيرة للاهتمام كتبين واش الـ DPO — يعني Direct Preference Optimization — كيقدر يحل هاد المشكل بطريقة أكثر فعالية من الـ SFT وحده.

شنو هو المشكل اللي كانوا كيحاولوا يحلوه

فشهر أبريل، خرج الفريق بنموذج مخصص سموه DharmaOCR متوفر على منصة Hugging Face، صمموه باش يعالج وثائق هيكلية، وبالتحديد نصوص برتغالية برازيلية. ملي بدا الفريق يقيس أداء النماذج المختلفة، لقاو مشكل واضح: معدل الـ text degeneration فالنماذج مفتوحة المصدر كيتراوح بين أقل من 1% وأكثر من 33%.

تطبيق الـ SFT — التدريب الكلاسيكي على أمثلة صحيحة — خفض هاد المعدل عند معظم النماذج، ولكن نادراً ما وصل لمستوى مقبول في الإنتاج الفعلي. السبب واضح: الـ SFT كيحسن الأداء الصحيح، لكن ما كيعاقبش النموذج على الأخطاء. هاد الحد الأقصى ديال الـ SFT هو اللي دفع الفريق يجرب نهج مختلف.

الـ DPO: مرحلة ثانية بنفس البيانات

الحل اللي جرب الفريق مبني على تقنية الـ DPO، وهي مرحلة تدريب ثانية كتطبق بعد الـ SFT على نفس الوثائق ونفس النموذج. الفكرة مختلفة: بدل ما تعلم النموذج غير الإجابات الصحيحة، كتعلمو كذلك يفضل الإجابة الصحيحة على الخاطئة — وهنا بالضبط كتدخل أزواج "rejection pairs" اللي مصدرها أخطاء النموذج نفسو.

النتائج كانت واضحة: الـ DPO خفض الـ text degeneration فكل عائلة من النماذج اللي اختبروها، بلا استثناء واحد. متوسط التخفيض وصل لـ 59.4%، وأحسن نتيجة كانت 87.6% عند نموذج Nanonets-OCR2-3B، اللي نزل معدل الـ degeneration عنده من 1.61% لـ 0.20%.

ما الفرق بين الـ SFT والـ DPO في هاد السياق

الـ SFT كيقول للنموذج: "هادي هي الإجابة الصحيحة." الـ DPO كيقول: "هادي الإجابة الصحيحة، وهادي خاطئة — خاصك تفضل الأولى." هاد الفرق الجوهري كيخلي النموذج يفهم مفهوم "الفشل" بشكل صريح، مسألة الـ SFT ما كيتناولهاش.

الجانب المهم كذلك: ما خصصوا بيانات جديدة، وما بدلوش النموذج، استعملوا نفس الوثائق ونفس الأخطاء اللي دارها النموذج كأمثلة سلبية.

شنو كيعني هاد الخبر للقطاع

هاد النتائج كيبينو حاجة مهمة لأي فريق كيشتغل على نماذج الـ OCR أو استخراج البيانات: الـ SFT وحده ما كيكفيش باش توصل لمستوى الإنتاج الفعلي، خصوصاً في مهام بها أنواع محددة من الأخطاء كيف الـ text degeneration. إضافة مرحلة الـ DPO — بالاعتماد على أخطاء النموذج نفسو كبيانات سلبية — كتصبح خطوة منطقية وضرورية في pipeline التدريب. هاد النهج يمكن يتطبق على نماذج أخرى تعاني من failure modes محددة، ويفتح الباب أمام استراتيجيات تدريب أكثر دقة فمجال الـ structured document extraction بكامله.


مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية