# نموذج PP-OCRv6 وصل: قراءة النصوص بدقة عالية ومن غير ثمن باهي
شركة PaddleOCR طلقات الجيل الجديد من نموذجها الشهير لقراءة النصوص، وهو النموذج PP-OCRv6، وهاد الإصدار كيجي بتحسينات ملموسة على مستوى الدقة والأداء مقارنة مع الإصدارات السابقة.
شنو هو النموذج PP-OCRv6 هاد الجديد؟
النموذج PP-OCRv6 هو آخر جيل من عائلة نماذج الـ OCR ديال مشروع PaddleOCR، مصمم باش يقرأ النصوص من مختلف المصادر: الوثائق، الصور، لقطات الشاشة، الشاشات الرقمية، الملصقات الصناعية، والنصوص الموجودة فالمشاهد الطبيعية. الحجم ديالو كيتراوح بين مليون ونص و34.5 مليون معامل، وهاد الشي كيخليه خفيف ومناسب للاستخدام الفعلي فالإنتاج.
العائلة ديالو مقسمة لثلاثة مستويات: الصغير جداً (tiny)، الصغير (small)، والمتوسط (medium). النموذجان المتوسط والصغير كيدعمو 50 لغة، منها الصينية المبسطة، الصينية التقليدية، الإنجليزية، اليابانية، و46 لغة بالحروف اللاتينية.
الأرقام اللي كتبين التحسين الحقيقي
على مستوى الأداء، نموذج PP-OCRv6_medium وصل لـ 86.2% فالـ detection Hmean، و83.2% فدقة التعرف على النصوص، وهاد الأرقام مقيسة على مجموعة اختبارات رسمية ومتعددة السيناريوهات.
مقارنة مع الإصدار السابق PP-OCRv5_server، التحسين واضح:
- الكشف عن النصوص (detection) تحسن بـ 4.6 نقطة مئوية
- التعرف على النصوص (recognition) تحسن بـ 5.1 نقطة مئوية
هاد التحسين جاء مع الحفاظ على أحجام نماذج خفيفة، وهاد الشي هو التحدي الحقيقي فمجال الـ OCR.
كيفاش تجربو وتستخدمو النموذج PP-OCRv6 هاد الجديد؟
الفريق ديال PaddleOCR خلى النموذج متاح مباشرة على منصة Hugging Face، إذ يمكن تجربته عبر واجهة تفاعلية أونلاين من غير ما تحتاج تنصب والو. وفيما يخص الدمج فالمشاريع، النموذج PP-OCRv6 كيدعم ثلاثة frameworks: مكتبة PaddlePaddle الأصلية، مكتبة Transformers الشهيرة، ومكتبة ONNX Runtime للمعالجة على المعالج العادي CPU.
هاد المرونة كتخلي المطورين يختاروا الطريقة اللي تناسبهم حسب البنية التحتية ديالهم.
السياق: علاش OCR متخصص مازال مهم فزمن نماذج VLM؟
سؤال كثير ناس كيطرحوه: علاش نستخدمو نموذج OCR متخصص وعندنا نماذج اللغة البصرية الكبيرة VLM؟ الفريق ديال PaddleOCR عندهم جواب واضح: الدقة الهيكلية، الحجم الخفيف، وإمكانية النشر في بيئات الإنتاج بتكلفة معقولة، كلها عوامل كتخلي نماذج OCR المتخصصة مفيدة ومكملة لنماذج VLM الكبيرة، ماشي بديلة عنها.
خلاصة: شنو كيعني هاد الخبر للقطاع؟
إطلاق النموذج PP-OCRv6 كيبين بلي سوق الـ OCR المتخصص مازال فيه تطور حقيقي، حتى مع الانتشار الكبير لنماذج اللغة الكبيرة. التوجه نحو نماذج خفيفة وعالية الدقة كيفتح الباب أمام تطبيقات صناعية لا تتحمل تكلفة نماذج VLM الكبيرة. كذلك، الدعم المتعدد للـ frameworks كيسهل الاعتماد عليه فمشاريع متنوعة. المرحلة الجاية ممكن تشوف تنافساً أكبر بين نماذج OCR المتخصصة والحلول المدمجة في نماذج multimodal.
مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية