بناء نموذج OCR متعدد اللغات بالاعتماد على بيانات اصطناعية

databelarebia

# شركة Nvidia بنات نموذج OCR متعدد اللغات بـ 12 مليون صورة اصطناعية

شركة Nvidia طرحات نموذج جديد سميتو Nemotron OCR v2، خصص لقراءة النصوص من الصور والوثائق بلغات متعددة، وهاد المشروع كيعتمد بشكل كامل على بيانات اصطناعية مولّدة آلياً عوض جمع بيانات حقيقية يدوياً.

فاش كيتميز النموذج الجديد هادا

النموذج Nemotron OCR v2 تدرب على 12 مليون صورة اصطناعية موزعة على ست لغات مختلفة. النتائج اللي حصلو عليها مثيرة: نسبة الخطأ NED انخفضات من قيم كانت بين 0.56 و0.92 لقيم بين 0.035 و0.069 على اللغات غير الإنجليزية — وهاد التحسن ضخم بزاف من الناحية التقنية.

السرعة كذلك من نقط القوة ديالو: النموذج كيعالج 34.7 صفحة في الثانية الواحدة على بطاقة رسومية واحدة من نوع A100، وهاد الرقم ممكن بزاف فالبيئات الصناعية اللي كتحتاج معالجة ملايين الوثائق بسرعة.

التحدي الكبير: الواقعية ديال البيانات الاصطناعية

البيانات الاصطناعية عندها ميزة واضحة: كل bounding box وكل نص وكل ترتيب قراءة معروف بالضبط، لأن هوما لي وضعوه هناك. ما كاينش غموض ولا أخطاء في التصنيف، على خلاف البيانات المجموعة من الويب.

لكن التحدي الحقيقي هو الواقعية. توليد صور تبان كأنها وثائق حقيقية — بتنوع في التخطيطات والخطوط والألوان والخلفيات — هادا مو سهل. الفريق ديال Nvidia استعمل محرك رسم قوي مع randomization واسع النطاق على مستوى الخطوط والتصاميم والمؤثرات البصرية، باش يخلي النموذج يتعلم يتعامل مع أنواع مختلفة من الوثائق الحقيقية.

البنية التقنية كيفاش ساعدات في السرعة

السرعة ما جاتش من الصدفة. البنية المعمارية ديال النموذج مبنية على backbone مشترك للكشف، كيستعملو كل من نموذج التعرف على النصوص والنموذج العلائقي في آن واحد. هادشي كيلغي الحسابات المكررة ويقلل الوقت الإجمالي للمعالجة بشكل ملحوظ.

الوصول العام للبيانات والنموذج

الجانب المهم هو أن مجموعة البيانات متاحة للعموم تحت الاسم nvidia/OCR-Synthetic-Multilingual-v1، والنموذج كذلك منشور. هادشي يخلي الباحثين والمطورين يقدرو يستعملو نفس البيانات أو يبنيو عليها لأي لغة عندها خطوط ونصوص متوفرة.

شنو يعني هادا للقطاع

على مستوى القطاع، هاد المشروع كيبين أن الاعتماد على البيانات الاصطناعية في تدريب نماذج OCR أصبح مساراً حقيقياً وفعالاً، وماشي فقط حلاً مؤقتاً. الجمع بين الدقة العالية والسرعة الكبيرة في نموذج واحد مفتوح المصدر ممكن يغير طريقة بناء حلول معالجة الوثائق في المستقبل، خصوصاً للغات اللي كانت تعاني من نقص البيانات الحقيقية. السؤال اللي يبقى مطروح: واش الباحثين غادي يعتمدو على هاد الأسلوب باش يوسعو التغطية لمئات اللغات الأخرى؟

مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية

← ارجع لكل المقالات

مشروع ديال 2PiData