نماذج Multimodal Embedding والـ Reranker مع مكتبة Sentence Transformers

databelarebia

# مكتبة Sentence Transformers دعمات النماذج متعددة الوسائط

شركة Hugging Face أعلنات على دعم رسمي للنماذج متعددة الوسائط فالمكتبة الشهيرة Sentence Transformers، وهاد الإضافة كتفتح الباب لبناء أنظمة بحث وذكاء اصطناعي بإمكانيات جديدة بالكامل.

شنو هي النماذج متعددة الوسائط؟

النماذج التقليدية ديال Embedding كانت تشتغل فقط مع النصوص — تحولها لأرقام وتقارن بينهم. أما النماذج الجديدة متعددة الوسائط، فكتقدر تشتغل مع أنواع مختلفة ديال البيانات فنفس الوقت: النصوص، والصور، والصوت، والفيديو.

الفكرة الأساسية هي المساحة المشتركة ديال Embedding — يعني النموذج كيحول كولشي، سواء نص ولا صورة، لأرقام فنفس الفضاء الرياضي. وهكذا كتقدر تقارن جملة نصية مع صورة بنفس الطريقة اللي كتقارن بيها جملتين نصيتين.

أشكال الاستعمال الممكنة

نظام Sentence Transformers الجديد كيدعم نوعين رئيسيين من النماذج:

**أولاً، نماذج Multimodal Embedding:** هادي كتحول الإدخالات من وسائط مختلفة لمتجهات فمساحة مشتركة. التطبيقات الممكنة كتشمل:

- البحث فالوثائق البصرية عبر نص عادي

- البحث المتقاطع بين الوسائط، كالبحث عن صورة بجملة وصفية

- بناء أنظمة RAG متعددة الوسائط

**ثانياً، نماذج Multimodal Reranker:** هادي كتحسب درجات الصلة بين جوج عناصر، وكتقدر تشتغل مع ثنائيات تجمع نصوص وصور في آنٍ واحد. الفرق عن النماذج التقليدية ديال Reranking هو القدرة على تقييم مدى صلة صورة بسؤال نصي، أو العكس.

نمط Retrieve and Rerank

المكتبة كتدعم كذلك النمط المعروف بـ Retrieve and Rerank — يعني فمرحلة أولى كتجيب أقرب النتائج بسرعة باستخدام Embedding، ومن بعد فمرحلة ثانية كتعيد ترتيبهم بدقة أكبر باستخدام Reranker. وهاد النمط ممكن يشتغل الآن بالكامل مع الوسائط المختلفة بلا اقتصار على النص فقط.

التركيب والمتطلبات

تركيب المكتبة كيمشي بأمر بسيط عبر أداة pip المعروفة. والنماذج المدعومة متاحة مباشرة عبر منصة Hugging Face، وكتقدر تستعملهم بنفس الكود اللي كنت تستعمله مع النماذج النصية التقليدية — الفرق غير فنوع الإدخال.

شركة Hugging Face زادت نشرات بوست مرافق يشرح كيفاش تدرب نماذج Multimodal Embedding وReranker الخاصة بيك من الصفر أو تعمل عليها Fine-tuning.

خلاصة وتحليل

هاد الإضافة لمكتبة Sentence Transformers كتمثل تحول مهم فطريقة بناء أنظمة البحث والاسترجاع. لي كان عنده pipeline للـ RAG يشتغل بالنصوص فقط، دابا يقدر يوسعه ليشمل الصور والوثائق البصرية بدون ما يغير البنية الأساسية ديال كوده. وهاد الشيء ممكن يأثر بشكل مباشر على قطاعات كالأرشفة الرقمية، والبحث فقواعد البيانات البصرية، والتجارة الإلكترونية اللي كتعتمد على البحث بالصور. السؤال اللي كيبقى مطروح هو الأداء والتكلفة الحسابية مقارنة بالنماذج النصية التقليدية فحالات الاستعمال الواسعة.

مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية

← ارجع لكل المقالات

مشروع ديال 2PiData