databelarebia
# مكتبة Sentence Transformers دعمات النماذج متعددة الوسائط
شركة Hugging Face أعلنات على دعم رسمي للنماذج متعددة الوسائط فالمكتبة الشهيرة Sentence Transformers، وهاد الإضافة كتفتح الباب لبناء أنظمة بحث وذكاء اصطناعي بإمكانيات جديدة بالكامل.
النماذج التقليدية ديال Embedding كانت تشتغل فقط مع النصوص — تحولها لأرقام وتقارن بينهم. أما النماذج الجديدة متعددة الوسائط، فكتقدر تشتغل مع أنواع مختلفة ديال البيانات فنفس الوقت: النصوص، والصور، والصوت، والفيديو.
الفكرة الأساسية هي المساحة المشتركة ديال Embedding — يعني النموذج كيحول كولشي، سواء نص ولا صورة، لأرقام فنفس الفضاء الرياضي. وهكذا كتقدر تقارن جملة نصية مع صورة بنفس الطريقة اللي كتقارن بيها جملتين نصيتين.
نظام Sentence Transformers الجديد كيدعم نوعين رئيسيين من النماذج:
**أولاً، نماذج Multimodal Embedding:** هادي كتحول الإدخالات من وسائط مختلفة لمتجهات فمساحة مشتركة. التطبيقات الممكنة كتشمل:
- البحث فالوثائق البصرية عبر نص عادي
- البحث المتقاطع بين الوسائط، كالبحث عن صورة بجملة وصفية
- بناء أنظمة RAG متعددة الوسائط
**ثانياً، نماذج Multimodal Reranker:** هادي كتحسب درجات الصلة بين جوج عناصر، وكتقدر تشتغل مع ثنائيات تجمع نصوص وصور في آنٍ واحد. الفرق عن النماذج التقليدية ديال Reranking هو القدرة على تقييم مدى صلة صورة بسؤال نصي، أو العكس.
المكتبة كتدعم كذلك النمط المعروف بـ Retrieve and Rerank — يعني فمرحلة أولى كتجيب أقرب النتائج بسرعة باستخدام Embedding، ومن بعد فمرحلة ثانية كتعيد ترتيبهم بدقة أكبر باستخدام Reranker. وهاد النمط ممكن يشتغل الآن بالكامل مع الوسائط المختلفة بلا اقتصار على النص فقط.
تركيب المكتبة كيمشي بأمر بسيط عبر أداة pip المعروفة. والنماذج المدعومة متاحة مباشرة عبر منصة Hugging Face، وكتقدر تستعملهم بنفس الكود اللي كنت تستعمله مع النماذج النصية التقليدية — الفرق غير فنوع الإدخال.
شركة Hugging Face زادت نشرات بوست مرافق يشرح كيفاش تدرب نماذج Multimodal Embedding وReranker الخاصة بيك من الصفر أو تعمل عليها Fine-tuning.
هاد الإضافة لمكتبة Sentence Transformers كتمثل تحول مهم فطريقة بناء أنظمة البحث والاسترجاع. لي كان عنده pipeline للـ RAG يشتغل بالنصوص فقط، دابا يقدر يوسعه ليشمل الصور والوثائق البصرية بدون ما يغير البنية الأساسية ديال كوده. وهاد الشيء ممكن يأثر بشكل مباشر على قطاعات كالأرشفة الرقمية، والبحث فقواعد البيانات البصرية، والتجارة الإلكترونية اللي كتعتمد على البحث بالصور. السؤال اللي كيبقى مطروح هو الأداء والتكلفة الحسابية مقارنة بالنماذج النصية التقليدية فحالات الاستعمال الواسعة.
مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية
مشروع ديال 2PiData