LLM

نماذج Granite Embedding الجديدة كتدعم أزيد من 200 لغة بـ context طويل

Miloud Belarebia · 2026-05-15

# نماذج **Granite Embedding Multilingual R2**: قفزة كبيرة فعالم البحث متعدد اللغات

شركة **IBM** طلقات جيلاً جديداً من نماذج **Granite Embedding Multilingual R2**، مبنيين على معمارية **ModernBERT**، وكيجيو بتحسينات كبيرة على مستوى الأداء والحجم والدعم اللغوي.

شنو هي النماذج الجديدة؟

النموذجان الجديدان كيجيو تحت رخصة **Apache 2.0** المفتوحة المصدر:

- النموذج الصغير بـ **97M** باراميتر، وهو أحسن نموذج مفتوح المصدر فالفئة دون **100M** باراميتر على معيار **MTEB Multilingual Retrieval**، بنتيجة بلغات **60.3**

- النموذج الكبير بـ **311M** باراميتر، وصل لنتيجة **65.2** على نفس المعيار، وهو فالمرتبة الثانية بين النماذج المفتوحة دون **500M** باراميتر

ما الجديد مقارنة بـ R1؟

المقارنة بين الجيلين واضحة بزاف. الجيل الجديد **Granite R2** زاد **context window** من **512 token** لـ **32,000 token**، يعني **64** مرة أكبر من الجيل السابق **R1**. هاد التغيير وحده كيفتح الباب لمعالجة مستندات طويلة بدون تقطيع.

فضلاً على ذلك، النماذج الجديدة كتدعم أزيد من **200 لغة** وكتنتوني على **52 لغة** بشكل مباشر، وكتضيف دعماً لاسترجاع الكود عبر **9 لغات برمجية** مختلفة، هادشي مكانش فالجيل السابق.

تقنية Matryoshka: مرونة فالحجم

النموذجان كيدعمان تقنية **Matryoshka Embeddings**، وهادي تقنية كتخلي المطورين يختاروا حجم الـ **embedding vector** اللي يناسب احتياجاتهم. التطبيقات اللي محتاجة سرعة أكبر ممكن تستعمل **vectors** أصغر، وتلك اللي محتاجة دقة أعلى تستعمل **vectors** كاملة — كل هادشي من نفس النموذج.

علاش هاد النماذج مهمة للمؤسسات؟

المؤسسات اللي خدامة مع بيانات بلغات متعددة — بحال أنظمة **RAG** متعددة اللغات، أو محركات البحث الدولية — كانت دايماً مجبرة تختار بين نموذج صغير وسريع أو نموذج كبير ودقيق. النموذج الصغير بـ **97M** باراميتر كيكسر هاد المعادلة بشكل واضح، إذ كيتفوق على جميع المنافسين المفتوحين فنفس الفئة.

الرخصة **Apache 2.0** كذلك تعني إن الشركات ممكن تستعمل هاد النماذج بحرية كاملة فمشاريعهم التجارية بدون قيود قانونية.

خلاصة وتحليل

هاد الإصدار كيشير لتوجه واضح فالقطاع: المنافسة على نماذج الـ **embedding** الصغيرة والكفؤة كبدات تشتد. الزيادة الكبيرة فـ **context window** من **512** لـ **32K token** هي التغيير التقني الأكبر، وكيعني إن حالات الاستخدام اللي كانت تتطلب تقسيم النصوص الطويلة ممكن تتبدل بشكل جذري. فالمستقبل، ممكن نشوف شركات أخرى تتنافس بشكل مباشر فهاد الفئة من النماذج متعددة اللغات، خصوصاً مع توفر مقاييس **MTEB** كمعيار موحد للمقارنة.

مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية