شركة Google طلقات نموذج Gemini 3.1 Flash Live للحوار الصوتي

كتبو: Miloud Belarebia — 1 مصادر

# شركة Google طلقات نموذج Gemini 3.1 Flash Live الجديد للصوت

شركة Google DeepMind أعلنات على نموذج جديد فمجال الذكاء الاصطناعي الصوتي، وهو Gemini 3.1 Flash Live، اللي كتصفو الشركة بأنه أحسن نموذج صوتي عندهم حتى دابا. النموذج هاد متاح دابا على عدة منصات، من البنية التحتية ديال المطورين حتى للمستخدم العادي.

فين كيتوفر هاد النموذج الجديد

النموذج Gemini 3.1 Flash Live متاح على ثلاثة مستويات مختلفة. أول واحد هو المطورين، اللي يقدرو يوصلو ليه فـ Google AI Studio عبر واجهة Gemini Live API، وهادي مرحلة preview دابا. الثاني هو الشركات والمؤسسات الكبيرة، اللي تقدر تستعملو من خلال خدمة Gemini Enterprise for Customer Experience. والثالث هو المستخدم العادي، اللي يلقاه فـ Search Live وكذلك فـ Gemini Live مباشرة.

الأداء التقني — شنو تبدل بالضبط

فيما يخص النتائج على المعايير التقنية، النموذج Gemini 3.1 Flash Live حقق نتيجة 90.8% على معيار ComplexFuncBench Audio، وهاد المعيار كيقيس قدرة النموذج على تنفيذ مهام متعددة ومعقدة بالصوت فآن واحد. هاد الرقم تجاوز النسخة السابقة ديال الشركة بشكل واضح.

فالمعيار الثاني، اللي هو Audio MultiChallenge ديال شركة Scale AI، حقق النموذج Gemini 3.1 Flash Live نتيجة 36.1% مع تفعيل وضع "thinking". وهاد المعيار بالتحديد كيختبر قدرة النموذج على اتباع تعليمات معقدة والتفكير على المدى الطويل، حتى فحالة الانقطاعات والتردد اللي كيوقعو فالحوار الحقيقي.

فهم النبرة والإيقاع الطبيعي للكلام

من بين التحسينات اللي ذكرتهم شركة Google DeepMind، التركيز كان بزاف على التفاصيل الصوتية الدقيقة. النموذج Gemini 3.1 Flash Live صار أقدر على فهم الفروق الصوتية الدقيقة بحال الحدة والإيقاع، وهادشي كيخلي الحوار يبان أكثر طبيعية. فخدمة Gemini Enterprise for Customer Experience بالتحديد، التحسينات هادي كتفوق النسخة السابقة 2.5 Flash فهاد الجانب.

الهدف الأساسي — الوكلاء الصوتيون

الشركة صرحات بشكل واضح بأن التحسينات هادي مصممة بالأساس باش تخلي المطورين والشركات يبنيو "وكلاء صوتيين" أو voice-first agents قادرين على إتمام مهام معقدة على نطاق واسع. المسألة مشي فقط جودة الصوت، ولكن الموثوقية والقدرة على التنفيذ الفعلي.

الخلاصة — شنو كيعني هاد الخبر للقطاع

إطلاق نموذج Gemini 3.1 Flash Live كيبين أن سباق الذكاء الاصطناعي الصوتي واصل لمرحلة جديدة، فيها التنافس صار على التفاصيل الدقيقة بحال فهم النبرة والتعامل مع الانقطاعات، مشي فقط على جودة الصوت الأساسية. توفر النموذج على ثلاثة مستويات — المطورين، الشركات، والمستخدمين العاديين — كيعني أن شركة Google كتحاول تفرض هاد التقنية على كولشي مستوى فنفس الوقت. والأرقام على المعايير التقنية، خصوصاً فيما يخص التعامل مع الحوار الحقيقي غير المتوقع، ممكن تغير المعايير اللي كيقيس بيها المطورون جودة النماذج الصوتية فالمستقبل القريب.

مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية

← ارجع لكل المقالات

مشروع ديال 2PiData