databelarebia
# شركة Google طلقات جيل جديد من نماذج الصوت المبنية على Gemini
شركة Google DeepMind أعلنات هاد الأسبوع على إطلاق نموذجين جدد في مجال الذكاء الاصطناعي الصوتي: نموذج Gemini 3.1 Flash TTS للتحويل من نص لصوت، ونموذج Gemini 3.1 Flash Live للحوار الصوتي في الوقت الحقيقي. الاثنين متاحين دابا في مرحلة preview للمطورين والشركات والمستخدمين العاديين.
نظام Gemini 3.1 Flash TTS هو الإصدار الجديد في سلسلة نماذج تحويل النص لصوت ديال Google. وحسب ما صرحات بيه الشركة، هادا هو أكثر نموذج طبيعي وتعبيري خرجاتو حتى الآن.
على ليدربورد ديال Artificial Analysis، اللي كيعتمد على آلاف التفضيلات البشرية العمياء، حصل النموذج الجديد على نقطة Elo بلغت 1,211. وبالإضافة لهادشي، صنفت شركة Artificial Analysis هاد النموذج فالزاوية المثالية اللي كتجمع بين الجودة العالية والتكلفة المنخفضة.
من بين الميزات الرئيسية ديال هاد النموذج:
- **دعم 70+ لغة** بشكل أصلي
- **حوارات متعددة الأصوات** بدون ما تحتاج لأدوات إضافية
- **Audio tags** جديدة كتخلي المطور يتحكم في أسلوب الصوت، وتيمبو الكلام، وطريقة الإلقاء، وهاد التحكم كيصير بنصوص عادية مضمنة مباشرة في المدخلات
نموذج Gemini 3.1 Flash Live هو جيل جديد من النماذج المخصصة للتفاعل الصوتي الفوري. شركة Google وصفاتو بأنه أعلى جودة في هاد الفئة حتى الآن، وكيوفر السرعة والإيقاع الطبيعي اللي محتاجينهم التطبيقات الصوتية من الجيل الجديد.
هاد النموذج كيستهدف ثلاث فئات أساسية:
- **المطورون** عبر Gemini Live API فـ Google AI Studio
- **الشركات** عبر Gemini Enterprise for Customer Experience
- **الجمهور العام** عبر خدمتي Search Live وGemini Live
شركة Google أكدات كذلك على تحسين جودة التفكير وتنفيذ المهام، بهدف تمكين المطورين والشركات من بناء وكلاء صوتيين أكثر اعتمادية.
كلا النموذجين متاحين دابا في مرحلة preview. نموذج Gemini 3.1 Flash TTS كيتوفر عبر Gemini API وGoogle AI Studio للمطورين، وعبر Vertex AI للشركات، وعبر خدمة Google Vids لمستخدمي Workspace. أما نموذج Gemini 3.1 Flash Live، فكيتوفر عبر Gemini Live API وكذلك مدمج في منتجات Google العامة.
هاد الإطلاق كيبين بوضوح أن سوق الذكاء الاصطناعي الصوتي واصل في منافسة حادة. تمركز شركة Google في الزاوية اللي تجمع بين الجودة العالية والتكلفة المنخفضة، وفق تصنيف Artificial Analysis، كيعطيها ميزة تنافسية واضحة في مواجهة الحلول الأخرى. دعم 70+ لغة وإمكانية التحكم الدقيق عبر Audio tags كيفتح الباب أمام تطبيقات صوتية أكثر تخصيصاً في مجالات من بينها خدمة العملاء، التعليم، والإعلام. اللي ممكن يتبدل هو تسريع اعتماد الشركات على الوكلاء الصوتيين المبنيين على هاد النماذج، خصوصاً مع توفر Vertex AI الموجه للأسواق المؤسسية.
مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية
مشروع ديال 2PiData