نموذج Gemini 3.1 Flash TTS الجديد وصل للمطورين والشركات

databelarebia

# شركة Google طلقات نموذج Gemini 3.1 Flash TTS الجديد للكلام الاصطناعي

شركة Google أعلنات اليوم على إطلاق النموذج الجديد Gemini 3.1 Flash TTS، وهو نموذج متخصص في تحويل النص لكلام، وكيجيب معه تحسينات كبيرة على مستوى الجودة والتحكم والتعبيرية.

فين غادي يكون متاح هاد النموذج الجديد؟

النموذج الجديد Gemini 3.1 Flash TTS بدا يتطرح بشكل تدريجي في أماكن متعددة. المطورين يقدرو يوصلو ليه دابا في وضع preview عبر منصة Gemini API وكذلك عبر Google AI Studio. الشركات الكبيرة تقدر تستعملو عبر منصة Vertex AI في preview أيضاً. وكذلك المستخدمين ديال خدمات Google Workspace غادي يلقاوه مدمج فأداة Google Vids الخاصة.

أرقام ونتائج على معيار Artificial Analysis

النتائج اللي حققها النموذج Gemini 3.1 Flash TTS على معيار Artificial Analysis TTS Leaderboard كانت لافتة. هاد المعيار كيعتمد على آلاف الاختبارات العمياء مع بشر حقيقيين. النموذج الجديد Gemini 3.1 Flash TTS وصل لنقطة Elo تقدر بـ 1,211، وهو رقم قوي في هاد المجال.

فوق ذلك، موقع Artificial Analysis وضعه فالخانة اللي كيسميوها "most attractive quadrant"، معناها إنو كيجمع بين جودة عالية في توليد الكلام وتكلفة منخفضة في نفس الوقت.

شنو الجديد في هاد النموذج؟

النموذج الجديد Gemini 3.1 Flash TTS كيجيب ثلاثة محاور أساسية:

**أولاً، الجودة الصوتية:** شركة Google قالت صراحة إن هاد النموذج هو الأكثر طبيعية والأكثر تعبيرية في تاريخها حتى دابا.

**ثانياً، دعم اللغات:** النموذج كيدعم أزيد من 70 لغة مختلفة، وهاد الشي كيفتح الباب أمام استخدامات واسعة على المستوى الدولي.

**ثالثاً، الحوار بين أكثر من متكلم:** النموذج الجديد Gemini 3.1 Flash TTS كيدعم بشكل أصلي الحوار بين عدة أصوات في نفس التسجيل، وهاد الميزة كتكون مفيدة بزاف في تطبيقات البودكاست أو الروايات الصوتية.

ميزة Audio Tags الجديدة

النموذج الجديد Gemini 3.1 Flash TTS جاب معه كذلك مفهوم جديد اسمو audio tags. هاد الميزة كتخلي المستخدم يتحكم في أسلوب الصوت وسرعة الكلام وطريقة الأداء، وذلك عبر كتابة أوامر بلغة طبيعية مباشرة داخل النص. المطورين يقدرو دابا يبدأو يجربو audio tags عبر Google AI Studio.

خلاصة وتحليل

هاد الإعلان كيجي في سياق منافسة حادة في قطاع تحويل النص لكلام، وكيبين إن شركة Google كتحاول تقوي مكانتها في هاد المجال بتقديم نموذج يجمع بين الأداء العالي والتكلفة المنخفضة. التوفر في نفس الوقت على منصات Gemini API وVertex AI وGoogle Workspace كيعني إن الشركة كتستهدف فئات مختلفة، من المطورين المستقلين وصولاً للشركات الكبيرة. ميزة audio tags خصوصاً ممكن تغير الطريقة اللي كيبنيو بيها المطورون تطبيقات الصوت، لأنها كتعطيهم تحكم أدق بدون ما يحتاجو لأدوات تقنية معقدة.

مقال من databelarebia — نشرة يومية ديال أخبار الذكاء الاصطناعي بالدارجة المغربية

← ارجع لكل المقالات

مشروع ديال 2PiData