AI ഇനി വെറുതെ സംസാരിക്കില്ല; 70 ലധികം ഭാഷകൾ,നാച്ചുറൽ വോയിസ്: Gemini 3.1 Flash ടെക്സ്റ്റ്-ടു-സ്പീച്ച് മോഡൽ എത്തി

April 16, 2026

ഗൂഗിൾഏറ്റവും പുതിയ ടെക്സ്റ്റ്-ടു-സ്പീച്ച് (TTS) മോഡലായ Gemini 3.1 Flash പുറത്തിറക്കി. വെറുമൊരു റോബോട്ടിക് ശബ്ദത്തിന് പകരം, മനുഷ്യരെപ്പോലെ വികാരങ്ങൾ പ്രകടിപ്പിക്കാനും സംസാരത്തിന്റെ വേഗതയും ശൈലിയും നിയന്ത്രിക്കാനും കഴിയുന്ന രീതിയിലാണ് ഇത് ഡിസൈൻ ചെയ്തിരിക്കുന്നത്.

ഈ മോഡലിന്റെ ഏറ്റവും വലിയ പ്രത്യേകത ഇതിലെ Audio Tags ആണ്. നമ്മൾ നൽകുന്ന എഴുത്തിനിടയിൽ തന്നെ [excitement], [amazement], [explanatory] എന്നിങ്ങനെ നൽകിയാൽ, എഐ ആ വികാരം ഉൾക്കൊണ്ട് സംസാരിക്കും. ഉദാഹരണത്തിന്, ഒരു വാർത്ത ആവേശത്തോടെ പറയണോ അതോ ഗൗരവത്തിൽ വിശദീകരിക്കണോ എന്ന് നമുക്ക് ഈ ടാഗുകൾ വഴി തീരുമാനിക്കാം.

സംസാരത്തിന്റെ വേഗം, ആക്സന്റ്, ഭാവം എന്നിവ ഇടയ്ക്കിടെ മാറ്റാനും കഴിയുന്നതാണ് മറ്റൊരു പ്രത്യേകത. മലയാളം ഉൾപ്പെടെ 70-ലധികം ഭാഷകളെ ഈ മോഡൽ പിന്തുണയ്ക്കുന്നുണ്ട്. ഇതിൽ ഹിന്ദി, അറബിക്, ജാപ്പനീസ് തുടങ്ങിയ 24 ഭാഷകൾ അതീവ ഗുണനിലവാരത്തോടെയാണ് (High-quality evaluation) അവതരിപ്പിച്ചിരിക്കുന്നത്.

പുതിയ Gemini 3.1 Flash TTS മോഡൽ ഇപ്പോൾ ഡെവലപ്പർമാർക്ക് Gemini API, Google AI Studio എന്നിവ വഴിയും, എന്റർപ്രൈസുകൾക്ക് Vertex AI വഴിയും, Workspace ഉപയോക്താക്കൾക്ക് Google Vids വഴിയും പ്രിവ്യൂ ആയി ലഭ്യമാകുന്നു.ഇനി കൂടുതൽ സ്വാഭാവികവും വികാരപൂർണ്ണവുമായ ശബ്ദാനുഭവങ്ങൾ സൃഷ്ടിക്കാൻ ഈ മോഡൽ സഹായിക്കും.

Today we launched Gemini 3.1 Flash TTS, our most expressive and controllable text-to-speech model yet.

This launch [excitement] includes audio tags! 🗣🏷 Audio tags [explanatory] are a seamless way to guide vocal style, pace, and delivery using natural language commands embedded… pic.twitter.com/hNeHreY7N3
— Google AI (@GoogleAI) April 15, 2026

Summary : Google has introduced Gemini 3.1 Flash TTS, a text-to-speech model that delivers more natural, expressive, and human-like voice output with controllable tone, pace, and emotion. With features like Audio Tags and support for 70+ languages, it enables developers and users to create highly customized and immersive AI speech experiences.