AI ഇനി വെറുതെ സംസാരിക്കില്ല; 70 ലധികം ഭാഷകൾ,നാച്ചുറൽ വോയിസ്: Gemini 3.1 Flash ടെക്സ്റ്റ്-ടു-സ്പീച്ച് മോഡൽ എത്തി
ഗൂഗിൾഏറ്റവും പുതിയ ടെക്സ്റ്റ്-ടു-സ്പീച്ച് (TTS) മോഡലായ Gemini 3.1 Flash പുറത്തിറക്കി. വെറുമൊരു റോബോട്ടിക് ശബ്ദത്തിന് പകരം, മനുഷ്യരെപ്പോലെ വികാരങ്ങൾ പ്രകടിപ്പിക്കാനും സംസാരത്തിന്റെ വേഗതയും ശൈലിയും നിയന്ത്രിക്കാനും കഴിയുന്ന രീതിയിലാണ് ഇത് ഡിസൈൻ ചെയ്തിരിക്കുന്നത്.
ഈ മോഡലിന്റെ ഏറ്റവും വലിയ പ്രത്യേകത ഇതിലെ Audio Tags ആണ്. നമ്മൾ നൽകുന്ന എഴുത്തിനിടയിൽ തന്നെ [excitement], [amazement], [explanatory] എന്നിങ്ങനെ നൽകിയാൽ, എഐ ആ വികാരം ഉൾക്കൊണ്ട് സംസാരിക്കും. ഉദാഹരണത്തിന്, ഒരു വാർത്ത ആവേശത്തോടെ പറയണോ അതോ ഗൗരവത്തിൽ വിശദീകരിക്കണോ എന്ന് നമുക്ക് ഈ ടാഗുകൾ വഴി തീരുമാനിക്കാം.
സംസാരത്തിന്റെ വേഗം, ആക്സന്റ്, ഭാവം എന്നിവ ഇടയ്ക്കിടെ മാറ്റാനും കഴിയുന്നതാണ് മറ്റൊരു പ്രത്യേകത. മലയാളം ഉൾപ്പെടെ 70-ലധികം ഭാഷകളെ ഈ മോഡൽ പിന്തുണയ്ക്കുന്നുണ്ട്. ഇതിൽ ഹിന്ദി, അറബിക്, ജാപ്പനീസ് തുടങ്ങിയ 24 ഭാഷകൾ അതീവ ഗുണനിലവാരത്തോടെയാണ് (High-quality evaluation) അവതരിപ്പിച്ചിരിക്കുന്നത്.
പുതിയ Gemini 3.1 Flash TTS മോഡൽ ഇപ്പോൾ ഡെവലപ്പർമാർക്ക് Gemini API, Google AI Studio എന്നിവ വഴിയും, എന്റർപ്രൈസുകൾക്ക് Vertex AI വഴിയും, Workspace ഉപയോക്താക്കൾക്ക് Google Vids വഴിയും പ്രിവ്യൂ ആയി ലഭ്യമാകുന്നു.ഇനി കൂടുതൽ സ്വാഭാവികവും വികാരപൂർണ്ണവുമായ ശബ്ദാനുഭവങ്ങൾ സൃഷ്ടിക്കാൻ ഈ മോഡൽ സഹായിക്കും.
Summary : Google has introduced Gemini 3.1 Flash TTS, a text-to-speech model that delivers more natural, expressive, and human-like voice output with controllable tone, pace, and emotion. With features like Audio Tags and support for 70+ languages, it enables developers and users to create highly customized and immersive AI speech experiences.