റോബോട്ടിക് ശബ്ദങ്ങൾക്ക് വിട; AI ഇനി ഇമോഷണലാവും
ശബ്ദങ്ങളുടെ ലോകത്ത് പുതിയ മുന്നേറ്റവുമായി വോയ്സ് AI കമ്പനിയായ Smallest.ai ലൈറ്റ്നിംഗ് V3 (Lightning V3) എന്ന അത്യാധുനിക ടെക്സ്റ്റ്-ടു-സ്പീച്ച് (TTS) മോഡലാണ് കമ്പിനി ഇപ്പോൾ പുറത്തിറക്കിയത്. ഓപ്പൺ എഐ (OpenAI), ഇലവൻലാബ്സ് = ശബ്ദത്തിന്റെ സ്വാഭാവികത (naturalness), ടോൺ (intonation), പ്രോസഡി (prosody) എന്നിവയിൽ മുൻനിര മോഡലുകളെ മറികടക്കുന്ന പ്രകടനമാണ് ഈ മോഡൽ കാഴ്ചവെക്കുന്നതെന്ന് കമ്പനി അവകാശപ്പെടുന്നു. 3.89 MOS സ്കോർ നേടിയ Lightning V3, OpenAI, ElevenLabs, Cartesia എന്നിവയുടെ മോഡലുകളെക്കാൾ മുന്നിൽ നിൽക്കുന്നതായും റിപ്പോർട്ടുകൾ സൂചിപ്പിക്കുന്നു.
ശബ്ദത്തിന്റെ വ്യക്തത മാത്രമല്ല, സംസാരിക്കുമ്പോഴുള്ള വികാരങ്ങളും (Emotion), കൃത്യമായ താളവും (Prosody), ഈണവും (Intonation) ഇതിൽ അതീവ കൃത്യതയോടെ ഉൾക്കൊള്ളിച്ചിരിക്കുന്നു. സാധാരണ AI വോയിസ് മോഡലുകൾ ഒരു വാചകം മുഴുവൻ ലഭിച്ചാലേ സംസാരിക്കൂ. എന്നാൽ ലൈറ്റ്നിംഗ് V3 തത്സമയ സംഭാഷണങ്ങൾക്കിടയിൽ (Real-time conversations) സന്ദർഭത്തിനനുസരിച്ച് ശബ്ദത്തിലും വേഗതയിലും മാറ്റം വരുത്താൻ കഴിവുള്ളതാണ്. മലയാളം ഉൾപ്പെടെ 15 ഭാഷകൾ ഇത് കൈകാര്യം ചെയ്യും. വെറും 5 മുതൽ 15 സെക്കൻഡ് വരെയുള്ള ഓഡിയോ ഉണ്ടെങ്കിൽ ആരുടെയും ശബ്ദം കൃത്യതയോടെ ക്ലോൺ ചെയ്യാനും, ഒരു വാചകത്തിനിടയിൽ തന്നെ ഭാഷകൾ മാറി സംസാരിക്കാനും കഴിയുന്നത് (Code-switching) Lightning V3യുടെ മറ്റൊരു സവിശേഷതയാണ്.
വോയ്സ് ഏജന്റുകൾ, കോൺടാക്ട് സെന്ററുകൾ, പോഡ്കാസ്റ്റുകൾ, ഓഡിയോബുക്കുകൾ, ഡബ്ബിംഗ്, ഇന്ററാക്ടീവ് ആപ്പുകൾ തുടങ്ങി വിവിധ മേഖലകളിൽ റീട്രെയിനിംഗ് ഇല്ലാതെ തന്നെ ഈ മോഡൽ ഉപയോഗിക്കാനാകും. “ശബ്ദം വ്യക്തമായിരിക്കണമെന്നതിലുപരി, കോൺടെക്സ്റ്റും ടൈമിംഗും ഇമോഷനും ഒരുമിച്ച് കൈകാര്യം ചെയ്യാനുള്ള കഴിവാണ് പ്രധാനമെന്ന്” കമ്പനി സിഇഒ Sudarshan Kamath വ്യക്തമാക്കി.
Smallest.ai has launched Lightning V3, an advanced text-to-speech model that outperforms leading systems from OpenAI and ElevenLabs in naturalness, intonation, and prosody, achieving a 3.89 MOS score. The model is designed for real-time conversations, adapting tone, speed, and emotion dynamically while supporting 15 languages and mid-sentence code-switching. It also offers fast voice cloning from just 5–15 seconds of audio, making it suitable for applications like voice agents, contact centers, podcasts, and dubbing.