റോബോട്ടിക് ശബ്ദങ്ങൾക്ക് വിട; AI ഇനി ഇമോഷണലാവും

March 27, 2026

ശബ്ദങ്ങളുടെ ലോകത്ത് പുതിയ മുന്നേറ്റവുമായി വോയ്‌സ് AI കമ്പനിയായ Smallest.ai ലൈറ്റ്‌നിംഗ് V3 (Lightning V3) എന്ന അത്യാധുനിക ടെക്സ്റ്റ്-ടു-സ്പീച്ച് (TTS) മോഡലാണ് കമ്പിനി ഇപ്പോൾ പുറത്തിറക്കിയത്. ഓപ്പൺ എഐ (OpenAI), ഇലവൻലാബ്സ് = ശബ്ദത്തിന്റെ സ്വാഭാവികത (naturalness), ടോൺ (intonation), പ്രോസഡി (prosody) എന്നിവയിൽ മുൻനിര മോഡലുകളെ മറികടക്കുന്ന പ്രകടനമാണ് ഈ മോഡൽ കാഴ്ചവെക്കുന്നതെന്ന് കമ്പനി അവകാശപ്പെടുന്നു. 3.89 MOS സ്കോർ നേടിയ Lightning V3, OpenAI, ElevenLabs, Cartesia എന്നിവയുടെ മോഡലുകളെക്കാൾ മുന്നിൽ നിൽക്കുന്നതായും റിപ്പോർട്ടുകൾ സൂചിപ്പിക്കുന്നു.

ശബ്ദത്തിന്റെ വ്യക്തത മാത്രമല്ല, സംസാരിക്കുമ്പോഴുള്ള വികാരങ്ങളും (Emotion), കൃത്യമായ താളവും (Prosody), ഈണവും (Intonation) ഇതിൽ അതീവ കൃത്യതയോടെ ഉൾക്കൊള്ളിച്ചിരിക്കുന്നു. സാധാരണ AI വോയിസ് മോഡലുകൾ ഒരു വാചകം മുഴുവൻ ലഭിച്ചാലേ സംസാരിക്കൂ. എന്നാൽ ലൈറ്റ്‌നിംഗ് V3 തത്സമയ സംഭാഷണങ്ങൾക്കിടയിൽ (Real-time conversations) സന്ദർഭത്തിനനുസരിച്ച് ശബ്ദത്തിലും വേഗതയിലും മാറ്റം വരുത്താൻ കഴിവുള്ളതാണ്. മലയാളം ഉൾപ്പെടെ 15 ഭാഷകൾ ഇത് കൈകാര്യം ചെയ്യും. വെറും 5 മുതൽ 15 സെക്കൻഡ് വരെയുള്ള ഓഡിയോ ഉണ്ടെങ്കിൽ ആരുടെയും ശബ്ദം കൃത്യതയോടെ ക്ലോൺ ചെയ്യാനും, ഒരു വാചകത്തിനിടയിൽ തന്നെ ഭാഷകൾ മാറി സംസാരിക്കാനും കഴിയുന്നത് (Code-switching) Lightning V3യുടെ മറ്റൊരു സവിശേഷതയാണ്.

വോയ്സ് ഏജന്റുകൾ, കോൺടാക്ട് സെന്ററുകൾ, പോഡ്കാസ്റ്റുകൾ, ഓഡിയോബുക്കുകൾ, ഡബ്ബിംഗ്, ഇന്ററാക്ടീവ് ആപ്പുകൾ തുടങ്ങി വിവിധ മേഖലകളിൽ റീട്രെയിനിംഗ് ഇല്ലാതെ തന്നെ ഈ മോഡൽ ഉപയോഗിക്കാനാകും. “ശബ്ദം വ്യക്തമായിരിക്കണമെന്നതിലുപരി, കോൺടെക്സ്റ്റും ടൈമിംഗും ഇമോഷനും ഒരുമിച്ച് കൈകാര്യം ചെയ്യാനുള്ള കഴിവാണ് പ്രധാനമെന്ന്” കമ്പനി സിഇഒ Sudarshan Kamath വ്യക്തമാക്കി.

Smallest.ai has launched Lightning V3, an advanced text-to-speech model that outperforms leading systems from OpenAI and ElevenLabs in naturalness, intonation, and prosody, achieving a 3.89 MOS score. The model is designed for real-time conversations, adapting tone, speed, and emotion dynamically while supporting 15 languages and mid-sentence code-switching. It also offers fast voice cloning from just 5–15 seconds of audio, making it suitable for applications like voice agents, contact centers, podcasts, and dubbing.

Introducing Lightning V3 – it beats every model we tested against.

ElevenLabs, Cartesia, OpenAI. Lightning sets a new SOTA with V3 in conversational text-to-speech.

→ Highest MOS score for conversational TTS at 3.9
→ ~76% win rate vs gpt-4o-mini-tts on naturalness
→ 15… pic.twitter.com/GeZOpPke74
— Sudarshan Kamath (@kamath_sutra) March 25, 2026