Text Description മാത്രം മതി; നിങ്ങൾ ആഗ്രഹിക്കുന്ന ശബ്ദം AI തന്നെ സൃഷ്ടിക്കും!

April 7, 2026

നിങ്ങൾ ആഗ്രഹിക്കുന്ന ഏത് തരം ശബ്ദവും ഇനി നിമിഷങ്ങൾക്കുള്ളിൽ സ്വന്തമാക്കാം.OpenBMB പുതിയ മോഡലായ VoxCPM 2 പുറത്തിറക്കി. വെറുമൊരു ടെക്സ്റ്റ്-ടു-സ്പീച്ച് (TTS) സംവിധാനത്തിന് അപ്പുറം, നാം ആഗ്രഹിക്കുന്ന ഏത് ശബ്ദവും വിവരണത്തിലൂടെ (Text Description) നിർമ്മിച്ചെടുക്കാൻ കഴിയുന്ന ‘കോൺസെപ്റ്റ്-ടു-വോയിസ്’ (Concept-to-Voice) സാങ്കേതികവിദ്യയാണിത്.

ഇനി മുൻകൂട്ടി നിശ്ചയിച്ച സ്പീക്കർ വോയിസുകൾ ആവശ്യമില്ല. “Deep booming male voice, strong resonant vocal എന്നീങ്ങനെ ടെക്സ്റ്റായി വിവരണം നൽകിയാൽ, അതനുസരിച്ച് ശബ്ദം സ്വയം സൃഷ്ടിക്കാൻ VoxCPM 2ക്ക് കഴിയും.

നേരത്തെ നിശ്ചയിച്ച വോയിസ് പ്രീസെറ്റുകളുടെ (Fixed Presets) കാലം ഇതോടെ അവസാനിക്കുന്നു.മനുഷ്യർ സംസാരിക്കുമ്പോൾ ഉണ്ടാകുന്ന ചെറിയ ശ്വാസമെടുക്കലുകൾ (Breathing), നെഞ്ചിലെ പ്രകമ്പനങ്ങൾ (Chest vibrations), വാക്കുകൾക്കിടയിലെ സൂക്ഷ്മമായ ഇടവേളകൾ എന്നിവ കൃത്യമായി അനുകരിക്കാൻ ഇതിന് സാധിക്കും.മലയാളം ഉൾപ്പെടെയുള്ള 30-ലധികം ഭാഷകളിൽ മികച്ച പ്രകടനം

Diffusion-Autoregressive Continuous Representation എന്ന അത്യാധുനിക സാങ്കേതികവിദ്യയാണ് ഈ മോഡലിന് പിന്നിൽ. പരമ്പരാഗത ‘ടോക്കൺ’ അടിസ്ഥാനമാക്കിയ മോഡലുകളിൽ ഉണ്ടാകുന്ന ഡാറ്റ നഷ്ടം ഒഴിവാക്കി, ശബ്ദത്തിന്റെ യഥാർത്ഥ ഗുണങ്ങൾ (acoustic metadata) സംരക്ഷിക്കാൻ ഇതിന് കഴിയും. 48,000Hz CD-ക്വാളിറ്റി ഓഡിയോ ഔട്ട്പുട്ട് നൽകുന്നതിനാൽ സ്റ്റുഡിയോ നിലവാരത്തിലുള്ള ശബ്ദം ലഭിക്കും.

ഡെവലപ്പർമാർക്കും ക്രിയേറ്റർമാർക്കും ഈ സാങ്കേതികവിദ്യ (Open-source) സൗജന്യമായി ഉപയോഗിക്കാനും തങ്ങൾക്കനുയോജ്യമായ രീതിയിൽ മാറ്റങ്ങൾ വരുത്താനും (Fine-tuning) സാധിക്കും.

🚀 VoxCPM 2 is live!
🎉 Another open-source AI #TTS model from China — and one that stands shoulder to shoulder with Qwen3-TTS, while bringing everything into a single unified model. After rapid iterations from V1 (zero-shot cloning) to V1.5 (long-form + fine-tuning), #VoxCPM has… pic.twitter.com/AoC0clWfHe
— OpenBMB (@OpenBMB) April 6, 2026

OpenBMB has launched VoxCPM 2, an advanced open-source TTS model that enables “concept-to-voice” generation from simple text descriptions.The model can create highly realistic voices with natural breathing, pauses, and resonance, delivering studio-quality 48kHz audio. Built on a diffusion-autoregressive framework, it preserves acoustic detail and offers flexible fine-tuning options for developers and creators.