Text Description മാത്രം മതി; നിങ്ങൾ ആഗ്രഹിക്കുന്ന ശബ്ദം AI തന്നെ സൃഷ്ടിക്കും!
നിങ്ങൾ ആഗ്രഹിക്കുന്ന ഏത് തരം ശബ്ദവും ഇനി നിമിഷങ്ങൾക്കുള്ളിൽ സ്വന്തമാക്കാം.OpenBMB പുതിയ മോഡലായ VoxCPM 2 പുറത്തിറക്കി. വെറുമൊരു ടെക്സ്റ്റ്-ടു-സ്പീച്ച് (TTS) സംവിധാനത്തിന് അപ്പുറം, നാം ആഗ്രഹിക്കുന്ന ഏത് ശബ്ദവും വിവരണത്തിലൂടെ (Text Description) നിർമ്മിച്ചെടുക്കാൻ കഴിയുന്ന ‘കോൺസെപ്റ്റ്-ടു-വോയിസ്’ (Concept-to-Voice) സാങ്കേതികവിദ്യയാണിത്.
ഇനി മുൻകൂട്ടി നിശ്ചയിച്ച സ്പീക്കർ വോയിസുകൾ ആവശ്യമില്ല. “Deep booming male voice, strong resonant vocal എന്നീങ്ങനെ ടെക്സ്റ്റായി വിവരണം നൽകിയാൽ, അതനുസരിച്ച് ശബ്ദം സ്വയം സൃഷ്ടിക്കാൻ VoxCPM 2ക്ക് കഴിയും.
നേരത്തെ നിശ്ചയിച്ച വോയിസ് പ്രീസെറ്റുകളുടെ (Fixed Presets) കാലം ഇതോടെ അവസാനിക്കുന്നു.മനുഷ്യർ സംസാരിക്കുമ്പോൾ ഉണ്ടാകുന്ന ചെറിയ ശ്വാസമെടുക്കലുകൾ (Breathing), നെഞ്ചിലെ പ്രകമ്പനങ്ങൾ (Chest vibrations), വാക്കുകൾക്കിടയിലെ സൂക്ഷ്മമായ ഇടവേളകൾ എന്നിവ കൃത്യമായി അനുകരിക്കാൻ ഇതിന് സാധിക്കും.മലയാളം ഉൾപ്പെടെയുള്ള 30-ലധികം ഭാഷകളിൽ മികച്ച പ്രകടനം
Diffusion-Autoregressive Continuous Representation എന്ന അത്യാധുനിക സാങ്കേതികവിദ്യയാണ് ഈ മോഡലിന് പിന്നിൽ. പരമ്പരാഗത ‘ടോക്കൺ’ അടിസ്ഥാനമാക്കിയ മോഡലുകളിൽ ഉണ്ടാകുന്ന ഡാറ്റ നഷ്ടം ഒഴിവാക്കി, ശബ്ദത്തിന്റെ യഥാർത്ഥ ഗുണങ്ങൾ (acoustic metadata) സംരക്ഷിക്കാൻ ഇതിന് കഴിയും. 48,000Hz CD-ക്വാളിറ്റി ഓഡിയോ ഔട്ട്പുട്ട് നൽകുന്നതിനാൽ സ്റ്റുഡിയോ നിലവാരത്തിലുള്ള ശബ്ദം ലഭിക്കും.
ഡെവലപ്പർമാർക്കും ക്രിയേറ്റർമാർക്കും ഈ സാങ്കേതികവിദ്യ (Open-source) സൗജന്യമായി ഉപയോഗിക്കാനും തങ്ങൾക്കനുയോജ്യമായ രീതിയിൽ മാറ്റങ്ങൾ വരുത്താനും (Fine-tuning) സാധിക്കും.
OpenBMB has launched VoxCPM 2, an advanced open-source TTS model that enables “concept-to-voice” generation from simple text descriptions.The model can create highly realistic voices with natural breathing, pauses, and resonance, delivering studio-quality 48kHz audio. Built on a diffusion-autoregressive framework, it preserves acoustic detail and offers flexible fine-tuning options for developers and creators.