“തിയേറ്റർ ക്വാളിറ്റിയിൽ ഇനി എഐ ശബ്ദങ്ങൾ; മോസ്-സൗണ്ട്ഇഫക്റ്റ് വി2.0 പുറത്തിറങ്ങി.”
സിനിമകൾക്കും ടെലിവിഷൻ പരിപാടികൾക്കും ആവശ്യമായ ശബ്ദങ്ങൾ (Sound Effects) ടെക്സ്റ്റ് വിവരണം (Text Prompt) വഴി മാത്രം നിർമ്മിച്ചെടുക്കാൻ സഹായിക്കുന്ന പുതിയ MOSS-SoundEffect v2.0 AI ടൂൾ ഫുഡാൻ യൂണിവേഴ്സിറ്റി അവതരിപ്പിച്ചു. നിലവിലുള്ള മറ്റ് പ്രമുഖ ടൂളുകളേക്കാൾ സാങ്കേതികമായി ഏറെ മുന്നിലാണ് ഈ പുതിയ മോഡൽ.
ഇതിന്റെ വലിയ പ്രത്യേകത നൽകുന്ന ശബ്ദത്തിന്റെ ഉയർന്ന ക്വാളിറ്റിയാണ്. സ്റ്റെബിലിറ്റി എഐയുടെ (Stability AI) പ്രശസ്തമായ സ്റ്റേബിൾ ഓഡിയോ 3 (Stable Audio 3) പോലുള്ള മുൻനിര മോഡലുകൾ പോലും 44.1 kHz ക്വാളിറ്റിയിലാണ് ഓഡിയോ നൽകുന്നത്. എന്നാൽ ‘മോസ്-സൗണ്ട്ഇഫക്റ്റ് വി2.0’ ഔട്ട്പുട്ട് നൽകുന്നത് 48 kHz ക്വാളിറ്റിയിലാണ്. തിയേറ്ററുകളിലും ടെലിവിഷൻ സംപ്രേക്ഷണത്തിലും അന്താരാഷ്ട്ര തലത്തിൽ ഉപയോഗിക്കുന്ന സ്റ്റാൻഡേർഡ് (SMPTE standard) ആണിത്. ഇതിലൂടെ ലഭിക്കുന്ന ഓഡിയോ ഫയലുകൾ ഡാവിഞ്ചി റിസോൾവ് (DaVinci Resolve), പ്രോ ടൂൾസ് (Pro Tools) തുടങ്ങിയ പ്രൊഫഷണൽ സോഫ്റ്റ്വെയറുകളിലേക്ക് സാമ്പിൾ റേറ്റ് മാറ്റങ്ങൾ (Sample rate conversion) ഒന്നും കൂടാതെ നേരിട്ട് ഉപയോഗിക്കാൻ സാധിക്കും.
നമുക്ക് ആവശ്യമായ ശബ്ദത്തിന്റെ വിവരണം ഇംഗ്ലീഷിലോ ചൈനീസ് ഭാഷയിലോ ടൈപ്പ് ചെയ്തു നൽകിയാൽ വെറും നിമിഷങ്ങൾക്കകം 30 സെക്കൻഡ് വരെയുള്ള ഓഡിയോ ഈ ടൂൾ നിർമ്മിച്ച് നൽകും. മഴ, കാറ്റ്, കടൽത്തിരമാലകൾ, ട്രാഫിക് ബഹളങ്ങൾ, ജനക്കൂട്ടത്തിന്റെ ശബ്ദം, മൃഗങ്ങളുടെ ശബ്ദങ്ങൾ, മനുഷ്യരുടെ വിവിധ പ്രവൃത്തികളുടെ ശബ്ദങ്ങൾ, പെർകഷൻ മ്യൂസിക് ക്ലിപ്പുകൾ എന്നിവയെല്ലാം ഡിജിറ്റൽ സൗണ്ട് ലൈബ്രറികളുടെ സഹായമില്ലാതെ തന്നെ ഇതിലൂടെ നിർമ്മിക്കാം.
ഫ്ലോ മാച്ചിംഗ് (Flow Matching) സാങ്കേതികവിദ്യയോട് കൂടിയ ‘ഡിഫ്യൂഷൻ ട്രാൻസ്ഫോർമർ’ (Diffusion Transformer) ആർക്കിടെക്ചറിലാണ് ഇത് നിർമ്മിച്ചിരിക്കുന്നത്. ടെക്സ്റ്റുകൾ കൃത്യമായി മനസ്സിലാക്കാൻ ‘Qwen3-1.7B’ മോഡലും, ഓഡിയോ പ്രോസസ്സിംഗിനായി ‘DAC VAE codec’-ഉം ഇതിൽ ഉപയോഗിച്ചിരിക്കുന്നു. യാതൊരുവിധ നിബന്ധനകളുമില്ലാതെ പൂർണ്ണമായ വാണിജ്യ ഉപയോഗ അനുമതിയോടെയാണ് (Commercial Use Allowed) ഇത് ലഭ്യമാക്കിയിരിക്കുന്നത്.
ഇന്ത്യയിലെ ആദ്യ Comprehensive AI Filmmaking പഠിക്കാം.https://sostorytelling.com/
Summary: Fudan University’s OpenMOSS Team has released MOSS-SoundEffect v2.0, a 1.3-billion-parameter AI model that generates high-quality, theater-standard 48 kHz audio directly from text descriptions under a fully commercial Apache 2.0 license. This advanced tool allows filmmakers and sound designers to create diverse ambient or action sound effects up to 30 seconds long, which can be integrated into professional editing software without requiring sample rate conversion.