113 ഭാഷകൾ തിരിച്ചറിയും, 36 ഭാഷകളിൽ സംസാരിക്കും:Qwen3.5-Omni എത്തി!
AI രംഗത്ത് പുതിയ മുന്നേറ്റവുമായി Alibaba Cloud-ന്റെ Qwen സീരീസിലെ ഏറ്റവും പുതിയ മോഡലായ Qwen3.5-Omni അവതരിപ്പിച്ചു. ടെക്സ്റ്റ്, ഇമേജ്, ഓഡിയോ, വീഡിയോ എന്നിവയെ ഒരേ മോഡലിൽ കൈകാര്യം ചെയ്യാൻ കഴിയുന്ന ‘ഓമ്നി-മോഡൽ’ സംവിധാനമാണ് ഇതിന്റെ പ്രധാന സവിശേഷത. ‘Plus’,‘Flash’യും എന്നീ രണ്ട് വേർഷനുകളിലായി ഇത് ലഭ്യമാണ്.
‘Thinker-Talker’ ആർക്കിടെക്ചർ അടിസ്ഥാനമാക്കിയുള്ള ഈ മോഡൽ, 256K കോൺടെക്സ്റ്റ് വിൻഡോ ഉള്ളതിനാൽ വളരെ വലിയ വിവരങ്ങൾ ഒരേസമയം വിശകലനം ചെയ്യാൻ ഇതിന് സാധിക്കും. 3 മണിക്കൂർ വരെ നീളമുള്ള ഓഡിയോയും 1 മണിക്കൂർ നീളമുള്ള വീഡിയോയും ഒറ്റയടിക്ക് പ്രോസസ്സ് ചെയ്യാൻ ഈ AI യ്ക്ക് കഴിയും.
113 ഭാഷകളിൽ സംസാരിക്കുന്നത് തിരിച്ചറിയാനും (Speech Recognition), 36 ഭാഷകളിൽ സ്വന്തമായി ശബ്ദം നൽകാനും (Synthesis) സാധിക്കും. നമ്മൾ സംസാരിക്കുമ്പോൾ ഇടയ്ക്ക് തടസ്സപ്പെടുത്തിയാൽ അത് മനസ്സിലാക്കി പ്രതികരിക്കാനുള്ള ശേഷി (Semantic Interruption), ശബ്ദം അനുകരിക്കാനുള്ള കഴിവ് (Voice Cloning) എന്നിവ ഇതിന്റെ പ്രത്യേകതയാണ്.
ARIA ടെക്നോളജി ഉപയോഗിച്ച് കൂടുതൽ സ്മൂത്ത് ടെക്സ്റ്റ്-ടു-സ്പീച്ച് അനുഭവവും Qwen3.5-Omni നൽകുന്നു.മികച്ച പെർഫോമൻസ് ആഗ്രഹിക്കുന്നവർക്കായി Qwen3.5-Omni-Plus, അതിവേഗത്തിലുള്ള പ്രതികരണങ്ങൾക്കായി Qwen3.5-Omni-Flash എന്നിവ ഉപയോഗിക്കാം.
Summary : Alibaba Cloud has introduced Qwen3.5-Omni, a new multimodal model capable of handling text, images, audio, and video in a single system. Built on a “Thinker-Talker” architecture with a 256K context window, it can process up to 3 hours of audio and 1 hour of video while supporting speech recognition in 113 languages and synthesis in 36 languages.
With features like semantic interruption, voice cloning, and smoother TTS via ARIA technology, the model is available in Plus (high performance) and Flash (high speed) variants.