MosaicMem: വീഡിയോ മോഡലുകൾക്ക് ഇനി ഹൈബ്രിഡ് മെമ്മറി സംവിധാനം
വീഡിയോകൾ നിർമ്മിക്കുന്ന AI മോഡലുകൾ നേരിട്ടിരുന്ന വലിയ വെല്ലുവിളിയായ ‘മെമ്മറി’ (Spatial Memory) പ്രശ്നത്തിന് പരിഹാരമാകുന്നു. ക്യാമറ ചലിക്കുമ്പോൾ ദൃശ്യങ്ങൾ മാറിപ്പോകാതെ, 2 മിനിറ്റ് വരെ ദൈർഘ്യമുള്ള ഹൈ-ക്വാളിറ്റി വീഡിയോകൾ നിർമ്മിക്കാൻ സഹായിക്കുന്ന MosaicMem സാങ്കേതികവിദ്യ പുറത്തിറക്കി. University of Toronto, Vector Institute, Georgia Tech എന്നിവിടങ്ങളിലെ ഗവേഷകരുടെ സംയുക്ത പഠനഫലമാണ് ഈ സംവിധാനം.
നിലവിലുള്ള AI മോഡലുകൾക്ക് ക്യാമറ മൂവ് ചെയ്യുമ്പോഴോ ദൃശ്യങ്ങൾ മാറുമ്പോഴോ പഴയ കാര്യങ്ങൾ ‘മറന്നുപോകുന്ന’ അവസ്ഥ ഉണ്ടായിരുന്നു. ഇതിനെ മറികടക്കാൻ പാച്ച് ആൻഡ് കമ്പോസ്’ (Patch and Compose) എന്ന പുതിയ മെമ്മറി രീതിയാണ് MosaicMem ഉപയോഗിക്കുന്നത്. ഒരു മുഴുവൻ ഫ്രെയിം കൈകാര്യം ചെയ്യുന്നതിന് പകരം, ചെറിയ പാച്ചുകളെ 3D ആയി മാപ്പ് ചെയ്ത് പുതിയ വ്യൂകളിലേക്ക് പ്രൊജക്ട് ചെയ്യുന്നു. ഇതിലൂടെ സീനിന്റെ രൂപവും ചലനവും ഒരുപോലെ കൃത്യമായി നിലനിർത്താൻ കഴിയും.
ക്യാമറ മൂവ്മെന്റുകൾ കൂടുതൽ കൃത്യമായി നിയന്ത്രിക്കാൻ PRoPE (Projective Positional Encoding) എന്ന പ്രത്യേക മോഡ്യൂളും ഇതിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. സീനുകൾ എഡിറ്റ് ചെയ്യാനും (scene editing) ഈ സംവിധാനം സഹായിക്കുന്നു. 3D പാച്ച് മെമ്മറി ഉപയോഗിച്ച് സീനുകൾ തമ്മിൽ കൂട്ടിച്ചേർക്കാനും (scene stitching), മാറ്റങ്ങൾ വരുത്താനും കഴിയും. റിയൽ-ടൈം വീഡിയോ ജനറേഷനും (16 FPS) MosaicMem വഴി സാധ്യമാകുന്നുണ്ട്. പ്രമുഖ എഐ മോഡലായ Wan 2.2 ഉപയോഗിച്ചാണ് ഇത് പരിശീലിപ്പിച്ചിരിക്കുന്നത്.
Summary : MosaicMem is a new AI framework developed by researchers from the University of Toronto, Vector Institute, and Georgia Tech to solve spatial memory issues in video generation. It uses a “patch and compose” 3D memory approach to maintain scene consistency and motion even when the camera moves, enabling high-quality videos up to 2 minutes long. With features like PRoPE for precise camera control and real-time generation, it marks a major advancement in controllable AI video models.