MosaicMem: വീഡിയോ മോഡലുകൾക്ക് ഇനി ഹൈബ്രിഡ് മെമ്മറി സംവിധാനം

March 23, 2026

വീഡിയോകൾ നിർമ്മിക്കുന്ന AI മോഡലുകൾ നേരിട്ടിരുന്ന വലിയ വെല്ലുവിളിയായ ‘മെമ്മറി’ (Spatial Memory) പ്രശ്നത്തിന് പരിഹാരമാകുന്നു. ക്യാമറ ചലിക്കുമ്പോൾ ദൃശ്യങ്ങൾ മാറിപ്പോകാതെ, 2 മിനിറ്റ് വരെ ദൈർഘ്യമുള്ള ഹൈ-ക്വാളിറ്റി വീഡിയോകൾ നിർമ്മിക്കാൻ സഹായിക്കുന്ന MosaicMem സാങ്കേതികവിദ്യ പുറത്തിറക്കി. University of Toronto, Vector Institute, Georgia Tech എന്നിവിടങ്ങളിലെ ഗവേഷകരുടെ സംയുക്ത പഠനഫലമാണ് ഈ സംവിധാനം.

നിലവിലുള്ള AI മോഡലുകൾക്ക് ക്യാമറ മൂവ് ചെയ്യുമ്പോഴോ ദൃശ്യങ്ങൾ മാറുമ്പോഴോ പഴയ കാര്യങ്ങൾ ‘മറന്നുപോകുന്ന’ അവസ്ഥ ഉണ്ടായിരുന്നു. ഇതിനെ മറികടക്കാൻ പാച്ച് ആൻഡ് കമ്പോസ്’ (Patch and Compose) എന്ന പുതിയ മെമ്മറി രീതിയാണ് MosaicMem ഉപയോഗിക്കുന്നത്. ഒരു മുഴുവൻ ഫ്രെയിം കൈകാര്യം ചെയ്യുന്നതിന് പകരം, ചെറിയ പാച്ചുകളെ 3D ആയി മാപ്പ് ചെയ്ത് പുതിയ വ്യൂകളിലേക്ക് പ്രൊജക്ട് ചെയ്യുന്നു. ഇതിലൂടെ സീനിന്റെ രൂപവും ചലനവും ഒരുപോലെ കൃത്യമായി നിലനിർത്താൻ കഴിയും.

ക്യാമറ മൂവ്‌മെന്റുകൾ കൂടുതൽ കൃത്യമായി നിയന്ത്രിക്കാൻ PRoPE (Projective Positional Encoding) എന്ന പ്രത്യേക മോഡ്യൂളും ഇതിൽ ഉൾപ്പെടുത്തിയിട്ടുണ്ട്. സീനുകൾ എഡിറ്റ് ചെയ്യാനും (scene editing) ഈ സംവിധാനം സഹായിക്കുന്നു. 3D പാച്ച് മെമ്മറി ഉപയോഗിച്ച് സീനുകൾ തമ്മിൽ കൂട്ടിച്ചേർക്കാനും (scene stitching), മാറ്റങ്ങൾ വരുത്താനും കഴിയും. റിയൽ-ടൈം വീഡിയോ ജനറേഷനും (16 FPS) MosaicMem വഴി സാധ്യമാകുന്നുണ്ട്. പ്രമുഖ എഐ മോഡലായ Wan 2.2 ഉപയോഗിച്ചാണ് ഇത് പരിശീലിപ്പിച്ചിരിക്കുന്നത്.

MosaicMem

A hybrid spatial memory for video world models bridging explicit 3D and implicit memory, enabling long-horizon navigation, memory-based editing, and dynamic scene generation with improved camera consistency. pic.twitter.com/fWaSq1eZ4M
— DailyPapers (@HuggingPapers) March 19, 2026

Summary : MosaicMem is a new AI framework developed by researchers from the University of Toronto, Vector Institute, and Georgia Tech to solve spatial memory issues in video generation. It uses a “patch and compose” 3D memory approach to maintain scene consistency and motion even when the camera moves, enabling high-quality videos up to 2 minutes long. With features like PRoPE for precise camera control and real-time generation, it marks a major advancement in controllable AI video models.