1 വീഡിയോ, 1 മണിക്കൂർ ട്രെയിനിംഗ്! ‘Warp-as-History സാങ്കേതിക വിദ്യ വികസിപ്പിച്ചു.

നിലവിലുള്ള എഐ വീഡിയോ മോഡലുകളുടെ ഘടനയിൽ (Architecture) യാതൊരു മാറ്റവും വരുത്താതെയും, ലക്ഷക്കണക്കിന് ഡാറ്റാസെറ്റുകളുടെ സഹായമില്ലാതെയും കൃത്യമായ ക്യാമറ മൂവ്മെന്റുകൾ സാധ്യമാക്കുന്ന ഗവേഷണ ഫലം പുറത്ത്. ‘Warp-as-History’ എന്ന ഈ പുതിയ രീതിയിലൂടെ പ്രീട്രെയിൻഡ് എഐ മോഡലുകളിലേക്ക് ഒരു സിംഗിൾ LoRA fine-tune വഴി കൃത്യമായ ക്യാമറ ചലനങ്ങൾ കൂട്ടിച്ചേർക്കാൻ സാധിക്കും. എഐ ക്യാമറ നിയന്ത്രണങ്ങൾ അളക്കുന്ന ‘WorldScore’ ബെഞ്ച്മാർക്കിൽ നിലവിലുണ്ടായിരുന്ന 26.42 എന്ന സ്കോർ ഒറ്റയടിക്ക് 62.00 ആക്കി ഉയർത്താൻ ഈ പുതിയ രീതിക്ക് സാധിച്ചിട്ടുണ്ട്.

നമുക്ക് ആവശ്യമുള്ള ക്യാമറ പൊസിഷനുകളെ (Target camera positions) ഈ മോഡൽ അതിന്റെ മുൻകാല ചരിത്രത്തിലേക്ക് (History channel) ‘വാർപ്പ്ഡ് സ്യൂഡോ-ഹിസ്റ്ററി ഫ്രെയിമുകൾ’ (Warped pseudo-history frames) ആയി തിരികെ നൽകുന്നു. എഐ ഈ ഫ്രെയിമുകളെ പശ്ചാത്തലമായി സ്വയം വായിക്കുകയും, ക്രിയേറ്റർ ഉദ്ദേശിച്ച ആംഗിളിൽ നിന്ന് കൃത്യമായി ദൃശ്യങ്ങൾ നിർമ്മിക്കുകയും ചെയ്യും. ഏറ്റവും വലിയ പ്രത്യേകത, ഒരു തവണ ചെയ്യുന്ന ഈ ഫൈൻ ട്യൂണിംഗ് ഭാവിയിൽ നിർമ്മിക്കുന്ന എല്ലാ ദൃശ്യങ്ങൾക്കും ബാധകമാകും എന്നതാണ്. ഓരോ സീനിനും പ്രത്യേകം മാറ്റങ്ങൾ വരുത്തേണ്ടതില്ല.

ഇതിന്റെ കോഡ് Apache 2.0 ലൈസൻസിന് കീഴിലായതിനാൽ പൂർണ്ണമായും വാണിജ്യ ആവശ്യങ്ങൾക്ക് അനുയോജ്യമാണ്.എന്നാൽ ഗവേഷകർ നൽകിയിട്ടുള്ള നിലവിലെ LoRA വെയ്റ്റുകൾ CC BY-NC 4.0 (Non-commercial) ലൈസൻസിലാണ്. അതിനാൽ, സിനിമകൾക്കോ മറ്റ് പെയ്ഡ് പ്രൊജക്റ്റുകൾക്കോ വേണ്ടി ഇത് ഉപയോഗിക്കാൻ ആഗ്രഹിക്കുന്നവർ, ഇതിനൊപ്പം നൽകിയിട്ടുള്ള ട്രെയിനിംഗ് സ്ക്രിപ്റ്റുകൾ ഉപയോഗിച്ച് സ്വന്തം ദൃശ്യങ്ങൾ വെച്ച് ഒരു ലോറ (LoRA) സ്വന്തമായി ട്രെയിൻ ചെയ്തെടുക്കേണ്ടതുണ്ട്. അങ്ങനെ നിങ്ങൾ സ്വന്തമായി ജനറേറ്റ് ചെയ്യുന്ന വെയ്റ്റുകൾക്ക് യാതൊരുവിധ കൊമേഴ്‌സ്യൽ നിയന്ത്രണങ്ങളും ഉണ്ടായിരിക്കില്ല.

ഇത് പ്രവർത്തിപ്പിക്കാൻ കുറഞ്ഞത് 24GB+ VRAM ഉള്ള ഗ്രാഫിക്സ് കാർഡുകൾ ആവശ്യമാണ്. പ്രശസ്തമായ ‘Helios 14B’ മോഡലിനെ അടിസ്ഥാനമാക്കിയാണ് ഇത് നിർമ്മിച്ചിരിക്കുന്നത്.

ഇന്ത്യയിലെ ആദ്യ Comprehensive AI Filmmaking പഠിക്കാം.https://sostorytelling.com/

Summary : Shanghai Jiao Tong University has developed ‘Warp-as-History,’ a method that enables precise camera trajectory control in pretrained video models via a single LoRA fine-tune, boosting its WorldScore benchmark from 26.42 to 62.00 without architectural overhauls. Operating under an Apache 2.0 license with a 24GB+ VRAM requirement, this system inputs target camera angles as warped pseudo-history frames, allowing filmmakers to permanently bake commercial-ready camera controls into their custom footage training scripts.