“2K വീഡിയോ ഇനി വെറും 111 സെക്കൻഡിൽ! സ്വിഫ്റ്റ്-I2V-യുമായി HKUST ഗവേഷകർ.

വീഡിയോ നിർമ്മാണത്തിന് ആവശ്യമായ കമ്പ്യൂട്ടിംഗ് പവർ ഗണ്യമായി കുറച്ചുകൊണ്ട് HKUST ഗവേഷകർ തങ്ങളുടെ പുതിയ ഇമേജ്-ടു-വീഡിയോ (I2V) ഫ്രെയിംവർക്ക് അവതരിപ്പിച്ചു. സാധാരണയായി 2K വീഡിയോകൾ നിർമ്മിക്കാൻ ആയിരക്കണക്കിന് ജിപിയു സെക്കൻഡുകൾ വേണ്ടിയിരുന്ന സ്ഥാനത്ത്, ‘SwiftI2V’ അത് വെറും 111 സെക്കൻഡുകൾക്കുള്ളിൽ പൂർത്തിയാക്കുന്നു.

CineScale പോലുള്ള മറ്റ് സംവിധാനങ്ങൾ ഇതേ നിലവാരത്തിലുള്ള വീഡിയോ നിർമ്മിക്കാൻ 22,400 ജിപിയു സെക്കൻഡുകൾ എടുക്കുമ്പോൾ, SwiftI2V അത് വെറും 111 സെക്കൻഡിൽ ചെയ്യുന്നു. അതായത് കമ്പ്യൂട്ടിംഗ് ശേഷിയിൽ 202 മടങ്ങ് കുറവ്. ഈ ആർക്കിടെക്ചർ രണ്ട് ഘട്ടങ്ങളിലായാണ് പ്രവർത്തിക്കുന്നത്. ഒന്നാം ഘട്ടത്തിൽ കുറഞ്ഞ ചിലവിൽ 360P റെസല്യൂഷനിൽ ഒരു മോഷൻ റഫറൻസ് തയ്യാറാക്കുന്നു. രണ്ടാം ഘട്ടത്തിൽ ഈ റഫറൻസും ഒറിജിനൽ ചിത്രവും ഉപയോഗിച്ച് 2K നിലവാരത്തിലുള്ള വീഡിയോ നിർമ്മിച്ചെടുക്കുന്നു.

ഫ്രെയിമുകളുടെ എണ്ണം വർദ്ധിച്ചാലും മെമ്മറി പരിധി ലംഘിക്കാതെ തന്നെ 241 ഫ്രെയിമുകൾ വരെ നിർമ്മിക്കാൻ ഈ സംവിധാനത്തിന് കഴിയും. വിബെഞ്ച് (VBench) ടെസ്റ്റുകളിൽ 6.4244 സ്കോർ നേടി ഈ സാങ്കേതികവിദ്യ ഒന്നാമതെത്തി. കൂടാതെ, ബാക്ക്ഗ്രൗണ്ട് കൺസിസ്റ്റൻസിയിൽ 0.9975 എന്ന ഉയർന്ന സ്കോറും ഇത് കരസ്ഥമാക്കി. LTX-2-നെക്കാൾ 30 മടങ്ങ് ഡൈനാമിക് ആയ ഔട്ട്പുട്ട് നൽകാനും ഇതിന് സാധിക്കും.

ഈ സാങ്കേതികവിദ്യയുടെ കോഡും മോഡൽ വെയിറ്റുകളും (Weights) ഇതുവരെ ഔദ്യോഗികമായി പുറത്തിറക്കിയിട്ടില്ല. എന്നാൽ ഇത് ലഭ്യമാകുമ്പോൾ കുറഞ്ഞത് NVIDIA RTX 4090 (24GB VRAM) ജിപിയു എങ്കിലും ഉണ്ടെങ്കിൽ മാത്രമേ മികച്ച രീതിയിൽ പ്രവർത്തിപ്പിക്കാൻ സാധിക്കൂ എന്ന് ഗവേഷകർ അറിയിച്ചിട്ടുണ്ട്.



Summary: Researchers at Hong Kong University of Science and Technology have introduced SwiftI2V, a new AI system that dramatically reduces the computing power required for generating 2K videos, completing tasks in just 111 GPU seconds compared to over 22,000 GPU seconds used by some existing methods. The framework uses a two-stage architecture for efficient high-resolution video generation, achieved top scores on VBench tests, and can create up to 241 frames while maintaining strong background consistency and dynamic motion quality.