ഒറ്റ ജിപിയുവിൽ 241 ഫ്രെയിം വീഡിയോകൾ ഒരുക്കാൻ പുതിയ എഐ ടൂൾ;111 സെക്കൻഡിൽ 2K വീഡിയോയുമായി SwiftI2V

എഐ വീഡിയോ നിർമ്മാണ രംഗത്തെ കമ്പ്യൂട്ടിംഗ് ചിലവുകളും സമയവും നൂറിലധികം മടങ്ങ് കുറച്ചുകൊണ്ട് ഹോങ്കോങ് യൂണിവേഴ്സിറ്റി ഓഫ് സയൻസ് ആൻഡ് ടെക്നോളജിയിലെ (HKUST) ഗവേഷകർ വിപ്ലവകരമായ ഇമേജ്-ടു-വീഡിയോ (Image-to-Video) സാങ്കേതികവിദ്യ വികസിപ്പിച്ചു. ‘SwiftI2V’ എന്ന് പേരിട്ടിരിക്കുന്ന ഈ പുതിയ ഫ്രെയിംവർക്ക് ഉപയോഗിച്ച് വെറും ഒരൊറ്റ ജിപിയു (GPU) മാത്രം ഉപയോഗിച്ച് അതീവ വ്യക്തതയുള്ള 2K റെസല്യൂഷൻ വീഡിയോകൾ വെറും 111 സെക്കൻഡുകൾക്കുള്ളിൽ നിർമ്മിച്ചെടുക്കാം.

വലിയ വീഡിയോകൾ നിർമ്മിക്കുമ്പോൾ കമ്പ്യൂട്ടർ മെമ്മറി ക്രമാതീതമായി തീർന്നുപോകുന്ന പ്രശ്നം പരിഹരിക്കാൻ രണ്ട് ഘട്ടങ്ങളായാണ് ഇത് പ്രവർത്തിക്കുന്നത്:

  1. ഒന്നാം ഘട്ടം (Stage I): വളരെ കുറഞ്ഞ ചിലവിൽ ഇൻപുട്ട് ചിത്രത്തിൽ നിന്ന് 360p റെസല്യൂഷനിലുള്ള ഒരു മോഷൻ റഫറൻസ് (Motion reference) എഐ ആദ്യം തയ്യാറാക്കുന്നു.
  2. രണ്ടാം ഘട്ടം (Stage II): ഈ മോഷൻ റഫറൻസും നമ്മൾ നൽകിയ യഥാർത്ഥ ചിത്രവും ഒന്നിച്ച് ചേർത്തുകൊണ്ട് പൂർണ്ണമായ 2K ഔട്ട്പുട്ട് വീഡിയോ എഐ നിർമ്മിച്ചെടുക്കുന്നു.

വീഡിയോയുടെ ഫ്രെയിമുകൾ എത്ര കൂടിയാലും ഇതിന്റെ മെമ്മറി ഉപയോഗം ഒരു പരിധിക്കുള്ളിൽ തന്നെ നിൽക്കും (Bounded memory). ഈ സാങ്കേതികവിദ്യ ഉപയോഗിച്ച് ഒരേസമയം 241 ഫ്രെയിമുകൾ വരെയുള്ള നീളമുള്ള വീഡിയോകൾ നിർമ്മിക്കാം.

എഐ വീഡിയോകളുടെ ഗുണനിലവാരം അളക്കുന്ന വി-ബെഞ്ച് (VBench) ടെസ്റ്റിൽ 6.4244 എന്ന ഏറ്റവും ഉയർന്ന ടോട്ടൽ സ്കോറും, 0.9975 എന്ന മികച്ച ബാക്ക്ഗ്രൗണ്ട് കൺസിസ്റ്റൻസിയും (Background consistency) SwiftI2V സ്വന്തമാക്കി. കൂടാതെ വിപണിയിലെ പ്രമുഖ മോഡലായ LTX-2 നേക്കാൾ 30 മടങ്ങ് കൂടുതൽ ഡൈനാമിക് ആയ (Dynamic) ദൃശ്യങ്ങൾ നൽകാൻ ഇതിന് സാധിക്കും. ഈ മോഡലിന്റെ കോഡും വെയ്റ്റുകളും (Model weights) ഗവേഷകർ ഇതുവരെ പൊതുവായി പുറത്തുവിട്ടിട്ടില്ല. എങ്കിലും ഇത് റിലീസ് ചെയ്യുമ്പോൾ റൺ ചെയ്യാനായി കുറഞ്ഞത് 24GB VRAM ഉള്ള NVIDIA RTX 4090 ഗ്രാഫിക്സ് കാർഡ് ആവശ്യമായി വരും.

ഇന്ത്യയിലെ ആദ്യ Comprehensive AI Filmmaking പഠിക്കാം.https://sostorytelling.com/

Summary : Researchers from HKUST have introduced ‘SwiftI2V,’ a revolutionary image-to-video framework that synthesizes high-quality 2K videos up to 241 frames in just 111 seconds on a single GPU, achieving a 202-fold reduction in compute compared to baselines like CineScale. Operating via a memory-efficient two-stage architecture that scales through low-res motion references, it secures top VBench consistency scores and generates 30 times more dynamic outputs, with future local deployment requiring a minimum of an NVIDIA RTX 4090 (24GB VRAM).