‘3DreamBooth’: വിഷ്വൽ ഇൻ കൺസിസ്റ്റൻസിയ്ക്ക് പരിഹാരമായി
AI ഫിലിം മേക്കിങിലും പരസ്യനിർമ്മാണത്തിലും AI ഉപയോഗിക്കുമ്പോൾ നേരിട്ടിരുന്ന വെല്ലുവിളിയായ ‘വിഷ്വൽ കൺസിസ്റ്റൻസി’ (Visual Consistency) പരിഹരിക്കാൻ പുത്തൻ സാങ്കേതികവിദ്യയുമായി ദക്ഷിണ കൊറിയൻ ഗവേഷകർ. നിലവിലുള്ള 2D രീതികൾക്ക് പകരം ഒരു വസ്തുവിനെ ത്രിമാന രൂപമായി (3D Shape) കണക്കാക്കി വീഡിയോകൾ നിർമ്മിക്കുന്ന ‘3DreamBooth’ ആണ് ഇവർ അവതരിപ്പിച്ചത്. ദക്ഷിണ കൊറിയയിലെ Yonsei Universityയും Sungkyunkwan Universityയും ചേർന്ന് ഇത് വികസിപ്പിച്ചത്.
സാധാരണ എഐ വീഡിയോ മോഡലുകൾ ഒരു വസ്തുവിനെ 2D ചിത്രമായി മാത്രമാണ് പഠിക്കുന്നത്. അതിനാൽ ക്യാമറ ആംഗിൾ മാറുമ്പോഴും വസ്തു തിരിയുമ്പോഴും ദൃശ്യങ്ങളിൽ inconsistency ഉണ്ടാകാറുണ്ട്. എന്നാൽ 3DreamBooth ആ വസ്തുവിന്റെ എല്ലാ വശങ്ങളും (Spatial Geometry) പഠിച്ചെടുക്കുന്നു. അതിനാൽ വീഡിയോയിൽ ക്യാമറ എങ്ങനെ ചലിച്ചാലും വസ്തുവിന്റെ ആകൃതിക്കോ ടെക്സ്ചറിനോ മാറ്റം സംഭവിക്കില്ല.
സിസ്റ്റം രണ്ട് പ്രധാന ഘട്ടങ്ങളിലൂടെയാണ് പ്രവർത്തിക്കുന്നത്. ആദ്യ ഘട്ടത്തിൽ വസ്തുവിന്റെ 3D ഘടന മനസ്സിലാക്കുന്ന സ്പേഷ്യൽ ജിയോമെട്രി ഓപ്റ്റിമൈസേഷൻ നടക്കും. രണ്ടാം ഘട്ടമായ ‘3Dapter’ വഴി വിവിധ ആംഗിളുകളിൽ നിന്നുള്ള വിവരങ്ങൾ സംയോജിപ്പിച്ച് കൂടുതൽ റിയൽ ഇമേജുകൾ സൃഷ്ടിക്കുന്നു.
Human Evaluation – ൽ വസ്തുവിന്റെ ആകൃതി കൃത്യമായി നിലനിർത്തുന്നതിൽ 5-ൽ 4.80 മാർക്ക് നേടാൻ 3DreamBooth-ന് സാധിച്ചു. നിലവിലുള്ള മറ്റ് സംവിധാനങ്ങളേക്കാൾ ഏറെ മുന്നിലാണിത്. Hunyuan Video, WanVideo 2.1 തുടങ്ങിയ പ്രമുഖ എഐ മോഡലുകളിൽ ഈ ടെക്നോളജി വിജയകരമായി പരീക്ഷിച്ചു കഴിഞ്ഞു.