‘3DreamBooth’: വിഷ്വൽ ഇൻ കൺസിസ്റ്റൻസിയ്ക്ക് പരിഹാരമായി

March 21, 2026

AI ഫിലിം മേക്കിങിലും പരസ്യനിർമ്മാണത്തിലും AI ഉപയോഗിക്കുമ്പോൾ നേരിട്ടിരുന്ന വെല്ലുവിളിയായ ‘വിഷ്വൽ കൺസിസ്റ്റൻസി’ (Visual Consistency) പരിഹരിക്കാൻ പുത്തൻ സാങ്കേതികവിദ്യയുമായി ദക്ഷിണ കൊറിയൻ ഗവേഷകർ. നിലവിലുള്ള 2D രീതികൾക്ക് പകരം ഒരു വസ്തുവിനെ ത്രിമാന രൂപമായി (3D Shape) കണക്കാക്കി വീഡിയോകൾ നിർമ്മിക്കുന്ന ‘3DreamBooth’ ആണ് ഇവർ അവതരിപ്പിച്ചത്. ദക്ഷിണ കൊറിയയിലെ Yonsei Universityയും Sungkyunkwan Universityയും ചേർന്ന് ഇത് വികസിപ്പിച്ചത്.

സാധാരണ എഐ വീഡിയോ മോഡലുകൾ ഒരു വസ്തുവിനെ 2D ചിത്രമായി മാത്രമാണ് പഠിക്കുന്നത്. അതിനാൽ ക്യാമറ ആംഗിൾ മാറുമ്പോഴും വസ്തു തിരിയുമ്പോഴും ദൃശ്യങ്ങളിൽ inconsistency ഉണ്ടാകാറുണ്ട്. എന്നാൽ 3DreamBooth ആ വസ്തുവിന്റെ എല്ലാ വശങ്ങളും (Spatial Geometry) പഠിച്ചെടുക്കുന്നു. അതിനാൽ വീഡിയോയിൽ ക്യാമറ എങ്ങനെ ചലിച്ചാലും വസ്തുവിന്റെ ആകൃതിക്കോ ടെക്സ്ചറിനോ മാറ്റം സംഭവിക്കില്ല.

സിസ്റ്റം രണ്ട് പ്രധാന ഘട്ടങ്ങളിലൂടെയാണ് പ്രവർത്തിക്കുന്നത്. ആദ്യ ഘട്ടത്തിൽ വസ്തുവിന്റെ 3D ഘടന മനസ്സിലാക്കുന്ന സ്പേഷ്യൽ ജിയോമെട്രി ഓപ്റ്റിമൈസേഷൻ നടക്കും. രണ്ടാം ഘട്ടമായ ‘3Dapter’ വഴി വിവിധ ആംഗിളുകളിൽ നിന്നുള്ള വിവരങ്ങൾ സംയോജിപ്പിച്ച് കൂടുതൽ റിയൽ ഇമേജുകൾ സൃഷ്ടിക്കുന്നു.

Human Evaluation – ൽ വസ്തുവിന്റെ ആകൃതി കൃത്യമായി നിലനിർത്തുന്നതിൽ 5-ൽ 4.80 മാർക്ക് നേടാൻ 3DreamBooth-ന് സാധിച്ചു. നിലവിലുള്ള മറ്റ് സംവിധാനങ്ങളേക്കാൾ ഏറെ മുന്നിലാണിത്. Hunyuan Video, WanVideo 2.1 തുടങ്ങിയ പ്രമുഖ എഐ മോഡലുകളിൽ ഈ ടെക്നോളജി വിജയകരമായി പരീക്ഷിച്ചു കഴിഞ്ഞു.

3DreamBooth

High-fidelity 3D subject-driven video generation that treats subjects as 3D entities, not 2D. Enables multiview-consistent video generation through 1-frame spatial optimization with 3D priors. pic.twitter.com/m6fOideMWc
— DailyPapers (@HuggingPapers) March 20, 2026