AI വീഡിയോകൾക്ക് ഇനി ‘ബുദ്ധിപരീക്ഷ’; എന്താണ് ഈ പുതിയ MIND സിസ്റ്റം?


ഇന്ന് സോഷ്യൽ മീഡിയയിൽ നമ്മൾ കാണുന്ന പല എഐ വീഡിയോകളും ആദ്യകാഴ്ചയിൽ അത്ഭുതപ്പെടുത്തുന്നവയാണ്. എന്നാൽ സൂക്ഷിച്ചു നോക്കിയാൽ അവയിൽ ചില വിചിത്രമായ കാര്യങ്ങൾ ശ്രദ്ധിക്കപ്പെടാറുണ്ട്. ഉദാഹരണത്തിന്, ഒരാൾ നടന്നുപോകുമ്പോൾ പെട്ടെന്ന് അയാളുടെ ഷർട്ടിന്റെ നിറം മാറുന്നു, അല്ലെങ്കിൽ പശ്ചാത്തലത്തിലുള്ള ഒരു മരം പെട്ടെന്ന് അപ്രത്യക്ഷമാകുന്നു. എഐക്ക് മനുഷ്യരെപ്പോലെ കാര്യങ്ങൾ ‘ഓർത്തെടുക്കാൻ’ (Long-term Memory) കഴിയാത്തതുകൊണ്ടാണ് ഇത്തരം അപാകതകൾ സംഭവിക്കുന്നത്.

ഇത്തരം പിഴവുകൾ പരിഹരിക്കാനും, എഐ മോഡലുകൾക്ക് യഥാർത്ഥ ലോകത്തെക്കുറിച്ച് എത്രത്തോളം ധാരണയുണ്ടെന്ന് അളക്കാനുമായി അവതരിപ്പിക്കപ്പെട്ട പുതിയ പരീക്ഷാ രീതിയാണ് MIND (Mind-World Model Benchmark).

എന്താണ് ഈ പരീക്ഷയിലൂടെ ലക്ഷ്യമിടുന്നത്?

ലളിതമായി പറഞ്ഞാൽ, ഒരു വീഡിയോ ഉണ്ടാക്കുമ്പോൾ അതിൽ ‘ലോജിക്’ ഉണ്ടോ എന്ന് പരിശോധിക്കുകയാണ് MIND ചെയ്യുന്നത്. പ്രധാനമായും നാല് രീതിയിലാണ് ഈ ബുദ്ധിപരീക്ഷ നടക്കുന്നത്:

ഓർമ്മയുണ്ടോ ഈ മുഖം?” (സ്ഥിരത പരിശോധന)

ഒരു സിനിമയിൽ നായകൻ ഒരു മുറിയിലേക്ക് കയറുന്നു എന്ന് വിചാരിക്കുക. മുറിയിൽ കയറുമ്പോൾ അവിടെ കണ്ട അതേ കസേരയും മേശയും ജനലുമെല്ലാം വീഡിയോയുടെ അവസാനം വരെ മാറ്റമില്ലാതെ അവിടെത്തന്നെ ഉണ്ടാകണം.

  • പ്രശ്നം: പഴയ എഐ മോഡലുകൾ ഓരോ ഫ്രെയിമും പ്രത്യേകം നിർമ്മിക്കുന്നതുകൊണ്ട്, ചിലപ്പോൾ കസേരയുടെ കാലുകൾ അപ്രത്യക്ഷമാവുകയോ മേശയുടെ ആകൃതി മാറിക്കൊണ്ടിരിക്കുകയോ ചെയ്യും.
  • MIND പരീക്ഷ: ഒരു വസ്തുവിനെ വീഡിയോയുടെ തുടക്കത്തിൽ എങ്ങനെ കാണിച്ചോ, അത് അവസാനം വരെ ഒരേപോലെ നിലനിർത്താൻ എഐക്ക് കഴിയുന്നുണ്ടോ എന്ന് ഇത് അളക്കുന്നു.

പറയുന്നത് പോലെ ചെയ്യണം” (Action കൃത്യത)

നമ്മൾ ഒരു എഐയോട് “ആ മേശപ്പുറത്തിരിക്കുന്ന കപ്പിലെ വെള്ളം കുടിക്കൂ” എന്ന് നിർദ്ദേശം നൽകുന്നു എന്ന് കരുതുക.

  • പരീക്ഷ: എഐ ആ കപ്പ് കൃത്യമായി കൈകൊണ്ട് എടുക്കുന്നുണ്ടോ? അത് വായോട് അടുപ്പിക്കുന്നുണ്ടോ? ഈ ഓരോ ചലനവും (Action) നമ്മൾ നൽകിയ നിർദ്ദേശത്തിന് അനുസരിച്ചാണോ നടക്കുന്നത് എന്ന് ഈ സിസ്റ്റം പരിശോധിക്കും. വെറുതെ ഒരു വീഡിയോ ഉണ്ടാക്കിയാൽ പോരാ, അതിൽ നമ്മൾ ഉദ്ദേശിച്ച കാര്യം കൃത്യമായി നടന്നിരിക്കണം.

കാണുന്ന രീതിയിലുള്ള മാറ്റം (വിവിധ കാഴ്ചപ്പാടുകൾ)

ഒരേ കാര്യം തന്നെ വ്യത്യസ്ത വശങ്ങളിൽ നിന്ന് നോക്കുമ്പോൾ എങ്ങനെയിരിക്കും എന്ന് എഐക്ക് അറിയാമോ എന്നാണ് ഇവിടെ നോക്കുന്നത്.

  • ഒന്നാമത്തെ രീതി (First-person): നമ്മൾ ഒരു ഹെൽമറ്റ് ക്യാമറ വെച്ച് നടക്കുമ്പോൾ കാണുന്ന രീതിയിലുള്ള കാഴ്ചകൾ.
  • രണ്ടാമത്തെ രീതി (Third-person): നമ്മൾ ഒരാൾ നടന്നു പോകുന്നത് ദൂരെ നിന്ന് നോക്കി കാണുന്ന രീതി. ഈ രണ്ട് രീതിയിലും വീഡിയോകൾ ഒരേപോലെ സ്വാഭാവികമാണോ എന്നും, കാഴ്ചക്കാരൻ മാറുമ്പോൾ ദൃശ്യങ്ങളിൽ വരുന്ന മാറ്റങ്ങൾ എഐ ശരിയായി മനസ്സിലാക്കുന്നുണ്ടോ എന്നും MIND പരിശോധിക്കും.

എവിടെയൊക്കെയാണ് ഈ പരീക്ഷ നടക്കുന്നത്?

യഥാർത്ഥ ലോകത്തെ അനുകരിക്കുന്ന എട്ട് വ്യത്യസ്ത സാഹചര്യങ്ങളിലാണ് ഈ പരീക്ഷകൾ നടക്കുന്നത്. വീടിനുള്ളിൽ, ഇടതൂർന്ന കാട്ടിൽ, തിരക്കുള്ള നഗരവീഥിയിൽ എന്നിങ്ങനെ പലയിടത്തും എഐയെ പരീക്ഷിക്കും. ഇതിനായി അത്യാധുനിക ഗെയിമുകളിൽ ഉപയോഗിക്കുന്ന Unreal Engine 5 എന്ന സാങ്കേതികവിദ്യയാണ് പരീക്ഷണ വീഡിയോകൾ നിർമ്മിക്കാൻ ഉപയോഗിച്ചിരിക്കുന്നത്.


ഇത് എന്തിന് വേണ്ടിയാണ്?

ഇതുവരെ എഐ വീഡിയോകൾ വെറുതെ കാണാൻ ഭംഗിയുണ്ടോ എന്ന് മാത്രമാണ് നമ്മൾ നോക്കിയിരുന്നത്. എന്നാൽ ഇനി മുതൽ അവയ്ക്ക് സ്വന്തമായി ഒരു ‘വേൾഡ് മോഡൽ’ (World Model) ഉണ്ടോ എന്ന് ഈ സിസ്റ്റം പരിശോധിക്കും. അതായത്, താഴെ വീണാൽ ഗ്ലാസ് പൊട്ടും എന്നോ, ഒരാൾ തിരിഞ്ഞു നിന്നാൽ അയാളുടെ മുഖം കാണില്ല എന്നോ ഉള്ള ‘ലോക നിയമങ്ങൾ’ എഐ മനസ്സിലാക്കുന്നുണ്ടോ എന്ന് ഉറപ്പുവരുത്തുകയാണ് ഇതിന്റെ ലക്ഷ്യം.

ഈ പരീക്ഷയിൽ വിജയിക്കുന്ന എഐ മോഡലുകൾക്ക് ഭാവിയിൽ സിനിമകളോ, വിഡിയോ ഗെയിമുകളോ, പരിശീലന വീഡിയോകളോ ഒക്കെ യാതൊരു തെറ്റുമില്ലാതെ നിർമ്മിക്കാൻ സാധിക്കും.