സര്‍വ്വവിജ്ഞാനകോശം സംരംഭത്തില്‍ നിന്ന്

നാച്വറല്‍ ലാങ്ഗ്വേജ് പ്രോസസിങ്

Natural Language Processing

സംസാര ഭാഷകളിലുള്ള പാഠം, നിര്‍ദേശം മുതലായവ മനസ്സിലാക്കാനും വിശ്ളേഷണം ചെയ്യാനും പ്രാപ്തിയുള്ളതും അത്തരം ഭാഷകളില്‍ വിശകലന നിര്‍ദേശങ്ങള്‍ നല്കാന്‍ ശേഷിയുള്ളതുമായ കംപ്യൂട്ടര്‍ സംവിധാനം. എന്‍.എല്‍.പി. എന്ന് ചുരുക്കപ്പേര്. കീബോര്‍ഡ് വഴിയും ടെക്സ്റ്റ്/സംസാരം എന്നിവയിലൂടെയും ഇത്തരം കംപ്യൂട്ടറിലേക്ക് നിര്‍ദേശം നല്കാം. ഭാഷ, തര്‍ജമ, നിര്‍ദേശത്തിന്റെ വിശേഷാര്‍ഥം ഗ്രഹിക്കുക, ഇന്‍പുട്ട് ഡേറ്റയുപയോഗിച്ച് ഡേറ്റാബേസ് തയ്യാറാക്കുക തുടങ്ങിയവ ഇവയിലൂടെ നിര്‍വഹിക്കാനാവും; ആവശ്യമെങ്കില്‍ ഉപയോക്താവുമായി വിവരശേഖരണാര്‍ഥം ഉപയോക്താവിന്റെ ഭാഷയില്‍ 'സംവാദം' നടത്താനും എന്‍.എല്‍.പിയിലൂടെ സാധ്യമാകും.

സംസാരഭാഷയിലൂടെ ലഭിക്കുന്ന നിര്‍ദേശങ്ങള്‍ മനസ്സിലാക്കുന്നതിന് പ്രധാനമായി അഞ്ചു തരത്തിലുള്ള തടസ്സങ്ങളുണ്ട്. ഒന്ന്, വാക്കുകളുടെ അടിസ്ഥാന ക്ലിഷ്ടത. ഉദാഹരണമായി ഇംഗ്ളീഷിലെ ഡക്ക് (duck) എന്ന വാക്ക് നാമമായിട്ടുപയോഗിച്ചാല്‍ താറാവ് എന്നര്‍ഥം വരുമ്പോള്‍ ക്രിയയായിട്ടുപയോഗിക്കുമ്പോള്‍ ഒഴിഞ്ഞുമാറുക എന്നര്‍ഥമാണ് ലഭിക്കുക. രണ്ട്, വാക്യങ്ങളുടെ ഘടനാപരമായ ക്ളിഷ്ടത. ' I saw the man with a telescope' എന്നതിന് ദൂരദര്‍ശിനിയിലൂടെ വ്യക്തിയെ കണ്ടു എന്നും ദൂരദര്‍ശിനി കൈവശമുള്ള വ്യക്തിയെ കണ്ടു എന്നും അര്‍ഥം വരാം. മൂന്ന്, അര്‍ഥപരമായ ക്ലിഷ്ടത. ഉദാഹരണമായി പോവുക (go) എന്ന വാക്കിന് പത്തിലേറെ അര്‍ഥങ്ങള്‍ സാധാരണ ഉപയോഗത്തില്‍ത്തന്നെ ലഭിക്കാറുണ്ട്. നാല്, വാചകത്തിലെ ഉദ്ദേശ്യക്ലിഷ്ടത. 'താങ്കള്‍ക്ക് ആ കസേര എടുത്തുയര്‍ത്താമോ?' എന്ന വാക്യം പറ്റും/പറ്റില്ല എന്ന മറുപടി പ്രതീക്ഷിക്കുന്ന ഒരു ചോദ്യമാവാം; മറിച്ച് കസേര എടുത്തുയര്‍ത്താനുള്ള ഒരപേക്ഷയുമാകാം. അഞ്ച്, ഒരു വാക്യത്തിലെ പദം/പദങ്ങള്‍ എന്തിനെ സൂചിപ്പിക്കുന്നു എന്ന വസ്തുതയില്‍ വരുന്ന ക്ലിഷ്ടത. ഉദാഹരണമായി 'ജാക്ക് സ്മിത്തിനെ സ്റ്റേഷനില്‍ വച്ച് കണ്ടുമുട്ടി. അദ്ദേഹത്തിന് നല്ല സുഖമില്ലായിരുന്നു' എന്ന വാക്യത്തില്‍ 'അദ്ദേഹത്തിന്' എന്ന പദം ജാക്കിനെയാണോ സ്മിത്തിനെയാണോ സൂചിപ്പിക്കുന്നതെന്ന് പ്രഥമദൃഷ്ട്യാ വ്യക്തമല്ല. എന്നാല്‍ തുടര്‍ന്നു വരുന്ന വാക്യങ്ങള്‍ ഈ ക്ളിഷ്ടതയ്ക്ക് പരിഹാരമാകാം. മേല്പറഞ്ഞ അഞ്ചുതരം ക്ലിഷ്ടതയും ഒരേ വാക്യത്തില്‍ത്തന്നെ വരാം. ഇത് എന്‍.എല്‍.പിക്ക് വാക്യത്തിന്റെ അര്‍ഥം ഗ്രഹിക്കാന്‍ കൂടുതല്‍ സങ്കീര്‍ണത സൃഷ്ടിക്കുന്നു. പ്രകൃതിദത്ത ഭാഷയുടെ അവിഭാജ്യഘടകംതന്നെയാണിത്തരം ക്ലിഷ്ടതകള്‍. പക്ഷേ, കംപ്യൂട്ടറിലെ ലോജിക് പ്രോഗ്രാമിങ് ഭാഷകള്‍ക്ക് ഈ ന്യൂനത ഇല്ല. തന്മൂലം ലോജിക് പ്രോഗ്രാമിങ് ഭാഷകളെ അടിസ്ഥാനമാക്കി നിര്‍വചിക്കപ്പെട്ട അപഗ്രഥനരീതികള്‍ പ്രകൃതിദത്തഭാഷകളെ വിശകലനം ചെയ്യുമ്പോള്‍ ഉപയോഗിക്കപ്പെടുത്താനാവില്ല.

1. നാച്വറല്‍ ലാങ്ഗ്വേജ് ഡേറ്റാബേസ് ക്വറി രീതികള്‍. ഡേറ്റാബേസുകളുടെ ഫ്രന്‍ഡ് എന്‍ഡുകളാണ് (front end) ഇന്നത്തെ എന്‍.എല്‍.പി.കളില്‍ പരമാവധി കഴിവുള്ളവ. ഡേറ്റാബേസിനെ അടിസ്ഥാനമാക്കി ഉപയോക്താവ് ചോദിക്കുന്ന മിക്ക ചോദ്യങ്ങള്‍ക്കും ഇവയ്ക്ക് ഉത്തരം നല്‍കാനാവും. ഇത്തരത്തില്‍ സംവിധാനം ചെയ്യപ്പെട്ട ആദ്യത്തെ എന്‍.എല്‍.പി. ആണ് ലൂണാര്‍ (Lunar). ഓഗ്മെന്റഡ് ട്രാന്‍സിഷന്‍ നെറ്റ്വര്‍ക് (ATN) ഗ്രാമര്‍ എന്ന ഗ്രാഫിക്കല്‍ സംസൂചകരീതിയാണിതിന്റെ അടിസ്ഥാന ഘടകം. സന്ദര്‍ഭ സ്വതന്ത്രമായ (context free) ഒരു വ്യാകരണ സംവിധാനമാണ് എ.ടി.എന്‍. വ്യാകരണം. സന്ദര്‍ഭ സ്വതന്ത്ര പാഴ്സിങ് (parsing) അല്‍ഗോരിഥങ്ങളുടെയത്ര ദക്ഷത നല്കുന്നതോടൊപ്പം പ്രകൃതിദത്ത ഭാഷയിലെ സന്ദര്‍ഭാനുചിത അര്‍ഥം ഗ്രഹിക്കാനും എ.ടി.എന്‍-കള്‍ക്കാവും. എ.ടി.എന്‍. അടിസ്ഥാനമാക്കി തയ്യാറാക്കപ്പെട്ട ഒരു എന്‍.എല്‍.പി. ഡേറ്റാബേസ് ക്വറി സംവിധാനത്തിന്റെ ബ്ളോക്ക് ചിത്രം ചുവടെ ചേര്‍ക്കുന്നു (ചിത്രം 1)

പ്രകൃതിദത്ത ഭാഷകളുടെ പാഴ്സിങ്ങിനും വ്യാകരണത്തിനും വിശകലനത്തിനും കാര്യമായ സംഭാവനകള്‍ നല്‍കാനായ മറ്റൊരു സംവിധാനമാണ് പ്രൊലോഗ് ലാങ്ഗ്വേജിനെ അടിസ്ഥാനമാക്കി നിര്‍വചിക്കപ്പെട്ട ഡി.സി.ജി. അഥവാ 'ഡെഫിനിറ്റ് ക്ലോസ് ഗ്രാമര്‍'. ഈ മേഖലകളില്‍ ഇന്നും പുതിയ രീതികള്‍ക്കായി ഗവേഷണങ്ങള്‍ നടക്കുന്നുമുണ്ട്.

വാക്യങ്ങളുടെ ഘടനാപരമായ വിശകലനത്തിന് ഒന്നിലധികം സംവിധാനങ്ങള്‍ ലഭ്യമാണെങ്കിലും അവയുടെ അര്‍ഥതലവിശകലനരീതിക്കുള്ള സാങ്കേതികവിദ്യകള്‍ ഇന്നും തുലോം പരിമിതമാണ്. പാഴ്സറുടെ ഔട്ട്പുട്ടിനെ ഒരു വിജ്ഞാനപ്രതീകവത്കരണ(knowledge representation)സംവിധാനത്തിലൂടെ പരിഭാഷപ്പെടുത്തുക മാത്രമാണ് മിക്ക അര്‍ഥതലവിശകലന സിസ്റ്റങ്ങളുടെയും ധര്‍മം. ഇതിനുപയോഗിക്കുന്ന 'സെമാന്റിക് ഇന്റര്‍പ്രട്ടറുകളെ' പ്രധാനമായി രണ്ടു വിഭാഗത്തില്‍ ഉള്‍പ്പെടുത്താം. ഒന്ന്, പാഴ്സറുടെ ഔട്ട്പുട്ടിനെ തോന്നിയമട്ടില്‍ പരിവര്‍ത്തനം ചെയ്യുന്ന നോണ്‍കോംപൊസിഷണല്‍ (noncompositional) രീതി; മറ്റൊന്ന് പാഴ്സറുടെ ഔട്ട്പുട്ട് ഘടനയ്ക്കനുസൃതമായി നിശ്ചിത നിയമങ്ങള്‍ പാലിച്ചുകൊണ്ട് പാഴ്സര്‍ ഔട്ട്പുട്ടിനെ പരിവര്‍ത്തനം ചെയ്യുന്ന കോംപൊസിഷണല്‍ (compositional) രീതി.

2. ടെക്സ്റ്റ് ഭാഗങ്ങള്‍ ഗ്രഹിക്കാനുള്ള സജ്ജീകരണങ്ങള്‍. ചോദ്യോത്തരസംവിധാനം പ്രയോജനപ്പെടുത്തി ദീര്‍ഘമായ ടെക്സ്റ്റ് ഭാഗം മനസ്സിലാക്കാനാവില്ല. പത്രം, ഗവേഷണ പ്രബന്ധം, പുസ്തകം, ആനുകാലിക പ്രസിദ്ധീകരണം എന്നിവയില്‍ക്കാണുന്ന ടെക്സ്റ്റ് ഗ്രഹിക്കാന്‍ വാക്യാര്‍ഥഘടനാപരമായ അറിവിനോടൊപ്പം കാര്യനിര്‍വഹണശേഷി, പൊതുവിജ്ഞാനം എന്നിവയിലും പ്രാവീണ്യം ആവശ്യമാണ്. അവകൂടി ഉണ്ടെങ്കിലേ ടെക്സ്റ്റിലെ വാക്യങ്ങള്‍ തമ്മിലുള്ള പരസ്പരബന്ധം മനസ്സിലാക്കാനാകൂ. ഉദാഹരണമായി 'താക്കോല്‍ കൈമോശം വന്നതിനാല്‍ ജാക്കിന് ജോലിസ്ഥലത്തേക്കു വണ്ടി ഓടിച്ചുപോകാനായില്ല' എന്ന വാക്യത്തിന്റെ പൂര്‍ണ അര്‍ഥവ്യാപ്തി എന്‍.എല്‍.പി.ക്ക് മനസ്സിലാവണമെങ്കില്‍, ജോലിസ്ഥലത്തേക്ക് കാര്‍ ഓടിച്ചുപോകണമെങ്കില്‍ കാര്‍ സ്റ്റാര്‍ട്ട് ചെയ്യണം, കാര്‍ സ്റ്റാര്‍ട്ട് ചെയ്യാന്‍ താക്കോല്‍ ആവശ്യമുണ്ട് എന്നീ കാര്യങ്ങളെക്കുറിച്ച് സിസ്റ്റത്തിന് ബോധ്യം വരണം. ഇത്തരം വസ്തുതകളെ അടിസ്ഥാനമാക്കിയേ എന്‍.എല്‍.പിക്ക് എന്തുകൊണ്ട് ജാക്കിന് ജോലിസ്ഥലത്തേക്കു വണ്ടി ഓടിച്ചുപോകാനായില്ല എന്ന് മനസ്സിലാക്കാനാവൂ. തന്മൂലം എന്‍.എല്‍.പിക്ക് സഹായകമായി പൊതുവിജ്ഞാനം എങ്ങനെ പ്രതീകവത്കരിക്കാം എന്നതിനെക്കുറിച്ച് ധാരാളം പഠനങ്ങള്‍ നടന്നുവരുന്നുണ്ട്. റോജര്‍ ഷാങ്കും അദ്ദേഹത്തിന്റെ വിദ്യാര്‍ഥികളും ഈ മേഖലയില്‍ ധാരാളം സംഭാവനകള്‍ നല്കിയിട്ടുണ്ട്. ഭക്ഷണശാലയില്‍ പോയി ഭക്ഷണം കഴിക്കുക, പൊതു ഗതാഗതസംവിധാനം ഉപയോഗിക്കുക തുടങ്ങിയ പൊതു ആവശ്യങ്ങളെ അടിസ്ഥാനമാക്കിയുള്ള വിവര പ്രതീകവത്കരണം വഴി പൊതുവിജ്ഞാന ഡേറ്റാബേസുകള്‍ അവര്‍ സജ്ജീകരിച്ചിട്ടുണ്ട്. നിര്‍ദിഷ്ട വസ്തുതകളെ ഫ്രെയിമുകളിലൂടെ നിര്‍വചിച്ച് അവയുടെ അടിസ്ഥാനത്തില്‍ വിവര പ്രതീകവത്കരണം നടത്തുന്ന മറ്റൊരു രീതിയാണ് ജി.യു.എസ്. (GUS) സിസ്റ്റം. ഉപകരണങ്ങളുടെ പ്രവര്‍ത്തനരാഹിത്യത്തിന്റെ കാരണം കണ്ടെത്തുക, ഒരു വസ്തുതയെ അടിസ്ഥാനമാക്കിയുള്ള പ്രധാന സവിശേഷതകള്‍ കണ്ടെത്തുക എന്നിവയ്ക്ക് ഇത്തരം ക്രമീകരണങ്ങള്‍ ഉപയോഗപ്രദമാണ്.

നാച്വറല്‍ ലാങ്ഗ്വേജ് പ്രോസസിങ്

സര്‍വ്വവിജ്ഞാനകോശം സംരംഭത്തില്‍ നിന്ന്

നാച്വറല്‍ ലാങ്ഗ്വേജ് പ്രോസസിങ്

താളിന്റെ അനുബന്ധങ്ങള്‍

സ്വകാര്യതാളുകള്‍

ഉള്ളടക്കം

തിരയൂ

പണിസഞ്ചി