Current revision as of 09:25, 9 ജൂണ്‍ 2008

ഡേറ്റാ ഖനനം

Data mining

വിപുലമായ ഡേറ്റാബേസുകളില്‍ സംഭരിപ്പിക്കപ്പെട്ടിരിക്കുന്ന ഡേറ്റയില്‍ പ്രത്യേകതരം സോഫ് റ്റ് വെയര്‍ സങ്കേതങ്ങളുപയോഗിച്ചു സൂക്ഷ്മപരിശോധന നടത്തി അന്തര്‍ലീനമായിരിക്കുന്ന വസ്തുതകളും പ്രവണതകളും കണ്ടെത്തുന്ന സംവിധാനം. സാംഖ്യിക ശാസ്ത്രം, ഡേറ്റാബേസ്, പാറ്റേണ്‍ റെക്കഗ്നിഷന്‍, ആര്‍ട്ടിഫിഷല്‍ ഇന്റലിജെന്‍സ്, വിഭാവനം (visualization), അനുകൂലതമത (optimization), സമാന്തര ഗണനം (parallel computing) തുടങ്ങിയ വിഭിന്ന സരണികള്‍ പ്രയുക്തമാക്കുന്ന സംവിധാനമാണ് ഡേറ്റാ ഖനനം. ഡേറ്റാ സംഭരണ സംവിധാനം എന്നതിലുപരി ഒരു ഡിസിഷന്‍ സപ്പോര്‍ട്ട് സിസ്റ്റം (ഡിഎസ്എസ്) എന്ന നിലയിലേക്ക് ഡേറ്റാബേസുകള്‍ വളര്‍ച്ച പ്രാപിച്ചത് ഡേറ്റാ വെയര്‍ഹൌസുകളുടെ വ്യാപനത്തിനു വഴിയൊരുക്കി.

ബാങ്കിങ്, ടെലികമ്യൂണിക്കേഷന്‍, മാര്‍ക്കറ്റിങ് മുതലായ രംഗങ്ങളിലെ ക്രമക്കേടുകള്‍ കണ്ടെത്തുക, ബൃഹത്തായ വിജ്ഞാനീയ ഡേറ്റാബേസുകളെ വിശകലനം ചെയ്ത് അവയിലെ ഘടക പ്രാചലങ്ങളെ (parameters) ക്രോഡീകരിക്കുക (ജ്യോതിര്‍ഗോള സര്‍വേ, ചാന്ദ്രഗര്‍ത്തങ്ങളെ സൂചിപ്പിക്കല്‍, റിമോട്ട് സെന്‍സിങ് ഡേറ്റയില്‍ നിന്ന് അന്തരീക്ഷ പ്രക്രിയകളെ സംബന്ധിച്ച ഡേറ്റ വേര്‍തിരിക്കല്‍ മുതലായവ ഇതിന് ഉദാഹരണങ്ങളാണ്), നിര്‍മിതി (costruction), വൈദ്യശാസ്ത്രം, നെറ്റ്വര്‍ക്കിങ് തുടങ്ങിയ മേഖലകളിലെ പ്രശ്ന നിര്‍ധാരണം (problem diagnosis) നടത്തുക എന്നിങ്ങനെ വ്യത്യസ്ത ആവശ്യങ്ങള്‍ക്ക് ഡേറ്റാ ഖനന രീതികള്‍ പ്രയോജനപ്പെടുത്തിവരുന്നു. ഡേറ്റാ ലഭ്യത വളരെ കൂടിയിരിക്കുമ്പോഴും അവയുടെ ഉദ്ഗമം, കാര്യകാരണബന്ധം തുടങ്ങിയവയെക്കുറിച്ചുള്ള അറിവ് നന്നേ പരിമിതമായ വിജ്ഞാന മേഖലകളിലുമാണ് ഡേറ്റാ ഖനനം കൂടുതല്‍ പ്രയോജനകരമാകുന്നത്. മിക്ക ഡേറ്റാബേസുകളും ഒന്നിലേറെ മണ്ഡലങ്ങളിലെ ഡേറ്റയെ ഉള്‍ക്കൊണ്ടിരിക്കും. ഏതാനും മണ്ഡലങ്ങളില്‍ മാത്രം വ്യാപിച്ചിട്ടുള്ള ഡേറ്റാബേസിനെ കംപ്യൂട്ടര്‍ പ്രോഗ്രാമര്‍ക്ക് പ്രശ്നവിചാരണ (query execution), അനുകൂലതമത എന്നീ രീതികളിലൂടെ വിശകലനം ചെയ്ത് സ്വയം പരിശോധിക്കുവാനാകും. പക്ഷേ, ഡേറ്റാ ബേസിലെ ഡേറ്റയുടെ അളവും വ്യാപ്തിയും വര്‍ധിക്കുന്തോറും ഇത്തരത്തിലുള്ള ഡേറ്റാ വിശകലനം ശ്രമകരമാകും. ഉദാഹരണത്തിന് ഡേറ്റാബേസിലെ ഓരോ റെക്കാഡിലും ആയിരക്കണക്കിനു ഫീല്‍ഡുകള്‍ ഉള്ള ഒരു ഡേറ്റാബേസില്‍ നിന്ന് ഒരു നിശ്ചിത വിവരം ലഭ്യമാക്കാനുള്ള ക്വറി തയ്യാറാക്കുക എളുപ്പമല്ല. 'ടാര്‍ജെറ്റ് സെറ്റിനെ' പറ്റിയുള്ള പൂര്‍ണ വിവരം എസ് ക്യൂഎല്‍ ഭാഷയിലൂടെ നല്കുക എളുപ്പവുമല്ല; ഡിഎസ്എസില്‍ നിന്ന് ഉപയോക്താവിന് ആവശ്യമുള്ള വസ്തുതകളെ എസ് ക്യൂഎല്‍ വഴി നിര്‍വചിക്കാനും കഴിയില്ല.

ഡേറ്റയുടെ അളവ് കുറയ്ക്കാന്‍ സഹായിക്കുന്ന ഡേറ്റാ റിഡ ക്ഷന്‍, ഡേറ്റാ വിഭാവനം എന്നിവയാണ് ഡേറ്റാ ഖനനത്തിലെ അടിസ്ഥാന പ്രക്രിയകള്‍. ഏറെ മണ്ഡലങ്ങളിലേക്കു വ്യാപിച്ചിട്ടുള്ള ഒരു ഡേറ്റാബേസില്‍ നിന്ന് അനുയോജ്യങ്ങളായ ഏതാനും മാനങ്ങള്‍ മാത്രം തിരഞ്ഞെടുത്ത് 'ഡൈമെന്‍ഷനാലിറ്റി റിഡക്ഷന്‍' നടത്താവുന്നതാണ്. പക്ഷേ, മാനങ്ങള്‍ വര്‍ധിക്കുന്തോറും ഡൈമെന്‍ഷനാലിറ്റി റിഡക്ഷന്‍ രീതികളുടെ എണ്ണവും ക്രമാതീതമായി വര്‍ധിക്കുന്നു.

ഡേറ്റ വിശകലനം ചെയ്യുന്ന വ്യക്തിക്ക് ഇത്തരത്തിലുള്ള അസംഖ്യം ഉപഗണങ്ങളില്‍ നിന്ന് അനുയോജ്യമായ ഒരെണ്ണം തിര ഞ്ഞെടുക്കാന്‍ കഴിഞ്ഞെന്നുവരില്ല. മാത്രവുമല്ല, സുപ്രധാനങ്ങളായ ഡേറ്റ ഉള്‍ക്കൊള്ളുന്ന മാനങ്ങള്‍ തിരഞ്ഞെടുത്ത ഉപഗണത്തില്‍ ഉള്‍പ്പെടാതെ പോകാം. അല്‍ഗോരിഥങ്ങളിലൂടെ ഡേറ്റയെ വിശകലനം ചെയ്ത് അവയിലെ മാതൃകകള്‍ കണ്ടെത്തുകയാണ് ഇതിനു പരിഹാരം. അസംഖ്യം മാനങ്ങള്‍ ഉള്ള ഡേറ്റാബേസില്‍ നിന്ന് 'ക്ളസ്റ്ററിങ് അല്‍ഗോരിഥം'വഴി പ്രധാനപ്പെട്ട മാനങ്ങള്‍ മാത്രം ഉള്‍ പ്പെട്ട ഉപഗണങ്ങള്‍ എളുപ്പത്തില്‍ കണ്ടെത്താനാകും. ‌ I. ഡേറ്റാ ഖനന രീതികള്‍. ഇവ പ്രധാനമായി അഞ്ച് തരത്തിലുണ്ട്.

1. പ്രവചനാത്മക (predictive) മോഡലിങ്. ഡേറ്റാബേസി ലെ ഏതാനും ചില ഫീല്‍ഡുകളിലെ ഡേറ്റയെ അവലംബിച്ച് ഇതര ഫീല്‍ഡുകളിലെ ഡേറ്റ എന്തായിരിക്കുമെന്നു പ്രവചിക്കുന്ന രീതിയാണിത്. നിഗമനം നടത്താന്‍ സ്വീകരിക്കുന്ന ഫീല്‍ഡുകളാണ് 'ഇന്‍പുട്ട്'; ഇവയെ ലീനിയര്‍ റിഗ്രഷന്‍, നോണ്‍ ലീനിയര്‍ ട്രാന്‍സ്ഫര്‍മേഷന്‍ എന്നീ പ്രക്രിയകള്‍ക്കു വിധേയമാക്കിയാണ് പൊതു വേ പ്രവചനാത്മക മോഡലിങ് നടത്തുന്നത്.

2. ഡേറ്റാ സെഗ് മെന്റേഷന്‍ അഥവാ ഡേറ്റാ ക്ളസ്റ്ററിങ്. ഡേറ്റാബേസിലെ അംഗങ്ങളെ (elements)സമാന ഉപഗണങ്ങളായി വിഭജിക്കുന്ന രീതിയാണിത്. ഇതിനായി രണ്ടു ഘട്ടങ്ങളിലായുള്ള ഡേറ്റാ വിചയനം (ഡേറ്റാ സേര്‍ച്ച്) നടത്തുന്നു. ആദ്യ വിചയനത്തില്‍ എത്ര ക്ളസ്റ്ററുകള്‍ ആവശ്യമുണ്ടെന്നും രണ്ടാമത്തേതില്‍, കണ്ടെത്തിയ ക്ളസ്റ്ററുകളില്‍ ഏറ്റവും അനുയോജ്യമായവ ഏതെന്നും വ്യക്തമാകുന്നു. ഈ വിചയന പ്രക്രിയയെ മെട്രിക്-ഡിസ്റ്റന്‍സ് ബേസ്ഡ്, മോഡല്‍ ബേസ്ഡ്, പാര്‍ട്ടിഷന്‍ ബേസ്ഡ്, എന്നീ മൂന്നിനങ്ങളായി വര്‍ഗീകരിക്കാം.

3. ഡേറ്റാ സംഗ്രഹണം (data summarization). ഡേറ്റാബേസിലെ വിവരങ്ങളെ സംക്ഷിപ്ത രൂപത്തില്‍ ക്രമീകരിക്കാനുള്ള സംവിധാനമാണിത്. ഉപഗണങ്ങളുടെ പൊതു സ്വഭാവവിശേഷ ങ്ങള്‍, ഡേറ്റാബേസിലെ അംഗങ്ങളുടെ പൊതു സ്വഭാവം തുടങ്ങി യവ ഈ രീതിയിലൂടെ നിര്‍ണയിക്കാനാകും.

4. ഡിപെന്‍ഡന്‍സി മോഡലിങ്. എലിമെന്റുകളുടെ പരസ്പര ബന്ധം അടിസ്ഥാനമാക്കി ഡേറ്റയുടെ പൊതു സ്വഭാവം കണ്ടെത്തി അനുയോജ്യമായ ഡേറ്റാ മോഡല്‍ തയ്യാറാക്കുന്ന പരി പാടിയാണിത്.

5. ചെയ്ഞ്ച്, ഡീവിയേഷന്‍ ഡിറ്റക്ഷന്‍ (change, deviation detection). ഡേറ്റാ എലിമെന്റുകള്‍ക്കിടയില്‍ ഏതെങ്കിലും ശ്രേണീബന്ധം കണ്ടെത്താനാകുമോ എന്നു പരിശോധിക്കുന്ന രീതിയാണിത്;ജീനോം മാപ്പിങ്ങിലെ പ്രോട്ടീന്‍ സീക്വന്‍സിങ് ഉദാഹരണം. നിരീക്ഷണങ്ങള്‍ നടത്തുന്ന ക്രമത്തിനും ഈ സംവിധാനത്തില്‍ പ്രാധാന്യം കല്പിക്കാറുണ്ട്. ഇന്റര്‍നെറ്റ് സൈറ്റിലെ ഏതെല്ലാം വെബ്പേജുകള്‍ ഏതു ക്രമത്തില്‍ ഉപയോക്താക്കള്‍ നോക്കുന്നു എന്നു നിരീക്ഷിച്ച് വെബ്സൈറ്റിന്റെ പ്രയോജനത്തെ വിലയിരുത്താന്‍ ഈ ഡേറ്റാ ഖനന രീതി ഉപയുക്തമാക്കാം.

II. സമകാലിക പ്രശ്നങ്ങള്‍. ഡേറ്റാ വിശകലനം സൂക്ഷ്മമായി നടത്താനുള്ള പ്രയാസങ്ങള്‍, ഡേറ്റാബേസ് സംവിധാന ത്തിന്റെ അഭൂതപൂര്‍വമായ വളര്‍ച്ച, ഖനന രീതികള്‍ യന്ത്രവത്ക്കരി ക്കുന്നതിനുള്ള ബുദ്ധിമുട്ടുകള്‍ മുതലായവ ഡേറ്റാ ഖനനം അഭി മുഖീകരിക്കുന്ന സങ്കീര്‍ണ പ്രശ്നങ്ങളാണ്. പരിമിതമായ 'മെയിന്‍ മെമ്മറി', ഇന്‍ഡക് സിങ് സംവിധാനങ്ങളുടെ ദക്ഷതക്കുറവ്, ഖനന രീതികളുമായി പൊരുത്തപ്പെട്ടു പോകുന്ന സാംപ്ളിങ് രീതികളുടെ അഭാവം, ഡേറ്റാ സംഗൃഹത്തെ സംബന്ധിച്ച വിവരണം നല്കുന്നതില്‍ വരുന്ന പോരായ്മകള്‍ തുടങ്ങിയവ ബൃഹത്തായ ഡേറ്റാബേസുകളില്‍ അനുയോജ്യമായ ഖനന അല്‍ഗോരിഥം ക്രമീകരിക്കുന്നതിനു വിഘാതം സൃഷ്ടിക്കുന്നു. പൊതുവേ സ്ഥിതിക സംഭാവ്യതയുടെ സാന്ദ്രതയെ അടിസ്ഥാനമാക്കിയാണ് സാംപ്ളിങ് രീതികള്‍ തിരഞ്ഞെടുക്കുന്നത്. എന്നാല്‍ ഡേറ്റയുടെ അളവ് വര്‍ധിച്ചു കൊണ്ടിരിക്കുന്ന ഡേറ്റാബേസുകള്‍ക്ക് ഈ രീതി അനുയോജ്യമല്ല. ഡേറ്റാബേസിലെ ഡേറ്റാ വര്‍ധനയുടെ തോത്, സ്വഭാവം തുടങ്ങിവയെ സംബന്ധിച്ച സമഗ്രമായ പഠനം നിര്‍വഹിച്ച ശേഷം മാത്രമേ സാര്‍വത്രിക പ്രയോഗക്ഷമതയുള്ള ഡേറ്റാ ഖനന രീതികളുടെ ആവിഷ്കാരം സാധ്യമാവുകയുള്ളൂ.

@@ വരി 1: / വരി 1: @@
 = ഡേറ്റാ ഖനനം  =
+Data mining
-ഉമമേ ാശിശിഴ
+വിപുലമായ ഡേറ്റാബേസുകളില്‍ സംഭരിപ്പിക്കപ്പെട്ടിരിക്കുന്ന ഡേറ്റയില്‍ പ്രത്യേകതരം സോഫ് റ്റ് വെയര്‍ സങ്കേതങ്ങളുപയോഗിച്ചു സൂക്ഷ്മപരിശോധന നടത്തി അന്തര്‍ലീനമായിരിക്കുന്ന വസ്തുതകളും പ്രവണതകളും കണ്ടെത്തുന്ന സംവിധാനം. സാംഖ്യിക ശാസ്ത്രം, ഡേറ്റാബേസ്, പാറ്റേണ്‍ റെക്കഗ്നിഷന്‍, ആര്‍ട്ടിഫിഷല്‍ ഇന്റലിജെന്‍സ്, വിഭാവനം (visualization), അനുകൂലതമത (optimization), സമാന്തര ഗണനം (parallel computing) തുടങ്ങിയ വിഭിന്ന സരണികള്‍ പ്രയുക്തമാക്കുന്ന സംവിധാനമാണ് ഡേറ്റാ ഖനനം. ഡേറ്റാ സംഭരണ സംവിധാനം എന്നതിലുപരി ഒരു ഡിസിഷന്‍ സപ്പോര്‍ട്ട് സിസ്റ്റം (ഡിഎസ്എസ്) എന്ന നിലയിലേക്ക് ഡേറ്റാബേസുകള്‍ വളര്‍ച്ച പ്രാപിച്ചത് ഡേറ്റാ വെയര്‍ഹൌസുകളുടെ വ്യാപനത്തിനു വഴിയൊരുക്കി.
-വിപുലമായ ഡേറ്റാബേസുകളില്‍ സംഭരിപ്പിക്കപ്പെട്ടിരിക്കുന്ന ഡേറ്റയില്‍ പ്രത്യേകതരം സോഫ്റ്റ്വെയര്‍ സങ്കേതങ്ങളുപയോ
+ബാങ്കിങ്, ടെലികമ്യൂണിക്കേഷന്‍, മാര്‍ക്കറ്റിങ് മുതലായ രംഗങ്ങളിലെ ക്രമക്കേടുകള്‍ കണ്ടെത്തുക, ബൃഹത്തായ വിജ്ഞാനീയ ഡേറ്റാബേസുകളെ വിശകലനം ചെയ്ത് അവയിലെ ഘടക പ്രാചലങ്ങളെ (parameters) ക്രോഡീകരിക്കുക (ജ്യോതിര്‍ഗോള സര്‍വേ, ചാന്ദ്രഗര്‍ത്തങ്ങളെ സൂചിപ്പിക്കല്‍, റിമോട്ട് സെന്‍സിങ് ഡേറ്റയില്‍ നിന്ന് അന്തരീക്ഷ പ്രക്രിയകളെ സംബന്ധിച്ച ഡേറ്റ വേര്‍തിരിക്കല്‍ മുതലായവ ഇതിന് ഉദാഹരണങ്ങളാണ്), നിര്‍മിതി (costruction), വൈദ്യശാസ്ത്രം, നെറ്റ്വര്‍ക്കിങ് തുടങ്ങിയ മേഖലകളിലെ പ്രശ്ന നിര്‍ധാരണം (problem diagnosis) നടത്തുക എന്നിങ്ങനെ വ്യത്യസ്ത ആവശ്യങ്ങള്‍ക്ക് ഡേറ്റാ ഖനന രീതികള്‍ പ്രയോജനപ്പെടുത്തിവരുന്നു. ഡേറ്റാ ലഭ്യത വളരെ കൂടിയിരിക്കുമ്പോഴും അവയുടെ ഉദ്ഗമം, കാര്യകാരണബന്ധം തുടങ്ങിയവയെക്കുറിച്ചുള്ള അറിവ് നന്നേ പരിമിതമായ വിജ്ഞാന മേഖലകളിലുമാണ് ഡേറ്റാ ഖനനം കൂടുതല്‍ പ്രയോജനകരമാകുന്നത്. മിക്ക ഡേറ്റാബേസുകളും ഒന്നിലേറെ മണ്ഡലങ്ങളിലെ ഡേറ്റയെ ഉള്‍ക്കൊണ്ടിരിക്കും. ഏതാനും മണ്ഡലങ്ങളില്‍ മാത്രം വ്യാപിച്ചിട്ടുള്ള ഡേറ്റാബേസിനെ കംപ്യൂട്ടര്‍ പ്രോഗ്രാമര്‍ക്ക് പ്രശ്നവിചാരണ (query execution), അനുകൂലതമത എന്നീ രീതികളിലൂടെ വിശകലനം ചെയ്ത് സ്വയം പരിശോധിക്കുവാനാകും. പക്ഷേ, ഡേറ്റാ ബേസിലെ ഡേറ്റയുടെ അളവും വ്യാപ്തിയും വര്‍ധിക്കുന്തോറും ഇത്തരത്തിലുള്ള ഡേറ്റാ വിശകലനം ശ്രമകരമാകും. ഉദാഹരണത്തിന് ഡേറ്റാബേസിലെ ഓരോ റെക്കാഡിലും ആയിരക്കണക്കിനു ഫീല്‍ഡുകള്‍ ഉള്ള ഒരു ഡേറ്റാബേസില്‍ നിന്ന് ഒരു നിശ്ചിത വിവരം ലഭ്യമാക്കാനുള്ള ക്വറി തയ്യാറാക്കുക എളുപ്പമല്ല. 'ടാര്‍ജെറ്റ് സെറ്റിനെ' പറ്റിയുള്ള പൂര്‍ണ വിവരം എസ് ക്യൂഎല്‍ ഭാഷയിലൂടെ നല്കുക എളുപ്പവുമല്ല; ഡിഎസ്എസില്‍ നിന്ന് ഉപയോക്താവിന് ആവശ്യമുള്ള വസ്തുതകളെ എസ് ക്യൂഎല്‍ വഴി നിര്‍വചിക്കാനും കഴിയില്ല.
-ഗിച്ചു സൂക്ഷ്മപരിശോധന നടത്തി അന്തര്‍ലീനമായിരിക്കുന്ന വസ്തുതകളും പ്രവണതകളും കണ്ടെത്തുന്ന സംവിധാനം. സാംഖ്യിക ശാസ്ത്രം, ഡേറ്റാബേസ്, പാറ്റേണ്‍ റെക്കഗ്നിഷന്‍, ആര്‍ട്ടിഫിഷല്‍ ഇന്റലിജെന്‍സ്, വിഭാവനം (്ശൌമഹശ്വമശീിേ), അനുകൂലതമത (ീുശോശ്വമശീിേ), സമാന്തര ഗണനം (ുമൃമഹഹലഹ രീാുൌശിേഴ) തുടങ്ങിയ വിഭിന്ന സരണികള്‍ പ്രയുക്തമാക്കുന്ന സംവിധാനമാണ് ഡേറ്റാ ഖനനം. ഡേറ്റാ സംഭരണ സംവിധാനം എന്നതിലുപരി ഒരു ഡിസിഷന്‍ സപ്പോര്‍ട്ട് സിസ്റ്റം (ഡിഎസ്എസ്) എന്ന നിലയിലേക്ക് ഡേറ്റാബേസുകള്‍ വളര്‍ച്ച പ്രാപിച്ചത് ഡേറ്റാ വെയര്‍ഹൌസുകളുടെ വ്യാപനത്തിനു വഴിയൊരുക്കി.
-ബാങ്കിങ്, ടെലികമ്യൂണിക്കേഷന്‍, മാര്‍ക്കറ്റിങ് മുതലായ രംഗങ്ങളിലെ ക്രമക്കേടുകള്‍ കണ്ടെത്തുക, ബൃഹത്തായ വിജ്ഞാനീയ ഡേറ്റാബേസുകളെ വിശകലനം ചെയ്ത് അവയിലെ ഘടക പ്രാചലങ്ങളെ (ുമൃമാലലൃേ) ക്രോഡീകരിക്കുക (ജ്യോതിര്‍ഗോള സര്‍വേ, ചാന്ദ്രഗര്‍ത്തങ്ങളെ സൂചിപ്പിക്കല്‍, റിമോട്ട് സെന്‍സിങ് ഡേറ്റയില്‍ നിന്ന് അന്തരീക്ഷ പ്രക്രിയകളെ സംബന്ധിച്ച ഡേറ്റ വേര്‍തിരിക്കല്‍ മുതലായവ ഇതിന് ഉദാഹരണങ്ങളാണ്), നിര്‍മിതി (രീിൃൌരശീിേ), വൈദ്യശാസ്ത്രം, നെറ്റ്വര്‍ക്കിങ് തുടങ്ങിയ മേഖലകളിലെ പ്രശ്ന നിര്‍ധാരണം (ുൃീയഹലാ റശമഴിീശെ) നടത്തുക എന്നിങ്ങനെ വ്യത്യസ്ത ആവശ്യങ്ങള്‍ക്ക് ഡേറ്റാ ഖനന രീതികള്‍ പ്രയോജനപ്പെടുത്തിവരുന്നു. ഡേറ്റാ ലഭ്യത വളരെ കൂടിയിരിക്കുമ്പോഴും അവയുടെ ഉദ്ഗമം, കാര്യകാരണബന്ധം തുടങ്ങിയവയെക്കുറിച്ചുള്ള അറിവ് നന്നേ പരിമിതമായ വിജ്ഞാന മേഖലകളിലുമാണ് ഡേറ്റാ ഖനനം കൂടുതല്‍ പ്രയോജനകരമാകുന്നത്. മിക്ക ഡേറ്റാബേസുകളും ഒന്നിലേറെ മണ്ഡലങ്ങളിലെ ഡേറ്റയെ ഉള്‍ക്കൊണ്ടിരിക്കും. ഏതാനും മണ്ഡലങ്ങളില്‍ മാത്രം വ്യാപിച്ചിട്ടുള്ള ഡേറ്റാബേസിനെ കംപ്യൂട്ടര്‍ പ്രോഗ്രാമര്‍ക്ക് പ്രശ്നവിചാരണ (ൂൌല്യൃ ലഃലരൌശീിേ), അനുകൂലതമത എന്നീ രീതികളിലൂടെ വിശകലനം ചെയ്ത് സ്വയം പരിശോധിക്കുവാനാകും. പക്ഷേ, ഡേറ്റാ ബേസിലെ ഡേറ്റയുടെ അളവും വ്യാപ്തിയും വര്‍ധിക്കുന്തോറും ഇത്തരത്തിലുള്ള ഡേറ്റാ വിശകലനം ശ്രമകരമാകും. ഉദാഹരണത്തിന് ഡേറ്റാബേസിലെ ഓരോ റെക്കാഡിലും ആയിരക്കണക്കിനു ഫീല്‍ഡുകള്‍ ഉള്ള ഒരു ഡേറ്റാബേസില്‍ നിന്ന് ഒരു നിശ്ചിത വിവരം ലഭ്യമാക്കാനുള്ള ക്വറി തയ്യാറാക്കുക എളുപ്പമല്ല. 'ടാര്‍ജെറ്റ് സെറ്റിനെ' പറ്റിയുള്ള പൂര്‍ണ വിവരം എസ്ക്യൂഎല്‍ ഭാഷയിലൂടെ നല്കുക എളുപ്പവുമല്ല; ഡിഎസ്എസില്‍ നിന്ന് ഉപയോക്താവിന് ആവശ്യമുള്ള വസ്തുതകളെ എസ്ക്യൂഎല്‍ വഴി നിര്‍വചിക്കാനും കഴിയില്ല.
 ഡേറ്റയുടെ അളവ് കുറയ്ക്കാന്‍ സഹായിക്കുന്ന ഡേറ്റാ റിഡ ക്ഷന്‍, ഡേറ്റാ വിഭാവനം എന്നിവയാണ് ഡേറ്റാ ഖനനത്തിലെ അടിസ്ഥാന പ്രക്രിയകള്‍. ഏറെ മണ്ഡലങ്ങളിലേക്കു വ്യാപിച്ചിട്ടുള്ള ഒരു ഡേറ്റാബേസില്‍ നിന്ന് അനുയോജ്യങ്ങളായ ഏതാനും മാനങ്ങള്‍ മാത്രം തിരഞ്ഞെടുത്ത് 'ഡൈമെന്‍ഷനാലിറ്റി റിഡക്ഷന്‍' നടത്താവുന്നതാണ്. പക്ഷേ, മാനങ്ങള്‍ വര്‍ധിക്കുന്തോറും ഡൈമെന്‍ഷനാലിറ്റി റിഡക്ഷന്‍ രീതികളുടെ എണ്ണവും ക്രമാതീതമായി വര്‍ധിക്കുന്നു.
+ഡേറ്റ വിശകലനം ചെയ്യുന്ന വ്യക്തിക്ക് ഇത്തരത്തിലുള്ള അസംഖ്യം ഉപഗണങ്ങളില്‍ നിന്ന് അനുയോജ്യമായ ഒരെണ്ണം തിര ഞ്ഞെടുക്കാന്‍ കഴിഞ്ഞെന്നുവരില്ല. മാത്രവുമല്ല, സുപ്രധാനങ്ങളായ ഡേറ്റ ഉള്‍ക്കൊള്ളുന്ന മാനങ്ങള്‍ തിരഞ്ഞെടുത്ത ഉപഗണത്തില്‍ ഉള്‍പ്പെടാതെ പോകാം. അല്‍ഗോരിഥങ്ങളിലൂടെ ഡേറ്റയെ വിശകലനം ചെയ്ത് അവയിലെ മാതൃകകള്‍ കണ്ടെത്തുകയാണ് ഇതിനു പരിഹാരം. അസംഖ്യം മാനങ്ങള്‍ ഉള്ള ഡേറ്റാബേസില്‍ നിന്ന് 'ക്ളസ്റ്ററിങ് അല്‍ഗോരിഥം'വഴി പ്രധാനപ്പെട്ട മാനങ്ങള്‍ മാത്രം ഉള്‍ പ്പെട്ട ഉപഗണങ്ങള്‍ എളുപ്പത്തില്‍ കണ്ടെത്താനാകും.
-ഡേറ്റ വിശകലനം ചെയ്യുന്ന വ്യക്തിക്ക് ഇത്തരത്തിലുള്ള അസംഖ്യം ഉപഗണങ്ങളില്‍ നിന്ന് അനുയോജ്യമായ ഒരെണ്ണം തിര ഞ്ഞെടുക്കാന്‍ കഴിഞ്ഞെന്നുവരില്ല. മാത്രവുമല്ല, സുപ്രധാനങ്ങളായ ഡേറ്റ ഉള്‍ക്കൊള്ളുന്ന മാനങ്ങള്‍ തിരഞ്ഞെടുത്ത ഉപഗണത്തില്‍ ഉള്‍പ്പെടാതെ പോകാം. അല്‍ഗോരിഥങ്ങളിലൂടെ ഡേറ്റയെ വിശകലനം ചെയ്ത് അവയിലെ മാതൃകകള്‍ കണ്ടെത്തുകയാണ് ഇതിനു പരിഹാരം. അസംഖ്യം മാനങ്ങള്‍ ഉള്ള ഡേറ്റാബേസില്‍ നിന്ന് 'ക്ളസ്റ്ററിങ് അല്‍ഗോരിഥം'വഴി പ്രധാനപ്പെട്ട മാനങ്ങള്‍ മാത്രം ഉള്‍പ്പെട്ട ഉപഗണങ്ങള്‍ എളുപ്പത്തില്‍ കണ്ടെത്താനാകും.
+‌
+'''I. ഡേറ്റാ ഖനന രീതികള്‍.''' ഇവ പ്രധാനമായി അഞ്ച് തരത്തിലുണ്ട്.
+'''1. പ്രവചനാത്മക (predictive) മോഡലിങ്.''' ഡേറ്റാബേസി ലെ ഏതാനും ചില ഫീല്‍ഡുകളിലെ ഡേറ്റയെ അവലംബിച്ച് ഇതര ഫീല്‍ഡുകളിലെ ഡേറ്റ എന്തായിരിക്കുമെന്നു പ്രവചിക്കുന്ന രീതിയാണിത്. നിഗമനം നടത്താന്‍ സ്വീകരിക്കുന്ന ഫീല്‍ഡുകളാണ് 'ഇന്‍പുട്ട്'; ഇവയെ ലീനിയര്‍ റിഗ്രഷന്‍, നോണ്‍ ലീനിയര്‍ ട്രാന്‍സ്ഫര്‍മേഷന്‍ എന്നീ പ്രക്രിയകള്‍ക്കു വിധേയമാക്കിയാണ് പൊതു വേ പ്രവചനാത്മക മോഡലിങ് നടത്തുന്നത്.
-ക. ഡേറ്റാ ഖനന രീതികള്‍. ഇവ പ്രധാനമായി അഞ്ച് തരത്തിലുണ്ട്.
+'''2. ഡേറ്റാ സെഗ് മെന്റേഷന്‍ അഥവാ ഡേറ്റാ ക്ളസ്റ്ററിങ്.''' ഡേറ്റാബേസിലെ അംഗങ്ങളെ (elements)സമാന ഉപഗണങ്ങളായി വിഭജിക്കുന്ന രീതിയാണിത്. ഇതിനായി രണ്ടു ഘട്ടങ്ങളിലായുള്ള ഡേറ്റാ വിചയനം (ഡേറ്റാ സേര്‍ച്ച്) നടത്തുന്നു. ആദ്യ വിചയനത്തില്‍ എത്ര ക്ളസ്റ്ററുകള്‍ ആവശ്യമുണ്ടെന്നും രണ്ടാമത്തേതില്‍, കണ്ടെത്തിയ ക്ളസ്റ്ററുകളില്‍ ഏറ്റവും അനുയോജ്യമായവ ഏതെന്നും വ്യക്തമാകുന്നു. ഈ വിചയന പ്രക്രിയയെ മെട്രിക്-ഡിസ്റ്റന്‍സ് ബേസ്ഡ്, മോഡല്‍ ബേസ്ഡ്, പാര്‍ട്ടിഷന്‍ ബേസ്ഡ്, എന്നീ മൂന്നിനങ്ങളായി വര്‍ഗീകരിക്കാം.
-. പ്രവചനാത്മക (ുൃലറശരശ്േല) മോഡലിങ്. ഡേറ്റാബേസി ലെ ഏതാനും ചില ഫീല്‍ഡുകളിലെ ഡേറ്റയെ അവലംബിച്ച് ഇതര ഫീല്‍ഡുകളിലെ ഡേറ്റ എന്തായിരിക്കുമെന്നു പ്രവചിക്കുന്ന രീതിയാണിത്. നിഗമനം നടത്താന്‍ സ്വീകരിക്കുന്ന ഫീല്‍ഡുകളാണ് 'ഇന്‍പുട്ട്'; ഇവയെ ലീനിയര്‍ റിഗ്രഷന്‍, നോണ്‍ ലീനിയര്‍ ട്രാന്‍സ്ഫര്‍മേഷന്‍ എന്നീ പ്രക്രിയകള്‍ക്കു വിധേയമാക്കിയാണ് പൊതു വേ പ്രവചനാത്മക മോഡലിങ് നടത്തുന്നത്.
+'''3. ഡേറ്റാ സംഗ്രഹണം (data summarization).''' ഡേറ്റാബേസിലെ വിവരങ്ങളെ സംക്ഷിപ്ത രൂപത്തില്‍ ക്രമീകരിക്കാനുള്ള സംവിധാനമാണിത്. ഉപഗണങ്ങളുടെ പൊതു സ്വഭാവവിശേഷ ങ്ങള്‍, ഡേറ്റാബേസിലെ അംഗങ്ങളുടെ പൊതു സ്വഭാവം തുടങ്ങി യവ ഈ രീതിയിലൂടെ നിര്‍ണയിക്കാനാകും.
-. ഡേറ്റാ സെഗ്മെന്റേഷന്‍ അഥവാ ഡേറ്റാ ക്ളസ്റ്ററിങ്. ഡേറ്റാബേസിലെ അംഗങ്ങളെ (ലഹലാലി)സമാന ഉപഗണങ്ങളായി വിഭജിക്കുന്ന രീതിയാണിത്. ഇതിനായി രണ്ടു ഘട്ടങ്ങളിലായുള്ള ഡേറ്റാ വിചയനം (ഡേറ്റാ സേര്‍ച്ച്) നടത്തുന്നു. ആദ്യ വിചയനത്തില്‍ എത്ര ക്ളസ്റ്ററുകള്‍ ആവശ്യമുണ്ടെന്നും രണ്ടാമത്തേതില്‍, കണ്ടെത്തിയ ക്ളസ്റ്ററുകളില്‍ ഏറ്റവും അനുയോജ്യമായവ ഏതെന്നും വ്യക്തമാകുന്നു. ഈ വിചയന പ്രക്രിയയെ മെട്രിക്-ഡിസ്റ്റന്‍സ് ബേസ്ഡ്, മോഡല്‍ ബേസ്ഡ്, പാര്‍ട്ടിഷന്‍ ബേസ്ഡ്, എന്നീ മൂന്നിനങ്ങളായി വര്‍ഗീകരിക്കാം.
+'''4. ഡിപെന്‍ഡന്‍സി മോഡലിങ്.''' എലിമെന്റുകളുടെ പരസ്പര ബന്ധം അടിസ്ഥാനമാക്കി ഡേറ്റയുടെ പൊതു സ്വഭാവം കണ്ടെത്തി അനുയോജ്യമായ ഡേറ്റാ മോഡല്‍ തയ്യാറാക്കുന്ന പരി പാടിയാണിത്.
-. ഡേറ്റാ സംഗ്രഹണം (റമമേ ൌാാമൃശ്വമശീിേ). ഡേറ്റാബേസിലെ വിവരങ്ങളെ സംക്ഷിപ്ത രൂപത്തില്‍ ക്രമീകരിക്കാനുള്ള സംവിധാനമാണിത്. ഉപഗണങ്ങളുടെ പൊതു സ്വഭാവവിശേഷ ങ്ങള്‍, ഡേറ്റാബേസിലെ അംഗങ്ങളുടെ പൊതു സ്വഭാവം തുടങ്ങി യവ ഈ രീതിയിലൂടെ നിര്‍ണയിക്കാനാകും.
-. ഡിപെന്‍ഡന്‍സി മോഡലിങ്. എലിമെന്റുകളുടെ പരസ്പര ബന്ധം അടിസ്ഥാനമാക്കി ഡേറ്റയുടെ പൊതു സ്വഭാവം കണ്ടെത്തി അനുയോജ്യമായ ഡേറ്റാ മോഡല്‍ തയ്യാറാക്കുന്ന പരി പാടിയാണിത്.
-. ചെയ്ഞ്ച്, ഡീവിയേഷന്‍ ഡിറ്റക്ഷന്‍ (രവമിഴല, റല്ശമശീിേ റലലേരശീിേ). ഡേറ്റാ എലിമെന്റുകള്‍ക്കിടയില്‍ ഏതെങ്കിലും ശ്രേണീബന്ധം കണ്ടെത്താനാകുമോ എന്നു പരിശോധിക്കുന്ന രീതിയാണിത്;ജീനോം മാപ്പിങ്ങിലെ പ്രോട്ടീന്‍ സീക്വന്‍സിങ് ഉദാഹരണം. നിരീക്ഷണങ്ങള്‍ നടത്തുന്ന ക്രമത്തിനും ഈ സംവിധാനത്തില്‍ പ്രാധാന്യം കല്പിക്കാറുണ്ട്. ഇന്റര്‍നെറ്റ് സൈറ്റിലെ ഏതെല്ലാം വെബ്പേജുകള്‍ ഏതു ക്രമത്തില്‍ ഉപയോക്താക്കള്‍ നോക്കുന്നു എന്നു നിരീക്ഷിച്ച് വെബ്സൈറ്റിന്റെ പ്രയോജനത്തെ വിലയിരുത്താന്‍ ഈ ഡേറ്റാ ഖനന രീതി ഉപയുക്തമാക്കാം.
+'''5. ചെയ്ഞ്ച്, ഡീവിയേഷന്‍ ഡിറ്റക്ഷന്‍ (change, deviation detection).''' ഡേറ്റാ എലിമെന്റുകള്‍ക്കിടയില്‍ ഏതെങ്കിലും ശ്രേണീബന്ധം കണ്ടെത്താനാകുമോ എന്നു പരിശോധിക്കുന്ന രീതിയാണിത്;ജീനോം മാപ്പിങ്ങിലെ പ്രോട്ടീന്‍ സീക്വന്‍സിങ് ഉദാഹരണം. നിരീക്ഷണങ്ങള്‍ നടത്തുന്ന ക്രമത്തിനും ഈ സംവിധാനത്തില്‍ പ്രാധാന്യം കല്പിക്കാറുണ്ട്. ഇന്റര്‍നെറ്റ് സൈറ്റിലെ ഏതെല്ലാം വെബ്പേജുകള്‍ ഏതു ക്രമത്തില്‍ ഉപയോക്താക്കള്‍ നോക്കുന്നു എന്നു നിരീക്ഷിച്ച് വെബ്സൈറ്റിന്റെ പ്രയോജനത്തെ വിലയിരുത്താന്‍ ഈ ഡേറ്റാ ഖനന രീതി ഉപയുക്തമാക്കാം.
+'''II. സമകാലിക പ്രശ്നങ്ങള്‍'''. ഡേറ്റാ വിശകലനം സൂക്ഷ്മമായി നടത്താനുള്ള പ്രയാസങ്ങള്‍, ഡേറ്റാബേസ് സംവിധാന ത്തിന്റെ അഭൂതപൂര്‍വമായ വളര്‍ച്ച, ഖനന രീതികള്‍ യന്ത്രവത്ക്കരി ക്കുന്നതിനുള്ള ബുദ്ധിമുട്ടുകള്‍ മുതലായവ ഡേറ്റാ ഖനനം അഭി മുഖീകരിക്കുന്ന സങ്കീര്‍ണ പ്രശ്നങ്ങളാണ്. പരിമിതമായ 'മെയിന്‍ മെമ്മറി', ഇന്‍ഡക് സിങ് സംവിധാനങ്ങളുടെ ദക്ഷതക്കുറവ്, ഖനന രീതികളുമായി പൊരുത്തപ്പെട്ടു പോകുന്ന സാംപ്ളിങ് രീതികളുടെ അഭാവം, ഡേറ്റാ സംഗൃഹത്തെ സംബന്ധിച്ച വിവരണം നല്കുന്നതില്‍ വരുന്ന പോരായ്മകള്‍ തുടങ്ങിയവ ബൃഹത്തായ ഡേറ്റാബേസുകളില്‍ അനുയോജ്യമായ ഖനന അല്‍ഗോരിഥം ക്രമീകരിക്കുന്നതിനു വിഘാതം സൃഷ്ടിക്കുന്നു. പൊതുവേ സ്ഥിതിക സംഭാവ്യതയുടെ സാന്ദ്രതയെ അടിസ്ഥാനമാക്കിയാണ് സാംപ്ളിങ് രീതികള്‍ തിരഞ്ഞെടുക്കുന്നത്. എന്നാല്‍ ഡേറ്റയുടെ അളവ് വര്‍ധിച്ചു കൊണ്ടിരിക്കുന്ന ഡേറ്റാബേസുകള്‍ക്ക് ഈ രീതി അനുയോജ്യമല്ല. ഡേറ്റാബേസിലെ ഡേറ്റാ വര്‍ധനയുടെ തോത്, സ്വഭാവം തുടങ്ങിവയെ സംബന്ധിച്ച സമഗ്രമായ പഠനം നിര്‍വഹിച്ച ശേഷം മാത്രമേ സാര്‍വത്രിക പ്രയോഗക്ഷമതയുള്ള ഡേറ്റാ ഖനന രീതികളുടെ ആവിഷ്കാരം സാധ്യമാവുകയുള്ളൂ.
-കക. സമകാലിക പ്രശ്നങ്ങള്‍. ഡേറ്റാ വിശകലനം സൂക്ഷ്മമായി നടത്താനുള്ള പ്രയാസങ്ങള്‍, ഡേറ്റാബേസ് സംവിധാന ത്തിന്റെ അഭൂതപൂര്‍വമായ വളര്‍ച്ച, ഖനന രീതികള്‍ യന്ത്രവത്ക്കരി ക്കുന്നതിനുള്ള ബുദ്ധിമുട്ടുകള്‍ മുതലായവ ഡേറ്റാ ഖനനം അഭി മുഖീകരിക്കുന്ന സങ്കീര്‍ണ പ്രശ്നങ്ങളാണ്. പരിമിതമായ 'മെയിന്‍ മെമ്മറി', ഇന്‍ഡക്സിങ് സംവിധാനങ്ങളുടെ ദക്ഷതക്കുറവ്, ഖനന രീതികളുമായി പൊരുത്തപ്പെട്ടു പോകുന്ന സാംപ്ളിങ് രീതികളുടെ അഭാവം, ഡേറ്റാ സംഗൃഹത്തെ സംബന്ധിച്ച വിവരണം നല്കുന്നതില്‍ വരുന്ന പോരായ്മകള്‍ തുടങ്ങിയവ ബൃഹത്തായ ഡേറ്റാബേസുകളില്‍ അനുയോജ്യമായ ഖനന അല്‍ഗോരിഥം ക്രമീകരിക്കുന്നതിനു വിഘാതം സൃഷ്ടിക്കുന്നു. പൊതുവേ സ്ഥിതിക സംഭാവ്യതയുടെ സാന്ദ്രതയെ അടിസ്ഥാനമാക്കിയാണ് സാംപ്ളിങ് രീതികള്‍ തിരഞ്ഞെടുക്കുന്നത്. എന്നാല്‍ ഡേറ്റയുടെ അളവ് വര്‍ധിച്ചു കൊണ്ടിരിക്കുന്ന ഡേറ്റാബേസുകള്‍ക്ക് ഈ രീതി അനുയോജ്യമല്ല. ഡേറ്റാബേസിലെ ഡേറ്റാ വര്‍ധനയുടെ തോത്, സ്വഭാവം തുടങ്ങിവയെ സംബന്ധിച്ച സമഗ്രമായ പഠനം നിര്‍വഹിച്ച ശേഷം മാത്രമേ സാര്‍വത്രിക പ്രയോഗക്ഷമതയുള്ള ഡേറ്റാ ഖനന രീതികളുടെ ആവിഷ്കാരം സാധ്യമാവുകയുള്ളൂ.

ഡേറ്റാ ഖനനം

സര്‍വ്വവിജ്ഞാനകോശം സംരംഭത്തില്‍ നിന്ന്

Current revision as of 09:25, 9 ജൂണ്‍ 2008

ഡേറ്റാ ഖനനം

താളിന്റെ അനുബന്ധങ്ങള്‍

സ്വകാര്യതാളുകള്‍

ഉള്ളടക്കം

തിരയൂ

പണിസഞ്ചി