This site is not complete. The work to converting the volumes of സര്വ്വവിജ്ഞാനകോശം is on progress. Please bear with us
Please contact webmastersiep@yahoo.com for any queries regarding this website.
Reading Problems? see Enabling Malayalam
ഡേറ്റാ ഖനനം
സര്വ്വവിജ്ഞാനകോശം സംരംഭത്തില് നിന്ന്
ഡേറ്റാ ഖനനം
Data mining
വിപുലമായ ഡേറ്റാബേസുകളില് സംഭരിപ്പിക്കപ്പെട്ടിരിക്കുന്ന ഡേറ്റയില് പ്രത്യേകതരം സോഫ് റ്റ് വെയര് സങ്കേതങ്ങളുപയോഗിച്ചു സൂക്ഷ്മപരിശോധന നടത്തി അന്തര്ലീനമായിരിക്കുന്ന വസ്തുതകളും പ്രവണതകളും കണ്ടെത്തുന്ന സംവിധാനം. സാംഖ്യിക ശാസ്ത്രം, ഡേറ്റാബേസ്, പാറ്റേണ് റെക്കഗ്നിഷന്, ആര്ട്ടിഫിഷല് ഇന്റലിജെന്സ്, വിഭാവനം (visualization), അനുകൂലതമത (optimization), സമാന്തര ഗണനം (parallel computing) തുടങ്ങിയ വിഭിന്ന സരണികള് പ്രയുക്തമാക്കുന്ന സംവിധാനമാണ് ഡേറ്റാ ഖനനം. ഡേറ്റാ സംഭരണ സംവിധാനം എന്നതിലുപരി ഒരു ഡിസിഷന് സപ്പോര്ട്ട് സിസ്റ്റം (ഡിഎസ്എസ്) എന്ന നിലയിലേക്ക് ഡേറ്റാബേസുകള് വളര്ച്ച പ്രാപിച്ചത് ഡേറ്റാ വെയര്ഹൌസുകളുടെ വ്യാപനത്തിനു വഴിയൊരുക്കി.
ബാങ്കിങ്, ടെലികമ്യൂണിക്കേഷന്, മാര്ക്കറ്റിങ് മുതലായ രംഗങ്ങളിലെ ക്രമക്കേടുകള് കണ്ടെത്തുക, ബൃഹത്തായ വിജ്ഞാനീയ ഡേറ്റാബേസുകളെ വിശകലനം ചെയ്ത് അവയിലെ ഘടക പ്രാചലങ്ങളെ (parameters) ക്രോഡീകരിക്കുക (ജ്യോതിര്ഗോള സര്വേ, ചാന്ദ്രഗര്ത്തങ്ങളെ സൂചിപ്പിക്കല്, റിമോട്ട് സെന്സിങ് ഡേറ്റയില് നിന്ന് അന്തരീക്ഷ പ്രക്രിയകളെ സംബന്ധിച്ച ഡേറ്റ വേര്തിരിക്കല് മുതലായവ ഇതിന് ഉദാഹരണങ്ങളാണ്), നിര്മിതി (costruction), വൈദ്യശാസ്ത്രം, നെറ്റ്വര്ക്കിങ് തുടങ്ങിയ മേഖലകളിലെ പ്രശ്ന നിര്ധാരണം (problem diagnosis) നടത്തുക എന്നിങ്ങനെ വ്യത്യസ്ത ആവശ്യങ്ങള്ക്ക് ഡേറ്റാ ഖനന രീതികള് പ്രയോജനപ്പെടുത്തിവരുന്നു. ഡേറ്റാ ലഭ്യത വളരെ കൂടിയിരിക്കുമ്പോഴും അവയുടെ ഉദ്ഗമം, കാര്യകാരണബന്ധം തുടങ്ങിയവയെക്കുറിച്ചുള്ള അറിവ് നന്നേ പരിമിതമായ വിജ്ഞാന മേഖലകളിലുമാണ് ഡേറ്റാ ഖനനം കൂടുതല് പ്രയോജനകരമാകുന്നത്. മിക്ക ഡേറ്റാബേസുകളും ഒന്നിലേറെ മണ്ഡലങ്ങളിലെ ഡേറ്റയെ ഉള്ക്കൊണ്ടിരിക്കും. ഏതാനും മണ്ഡലങ്ങളില് മാത്രം വ്യാപിച്ചിട്ടുള്ള ഡേറ്റാബേസിനെ കംപ്യൂട്ടര് പ്രോഗ്രാമര്ക്ക് പ്രശ്നവിചാരണ (query execution), അനുകൂലതമത എന്നീ രീതികളിലൂടെ വിശകലനം ചെയ്ത് സ്വയം പരിശോധിക്കുവാനാകും. പക്ഷേ, ഡേറ്റാ ബേസിലെ ഡേറ്റയുടെ അളവും വ്യാപ്തിയും വര്ധിക്കുന്തോറും ഇത്തരത്തിലുള്ള ഡേറ്റാ വിശകലനം ശ്രമകരമാകും. ഉദാഹരണത്തിന് ഡേറ്റാബേസിലെ ഓരോ റെക്കാഡിലും ആയിരക്കണക്കിനു ഫീല്ഡുകള് ഉള്ള ഒരു ഡേറ്റാബേസില് നിന്ന് ഒരു നിശ്ചിത വിവരം ലഭ്യമാക്കാനുള്ള ക്വറി തയ്യാറാക്കുക എളുപ്പമല്ല. 'ടാര്ജെറ്റ് സെറ്റിനെ' പറ്റിയുള്ള പൂര്ണ വിവരം എസ് ക്യൂഎല് ഭാഷയിലൂടെ നല്കുക എളുപ്പവുമല്ല; ഡിഎസ്എസില് നിന്ന് ഉപയോക്താവിന് ആവശ്യമുള്ള വസ്തുതകളെ എസ് ക്യൂഎല് വഴി നിര്വചിക്കാനും കഴിയില്ല.
ഡേറ്റയുടെ അളവ് കുറയ്ക്കാന് സഹായിക്കുന്ന ഡേറ്റാ റിഡ ക്ഷന്, ഡേറ്റാ വിഭാവനം എന്നിവയാണ് ഡേറ്റാ ഖനനത്തിലെ അടിസ്ഥാന പ്രക്രിയകള്. ഏറെ മണ്ഡലങ്ങളിലേക്കു വ്യാപിച്ചിട്ടുള്ള ഒരു ഡേറ്റാബേസില് നിന്ന് അനുയോജ്യങ്ങളായ ഏതാനും മാനങ്ങള് മാത്രം തിരഞ്ഞെടുത്ത് 'ഡൈമെന്ഷനാലിറ്റി റിഡക്ഷന്' നടത്താവുന്നതാണ്. പക്ഷേ, മാനങ്ങള് വര്ധിക്കുന്തോറും ഡൈമെന്ഷനാലിറ്റി റിഡക്ഷന് രീതികളുടെ എണ്ണവും ക്രമാതീതമായി വര്ധിക്കുന്നു.
ഡേറ്റ വിശകലനം ചെയ്യുന്ന വ്യക്തിക്ക് ഇത്തരത്തിലുള്ള അസംഖ്യം ഉപഗണങ്ങളില് നിന്ന് അനുയോജ്യമായ ഒരെണ്ണം തിര ഞ്ഞെടുക്കാന് കഴിഞ്ഞെന്നുവരില്ല. മാത്രവുമല്ല, സുപ്രധാനങ്ങളായ ഡേറ്റ ഉള്ക്കൊള്ളുന്ന മാനങ്ങള് തിരഞ്ഞെടുത്ത ഉപഗണത്തില് ഉള്പ്പെടാതെ പോകാം. അല്ഗോരിഥങ്ങളിലൂടെ ഡേറ്റയെ വിശകലനം ചെയ്ത് അവയിലെ മാതൃകകള് കണ്ടെത്തുകയാണ് ഇതിനു പരിഹാരം. അസംഖ്യം മാനങ്ങള് ഉള്ള ഡേറ്റാബേസില് നിന്ന് 'ക്ളസ്റ്ററിങ് അല്ഗോരിഥം'വഴി പ്രധാനപ്പെട്ട മാനങ്ങള് മാത്രം ഉള് പ്പെട്ട ഉപഗണങ്ങള് എളുപ്പത്തില് കണ്ടെത്താനാകും. I. ഡേറ്റാ ഖനന രീതികള്. ഇവ പ്രധാനമായി അഞ്ച് തരത്തിലുണ്ട്.
1. പ്രവചനാത്മക (predictive) മോഡലിങ്. ഡേറ്റാബേസി ലെ ഏതാനും ചില ഫീല്ഡുകളിലെ ഡേറ്റയെ അവലംബിച്ച് ഇതര ഫീല്ഡുകളിലെ ഡേറ്റ എന്തായിരിക്കുമെന്നു പ്രവചിക്കുന്ന രീതിയാണിത്. നിഗമനം നടത്താന് സ്വീകരിക്കുന്ന ഫീല്ഡുകളാണ് 'ഇന്പുട്ട്'; ഇവയെ ലീനിയര് റിഗ്രഷന്, നോണ് ലീനിയര് ട്രാന്സ്ഫര്മേഷന് എന്നീ പ്രക്രിയകള്ക്കു വിധേയമാക്കിയാണ് പൊതു വേ പ്രവചനാത്മക മോഡലിങ് നടത്തുന്നത്.
2. ഡേറ്റാ സെഗ് മെന്റേഷന് അഥവാ ഡേറ്റാ ക്ളസ്റ്ററിങ്. ഡേറ്റാബേസിലെ അംഗങ്ങളെ (elements)സമാന ഉപഗണങ്ങളായി വിഭജിക്കുന്ന രീതിയാണിത്. ഇതിനായി രണ്ടു ഘട്ടങ്ങളിലായുള്ള ഡേറ്റാ വിചയനം (ഡേറ്റാ സേര്ച്ച്) നടത്തുന്നു. ആദ്യ വിചയനത്തില് എത്ര ക്ളസ്റ്ററുകള് ആവശ്യമുണ്ടെന്നും രണ്ടാമത്തേതില്, കണ്ടെത്തിയ ക്ളസ്റ്ററുകളില് ഏറ്റവും അനുയോജ്യമായവ ഏതെന്നും വ്യക്തമാകുന്നു. ഈ വിചയന പ്രക്രിയയെ മെട്രിക്-ഡിസ്റ്റന്സ് ബേസ്ഡ്, മോഡല് ബേസ്ഡ്, പാര്ട്ടിഷന് ബേസ്ഡ്, എന്നീ മൂന്നിനങ്ങളായി വര്ഗീകരിക്കാം.
3. ഡേറ്റാ സംഗ്രഹണം (data summarization). ഡേറ്റാബേസിലെ വിവരങ്ങളെ സംക്ഷിപ്ത രൂപത്തില് ക്രമീകരിക്കാനുള്ള സംവിധാനമാണിത്. ഉപഗണങ്ങളുടെ പൊതു സ്വഭാവവിശേഷ ങ്ങള്, ഡേറ്റാബേസിലെ അംഗങ്ങളുടെ പൊതു സ്വഭാവം തുടങ്ങി യവ ഈ രീതിയിലൂടെ നിര്ണയിക്കാനാകും.
4. ഡിപെന്ഡന്സി മോഡലിങ്. എലിമെന്റുകളുടെ പരസ്പര ബന്ധം അടിസ്ഥാനമാക്കി ഡേറ്റയുടെ പൊതു സ്വഭാവം കണ്ടെത്തി അനുയോജ്യമായ ഡേറ്റാ മോഡല് തയ്യാറാക്കുന്ന പരി പാടിയാണിത്.
5. ചെയ്ഞ്ച്, ഡീവിയേഷന് ഡിറ്റക്ഷന് (change, deviation detection). ഡേറ്റാ എലിമെന്റുകള്ക്കിടയില് ഏതെങ്കിലും ശ്രേണീബന്ധം കണ്ടെത്താനാകുമോ എന്നു പരിശോധിക്കുന്ന രീതിയാണിത്;ജീനോം മാപ്പിങ്ങിലെ പ്രോട്ടീന് സീക്വന്സിങ് ഉദാഹരണം. നിരീക്ഷണങ്ങള് നടത്തുന്ന ക്രമത്തിനും ഈ സംവിധാനത്തില് പ്രാധാന്യം കല്പിക്കാറുണ്ട്. ഇന്റര്നെറ്റ് സൈറ്റിലെ ഏതെല്ലാം വെബ്പേജുകള് ഏതു ക്രമത്തില് ഉപയോക്താക്കള് നോക്കുന്നു എന്നു നിരീക്ഷിച്ച് വെബ്സൈറ്റിന്റെ പ്രയോജനത്തെ വിലയിരുത്താന് ഈ ഡേറ്റാ ഖനന രീതി ഉപയുക്തമാക്കാം.
II. സമകാലിക പ്രശ്നങ്ങള്. ഡേറ്റാ വിശകലനം സൂക്ഷ്മമായി നടത്താനുള്ള പ്രയാസങ്ങള്, ഡേറ്റാബേസ് സംവിധാന ത്തിന്റെ അഭൂതപൂര്വമായ വളര്ച്ച, ഖനന രീതികള് യന്ത്രവത്ക്കരി ക്കുന്നതിനുള്ള ബുദ്ധിമുട്ടുകള് മുതലായവ ഡേറ്റാ ഖനനം അഭി മുഖീകരിക്കുന്ന സങ്കീര്ണ പ്രശ്നങ്ങളാണ്. പരിമിതമായ 'മെയിന് മെമ്മറി', ഇന്ഡക് സിങ് സംവിധാനങ്ങളുടെ ദക്ഷതക്കുറവ്, ഖനന രീതികളുമായി പൊരുത്തപ്പെട്ടു പോകുന്ന സാംപ്ളിങ് രീതികളുടെ അഭാവം, ഡേറ്റാ സംഗൃഹത്തെ സംബന്ധിച്ച വിവരണം നല്കുന്നതില് വരുന്ന പോരായ്മകള് തുടങ്ങിയവ ബൃഹത്തായ ഡേറ്റാബേസുകളില് അനുയോജ്യമായ ഖനന അല്ഗോരിഥം ക്രമീകരിക്കുന്നതിനു വിഘാതം സൃഷ്ടിക്കുന്നു. പൊതുവേ സ്ഥിതിക സംഭാവ്യതയുടെ സാന്ദ്രതയെ അടിസ്ഥാനമാക്കിയാണ് സാംപ്ളിങ് രീതികള് തിരഞ്ഞെടുക്കുന്നത്. എന്നാല് ഡേറ്റയുടെ അളവ് വര്ധിച്ചു കൊണ്ടിരിക്കുന്ന ഡേറ്റാബേസുകള്ക്ക് ഈ രീതി അനുയോജ്യമല്ല. ഡേറ്റാബേസിലെ ഡേറ്റാ വര്ധനയുടെ തോത്, സ്വഭാവം തുടങ്ങിവയെ സംബന്ധിച്ച സമഗ്രമായ പഠനം നിര്വഹിച്ച ശേഷം മാത്രമേ സാര്വത്രിക പ്രയോഗക്ഷമതയുള്ള ഡേറ്റാ ഖനന രീതികളുടെ ആവിഷ്കാരം സാധ്യമാവുകയുള്ളൂ.