This site is not complete. The work to converting the volumes of സര്‍വ്വവിജ്ഞാനകോശം is on progress. Please bear with us
Please contact webmastersiep@yahoo.com for any queries regarding this website.

Reading Problems? see Enabling Malayalam

ഡേറ്റാ ഖനനം

സര്‍വ്വവിജ്ഞാനകോശം സംരംഭത്തില്‍ നിന്ന്

08:46, 24 മേയ് 2008-നു ഉണ്ടായിരുന്ന രൂപം സൃഷ്ടിച്ചത്:- Technoworld (സംവാദം | സംഭാവനകള്‍)

ഡേറ്റാ ഖനനം

ഉമമേ ാശിശിഴ


വിപുലമായ ഡേറ്റാബേസുകളില്‍ സംഭരിപ്പിക്കപ്പെട്ടിരിക്കുന്ന ഡേറ്റയില്‍ പ്രത്യേകതരം സോഫ്റ്റ്വെയര്‍ സങ്കേതങ്ങളുപയോ

ഗിച്ചു സൂക്ഷ്മപരിശോധന നടത്തി അന്തര്‍ലീനമായിരിക്കുന്ന വസ്തുതകളും പ്രവണതകളും കണ്ടെത്തുന്ന സംവിധാനം. സാംഖ്യിക ശാസ്ത്രം, ഡേറ്റാബേസ്, പാറ്റേണ്‍ റെക്കഗ്നിഷന്‍, ആര്‍ട്ടിഫിഷല്‍ ഇന്റലിജെന്‍സ്, വിഭാവനം (്ശൌമഹശ്വമശീിേ), അനുകൂലതമത (ീുശോശ്വമശീിേ), സമാന്തര ഗണനം (ുമൃമഹഹലഹ രീാുൌശിേഴ) തുടങ്ങിയ വിഭിന്ന സരണികള്‍ പ്രയുക്തമാക്കുന്ന സംവിധാനമാണ് ഡേറ്റാ ഖനനം. ഡേറ്റാ സംഭരണ സംവിധാനം എന്നതിലുപരി ഒരു ഡിസിഷന്‍ സപ്പോര്‍ട്ട് സിസ്റ്റം (ഡിഎസ്എസ്) എന്ന നിലയിലേക്ക് ഡേറ്റാബേസുകള്‍ വളര്‍ച്ച പ്രാപിച്ചത് ഡേറ്റാ വെയര്‍ഹൌസുകളുടെ വ്യാപനത്തിനു വഴിയൊരുക്കി.


ബാങ്കിങ്, ടെലികമ്യൂണിക്കേഷന്‍, മാര്‍ക്കറ്റിങ് മുതലായ രംഗങ്ങളിലെ ക്രമക്കേടുകള്‍ കണ്ടെത്തുക, ബൃഹത്തായ വിജ്ഞാനീയ ഡേറ്റാബേസുകളെ വിശകലനം ചെയ്ത് അവയിലെ ഘടക പ്രാചലങ്ങളെ (ുമൃമാലലൃേ) ക്രോഡീകരിക്കുക (ജ്യോതിര്‍ഗോള സര്‍വേ, ചാന്ദ്രഗര്‍ത്തങ്ങളെ സൂചിപ്പിക്കല്‍, റിമോട്ട് സെന്‍സിങ് ഡേറ്റയില്‍ നിന്ന് അന്തരീക്ഷ പ്രക്രിയകളെ സംബന്ധിച്ച ഡേറ്റ വേര്‍തിരിക്കല്‍ മുതലായവ ഇതിന് ഉദാഹരണങ്ങളാണ്), നിര്‍മിതി (രീിൃൌരശീിേ), വൈദ്യശാസ്ത്രം, നെറ്റ്വര്‍ക്കിങ് തുടങ്ങിയ മേഖലകളിലെ പ്രശ്ന നിര്‍ധാരണം (ുൃീയഹലാ റശമഴിീശെ) നടത്തുക എന്നിങ്ങനെ വ്യത്യസ്ത ആവശ്യങ്ങള്‍ക്ക് ഡേറ്റാ ഖനന രീതികള്‍ പ്രയോജനപ്പെടുത്തിവരുന്നു. ഡേറ്റാ ലഭ്യത വളരെ കൂടിയിരിക്കുമ്പോഴും അവയുടെ ഉദ്ഗമം, കാര്യകാരണബന്ധം തുടങ്ങിയവയെക്കുറിച്ചുള്ള അറിവ് നന്നേ പരിമിതമായ വിജ്ഞാന മേഖലകളിലുമാണ് ഡേറ്റാ ഖനനം കൂടുതല്‍ പ്രയോജനകരമാകുന്നത്. മിക്ക ഡേറ്റാബേസുകളും ഒന്നിലേറെ മണ്ഡലങ്ങളിലെ ഡേറ്റയെ ഉള്‍ക്കൊണ്ടിരിക്കും. ഏതാനും മണ്ഡലങ്ങളില്‍ മാത്രം വ്യാപിച്ചിട്ടുള്ള ഡേറ്റാബേസിനെ കംപ്യൂട്ടര്‍ പ്രോഗ്രാമര്‍ക്ക് പ്രശ്നവിചാരണ (ൂൌല്യൃ ലഃലരൌശീിേ), അനുകൂലതമത എന്നീ രീതികളിലൂടെ വിശകലനം ചെയ്ത് സ്വയം പരിശോധിക്കുവാനാകും. പക്ഷേ, ഡേറ്റാ ബേസിലെ ഡേറ്റയുടെ അളവും വ്യാപ്തിയും വര്‍ധിക്കുന്തോറും ഇത്തരത്തിലുള്ള ഡേറ്റാ വിശകലനം ശ്രമകരമാകും. ഉദാഹരണത്തിന് ഡേറ്റാബേസിലെ ഓരോ റെക്കാഡിലും ആയിരക്കണക്കിനു ഫീല്‍ഡുകള്‍ ഉള്ള ഒരു ഡേറ്റാബേസില്‍ നിന്ന് ഒരു നിശ്ചിത വിവരം ലഭ്യമാക്കാനുള്ള ക്വറി തയ്യാറാക്കുക എളുപ്പമല്ല. 'ടാര്‍ജെറ്റ് സെറ്റിനെ' പറ്റിയുള്ള പൂര്‍ണ വിവരം എസ്ക്യൂഎല്‍ ഭാഷയിലൂടെ നല്കുക എളുപ്പവുമല്ല; ഡിഎസ്എസില്‍ നിന്ന് ഉപയോക്താവിന് ആവശ്യമുള്ള വസ്തുതകളെ എസ്ക്യൂഎല്‍ വഴി നിര്‍വചിക്കാനും കഴിയില്ല.


ഡേറ്റയുടെ അളവ് കുറയ്ക്കാന്‍ സഹായിക്കുന്ന ഡേറ്റാ റിഡ ക്ഷന്‍, ഡേറ്റാ വിഭാവനം എന്നിവയാണ് ഡേറ്റാ ഖനനത്തിലെ അടിസ്ഥാന പ്രക്രിയകള്‍. ഏറെ മണ്ഡലങ്ങളിലേക്കു വ്യാപിച്ചിട്ടുള്ള ഒരു ഡേറ്റാബേസില്‍ നിന്ന് അനുയോജ്യങ്ങളായ ഏതാനും മാനങ്ങള്‍ മാത്രം തിരഞ്ഞെടുത്ത് 'ഡൈമെന്‍ഷനാലിറ്റി റിഡക്ഷന്‍' നടത്താവുന്നതാണ്. പക്ഷേ, മാനങ്ങള്‍ വര്‍ധിക്കുന്തോറും ഡൈമെന്‍ഷനാലിറ്റി റിഡക്ഷന്‍ രീതികളുടെ എണ്ണവും ക്രമാതീതമായി വര്‍ധിക്കുന്നു.


ഡേറ്റ വിശകലനം ചെയ്യുന്ന വ്യക്തിക്ക് ഇത്തരത്തിലുള്ള അസംഖ്യം ഉപഗണങ്ങളില്‍ നിന്ന് അനുയോജ്യമായ ഒരെണ്ണം തിര ഞ്ഞെടുക്കാന്‍ കഴിഞ്ഞെന്നുവരില്ല. മാത്രവുമല്ല, സുപ്രധാനങ്ങളായ ഡേറ്റ ഉള്‍ക്കൊള്ളുന്ന മാനങ്ങള്‍ തിരഞ്ഞെടുത്ത ഉപഗണത്തില്‍ ഉള്‍പ്പെടാതെ പോകാം. അല്‍ഗോരിഥങ്ങളിലൂടെ ഡേറ്റയെ വിശകലനം ചെയ്ത് അവയിലെ മാതൃകകള്‍ കണ്ടെത്തുകയാണ് ഇതിനു പരിഹാരം. അസംഖ്യം മാനങ്ങള്‍ ഉള്ള ഡേറ്റാബേസില്‍ നിന്ന് 'ക്ളസ്റ്ററിങ് അല്‍ഗോരിഥം'’വഴി പ്രധാനപ്പെട്ട മാനങ്ങള്‍ മാത്രം ഉള്‍പ്പെട്ട ഉപഗണങ്ങള്‍ എളുപ്പത്തില്‍ കണ്ടെത്താനാകും.


ക. ഡേറ്റാ ഖനന രീതികള്‍. ഇവ പ്രധാനമായി അഞ്ച് തരത്തിലുണ്ട്.


1. പ്രവചനാത്മക (ുൃലറശരശ്േല) മോഡലിങ്. ഡേറ്റാബേസി ലെ ഏതാനും ചില ഫീല്‍ഡുകളിലെ ഡേറ്റയെ അവലംബിച്ച് ഇതര ഫീല്‍ഡുകളിലെ ഡേറ്റ എന്തായിരിക്കുമെന്നു പ്രവചിക്കുന്ന രീതിയാണിത്. നിഗമനം നടത്താന്‍ സ്വീകരിക്കുന്ന ഫീല്‍ഡുകളാണ് 'ഇന്‍പുട്ട്'; ഇവയെ ലീനിയര്‍ റിഗ്രഷന്‍, നോണ്‍ ലീനിയര്‍ ട്രാന്‍സ്ഫര്‍മേഷന്‍ എന്നീ പ്രക്രിയകള്‍ക്കു വിധേയമാക്കിയാണ് പൊതു വേ പ്രവചനാത്മക മോഡലിങ് നടത്തുന്നത്.


2. ഡേറ്റാ സെഗ്മെന്റേഷന്‍ അഥവാ ഡേറ്റാ ക്ളസ്റ്ററിങ്. ഡേറ്റാബേസിലെ അംഗങ്ങളെ (ലഹലാലി)സമാന ഉപഗണങ്ങളായി വിഭജിക്കുന്ന രീതിയാണിത്. ഇതിനായി രണ്ടു ഘട്ടങ്ങളിലായുള്ള ഡേറ്റാ വിചയനം (ഡേറ്റാ സേര്‍ച്ച്) നടത്തുന്നു. ആദ്യ വിചയനത്തില്‍ എത്ര ക്ളസ്റ്ററുകള്‍ ആവശ്യമുണ്ടെന്നും രണ്ടാമത്തേതില്‍, കണ്ടെത്തിയ ക്ളസ്റ്ററുകളില്‍ ഏറ്റവും അനുയോജ്യമായവ ഏതെന്നും വ്യക്തമാകുന്നു. ഈ വിചയന പ്രക്രിയയെ മെട്രിക്-ഡിസ്റ്റന്‍സ് ബേസ്ഡ്, മോഡല്‍ ബേസ്ഡ്, പാര്‍ട്ടിഷന്‍ ബേസ്ഡ്, എന്നീ മൂന്നിനങ്ങളായി വര്‍ഗീകരിക്കാം.


3. ഡേറ്റാ സംഗ്രഹണം (റമമേ ൌാാമൃശ്വമശീിേ). ഡേറ്റാബേസിലെ വിവരങ്ങളെ സംക്ഷിപ്ത രൂപത്തില്‍ ക്രമീകരിക്കാനുള്ള സംവിധാനമാണിത്. ഉപഗണങ്ങളുടെ പൊതു സ്വഭാവവിശേഷ ങ്ങള്‍, ഡേറ്റാബേസിലെ അംഗങ്ങളുടെ പൊതു സ്വഭാവം തുടങ്ങി യവ ഈ രീതിയിലൂടെ നിര്‍ണയിക്കാനാകും.


4. ഡിപെന്‍ഡന്‍സി മോഡലിങ്. എലിമെന്റുകളുടെ പരസ്പര ബന്ധം അടിസ്ഥാനമാക്കി ഡേറ്റയുടെ പൊതു സ്വഭാവം കണ്ടെത്തി അനുയോജ്യമായ ഡേറ്റാ മോഡല്‍ തയ്യാറാക്കുന്ന പരി പാടിയാണിത്.


5. ചെയ്ഞ്ച്, ഡീവിയേഷന്‍ ഡിറ്റക്ഷന്‍ (രവമിഴല, റല്ശമശീിേ റലലേരശീിേ). ഡേറ്റാ എലിമെന്റുകള്‍ക്കിടയില്‍ ഏതെങ്കിലും ശ്രേണീബന്ധം കണ്ടെത്താനാകുമോ എന്നു പരിശോധിക്കുന്ന രീതിയാണിത്;‘ജീനോം മാപ്പിങ്ങിലെ പ്രോട്ടീന്‍ സീക്വന്‍സിങ് ഉദാഹരണം. നിരീക്ഷണങ്ങള്‍ നടത്തുന്ന ക്രമത്തിനും ഈ സംവിധാനത്തില്‍ പ്രാധാന്യം കല്പിക്കാറുണ്ട്. ഇന്റര്‍നെറ്റ് സൈറ്റിലെ ഏതെല്ലാം വെബ്പേജുകള്‍ ഏതു ക്രമത്തില്‍ ഉപയോക്താക്കള്‍ നോക്കുന്നു എന്നു നിരീക്ഷിച്ച് വെബ്സൈറ്റിന്റെ പ്രയോജനത്തെ വിലയിരുത്താന്‍ ഈ ഡേറ്റാ ഖനന രീതി ഉപയുക്തമാക്കാം.


കക. സമകാലിക പ്രശ്നങ്ങള്‍. ഡേറ്റാ വിശകലനം സൂക്ഷ്മമായി നടത്താനുള്ള പ്രയാസങ്ങള്‍, ഡേറ്റാബേസ് സംവിധാന ത്തിന്റെ അഭൂതപൂര്‍വമായ വളര്‍ച്ച, ഖനന രീതികള്‍ യന്ത്രവത്ക്കരി ക്കുന്നതിനുള്ള ബുദ്ധിമുട്ടുകള്‍ മുതലായവ ഡേറ്റാ ഖനനം അഭി മുഖീകരിക്കുന്ന സങ്കീര്‍ണ പ്രശ്നങ്ങളാണ്. പരിമിതമായ 'മെയിന്‍ മെമ്മറി', ഇന്‍ഡക്സിങ് സംവിധാനങ്ങളുടെ ദക്ഷതക്കുറവ്, ഖനന രീതികളുമായി പൊരുത്തപ്പെട്ടു പോകുന്ന സാംപ്ളിങ് രീതികളുടെ അഭാവം, ഡേറ്റാ സംഗൃഹത്തെ സംബന്ധിച്ച വിവരണം നല്കുന്നതില്‍ വരുന്ന പോരായ്മകള്‍ തുടങ്ങിയവ ബൃഹത്തായ ഡേറ്റാബേസുകളില്‍ അനുയോജ്യമായ ഖനന അല്‍ഗോരിഥം ക്രമീകരിക്കുന്നതിനു വിഘാതം സൃഷ്ടിക്കുന്നു. പൊതുവേ സ്ഥിതിക സംഭാവ്യതയുടെ സാന്ദ്രതയെ അടിസ്ഥാനമാക്കിയാണ് സാംപ്ളിങ് രീതികള്‍ തിരഞ്ഞെടുക്കുന്നത്. എന്നാല്‍ ഡേറ്റയുടെ അളവ് വര്‍ധിച്ചു കൊണ്ടിരിക്കുന്ന ഡേറ്റാബേസുകള്‍ക്ക് ഈ രീതി അനുയോജ്യമല്ല. ഡേറ്റാബേസിലെ ഡേറ്റാ വര്‍ധനയുടെ തോത്, സ്വഭാവം തുടങ്ങിവയെ സംബന്ധിച്ച സമഗ്രമായ പഠനം നിര്‍വഹിച്ച ശേഷം മാത്രമേ സാര്‍വത്രിക പ്രയോഗക്ഷമതയുള്ള ഡേറ്റാ ഖനന രീതികളുടെ ആവിഷ്കാരം സാധ്യമാവുകയുള്ളൂ.

താളിന്റെ അനുബന്ധങ്ങള്‍
സ്വകാര്യതാളുകള്‍