This site is not complete. The work to converting the volumes of സര്‍വ്വവിജ്ഞാനകോശം is on progress. Please bear with us
Please contact webmastersiep@yahoo.com for any queries regarding this website.

Reading Problems? see Enabling Malayalam

ഇന്‍ഫർമേഷന്‍ തിയറി

സര്‍വ്വവിജ്ഞാനകോശം സംരംഭത്തില്‍ നിന്ന്

(തിരഞ്ഞെടുത്ത പതിപ്പുകള്‍ തമ്മിലുള്ള വ്യത്യാസം)
(പുതിയ താള്‍: == ഇന്‍ഫർമേഷന്‍ തിയറി == == Information Theory == വാർത്താവിനിമയസമ്പ്രദായങ്ങ...)
(Information Theory)
 
(ഇടക്കുള്ള 3 പതിപ്പുകളിലെ മാറ്റങ്ങള്‍ ഇവിടെ കാണിക്കുന്നില്ല.)
വരി 1: വരി 1:
-
== ഇന്‍ഫർമേഷന്‍ തിയറി ==
+
== ഇന്‍ഫര്‍മേഷന്‍ തിയറി ==
-
 
+
== Information Theory ==
== Information Theory ==
-
വാർത്താവിനിമയസമ്പ്രദായങ്ങളെപ്പറ്റിയുള്ള ഗണിതശാസ്‌ത്രപരമായ സിദ്ധാന്തം. നിർണയ വിധേയമായ ഒരു കാര്യത്തെ മറ്റു കാര്യങ്ങളിൽനിന്നു വേർപെടുത്തിയെടുക്കുകയെന്നതാണ്‌ ഈ സിദ്ധാന്തത്തിന്റെ അടിസ്ഥാനം. റേഡിയോ, കമ്പിയില്ലാക്കമ്പി, ടെലിവിഷന്‍, കംപ്യൂട്ടർ എന്നിവ തുടങ്ങി മനുഷ്യമസ്‌തിഷ്‌കംവരെയുള്ള ആശയവിനിമയ മാധ്യമങ്ങളുടെ പ്രവർത്തനത്തെ വിശകലനംചെയ്യുന്നതും ഇതിന്റെ പരിധിയിൽവരുന്നു. വാർത്താവിനിമയം എന്ന പ്രവർത്തനത്തിൽ വാർത്ത പ്രക്ഷേപണം ചെയ്യുമ്പോള്‍ അതു മുഴുവനുമായോ ഭാഗികമായോ ലക്ഷ്യത്തിൽ എത്തിച്ചേരാം. ലക്ഷ്യവും ഫലവും തമ്മിലുള്ള ബന്ധം മനസ്സിലാക്കുകയാണ്‌ ഈ പഠനംകൊണ്ട്‌ സാധിക്കുന്നത്‌. സാംഖ്യിക (Statistics)ത്തിലെ സംഭാവ്യതാസിദ്ധാന്ത(Probability Theory) ത്തിന്റെ ഒരു ഭാഗമാണ്‌ ഇന്‍ഫർമേഷന്‍ തിയറി. വളരെ സാങ്കേതികസ്വഭാവമുള്ളതാണ്‌ ഈ സിദ്ധാന്തം.  
+
വാര്‍ത്താവിനിമയസമ്പ്രദായങ്ങളെപ്പറ്റിയുള്ള ഗണിതശാസ്‌ത്രപരമായ സിദ്ധാന്തം. നിര്‍ണയ വിധേയമായ ഒരു കാര്യത്തെ മറ്റു കാര്യങ്ങളില്‍നിന്നു വേര്‍പെടുത്തിയെടുക്കുകയെന്നതാണ്‌ ഈ സിദ്ധാന്തത്തിന്റെ അടിസ്ഥാനം. റേഡിയോ, കമ്പിയില്ലാക്കമ്പി, ടെലിവിഷന്‍, കംപ്യൂട്ടര്‍ എന്നിവ തുടങ്ങി മനുഷ്യമസ്‌തിഷ്‌കംവരെയുള്ള ആശയവിനിമയ മാധ്യമങ്ങളുടെ പ്രവര്‍ത്തനത്തെ വിശകലനംചെയ്യുന്നതും ഇതിന്റെ പരിധിയില്‍വരുന്നു. വാര്‍ത്താവിനിമയം എന്ന പ്രവര്‍ത്തനത്തില്‍ വാര്‍ത്ത പ്രക്ഷേപണം ചെയ്യുമ്പോള്‍ അതു മുഴുവനുമായോ ഭാഗികമായോ ലക്ഷ്യത്തില്‍ എത്തിച്ചേരാം. ലക്ഷ്യവും ഫലവും തമ്മിലുള്ള ബന്ധം മനസ്സിലാക്കുകയാണ്‌ ഈ പഠനംകൊണ്ട്‌ സാധിക്കുന്നത്‌. സാംഖ്യിക (Statistics)ത്തിലെ സംഭാവ്യതാസിദ്ധാന്ത(Probability Theory) ത്തിന്റെ ഒരു ഭാഗമാണ്‌ ഇന്‍ഫര്‍മേഷന്‍ തിയറി. വളരെ സാങ്കേതികസ്വഭാവമുള്ളതാണ്‌ ഈ സിദ്ധാന്തം.  
 +
 
 +
എല്ലാ ശാസ്‌ത്രീയ ഗവേഷണങ്ങളിലും പ്രയോജനപ്പെടുത്തിവരുന്ന ഒരു സിദ്ധാന്തമാണിത്‌. ഭാഷാശാസ്‌ത്രത്തില്‍ ഒരു ഭാഷയുടെ ആശയസംവഹനക്ഷമത, ഒരു എഴുത്തുകാരന്റെ ഭാഷയ്‌ക്കുള്ള പ്രത്യേകത; ഏതെങ്കിലും കൃതിയുടെ അജ്ഞാതകര്‍ത്തൃത്വം തുടങ്ങിയ കാര്യങ്ങള്‍ ഈ സിദ്ധാന്തമനുസരിച്ച്‌ കണ്ടുപിടിക്കാവുന്നതാണ്‌. ജീവശാസ്‌ത്രത്തില്‍ ജീവികളുടെ ജനിതക സവിശേഷതകളും മറ്റും വിശകലനം ചെയ്യാന്‍ ഈ സിദ്ധാന്തം പ്രയോജനപ്പെടുന്നു. അതുപോലെ ശാസ്‌ത്രതര രംഗങ്ങളിലും ഈ സിദ്ധാന്തം പ്രയോഗിച്ചുവരുന്നു. ആശയങ്ങള്‍ തിരഞ്ഞെടുത്ത്‌ അയയ്‌ക്കുന്ന ഒരു ആരംഭകേന്ദ്രവും അതു സ്വീകരിക്കുന്ന ഒരു ലക്ഷ്യസ്ഥാനവും ഉള്ളതായി കണക്കാക്കുക. ഗണിതശാസ്‌ത്രമുപയോഗിച്ചുള്ള പഠനത്തിനുവേണ്ടി ആരംഭകേന്ദ്രത്തില്‍നിന്നും സന്ദേശം സങ്കേത(Code)ഭാഷയിലേക്കു വിവര്‍ത്തനംചെയ്‌ത്‌ അയയ്‌ക്കുകയും ലക്ഷ്യസ്ഥാനത്തെത്തുമ്പോള്‍ സങ്കേതം വീണ്ടും സന്ദേശമായി മാറ്റുകയും ചെയ്യുന്നു. സങ്കേതഭാഷയിലുള്ള സന്ദേശം ലക്ഷ്യത്തില്‍ എത്തിച്ചേരുന്നതുവരെയുള്ള സമയം, സ്ഥലം മുതലായവയ്‌ക്കെല്ലാംകൂടി "വീഥി' (Channel) എന്നു പറയും. ഇന്‍ഫര്‍മേഷന്‍ തിയറിയില്‍ വിനിമയസമ്പ്രദായത്തിന്‌ ഒരു ഗണിതശാസ്‌ത്രമാതൃക ഉണ്ടാക്കുകയാണ്‌ ചെയ്യുന്നത്‌. വിവരങ്ങളുടെ പ്രവാഹത്തെ അളക്കാനുള്ള സമ്പ്രദായം ആദ്യമായി ആവിഷ്‌കരിച്ചത്‌ സി.ഇ. ഷാനണ്‍ എന്ന ശാസ്‌ത്രജ്ഞനാണ്‌. ഒരു പ്രവാഹത്തിലെ വിവരത്തിന്റെ ആകെത്തുക H ആയി സങ്കല്‌പിച്ചാല്‍ H-നെ താഴെപ്പറയുന്ന സമവാക്യം ഉപയോഗിച്ച്‌ നിര്‍വചിക്കാം:
-
എല്ലാ ശാസ്‌ത്രീയ ഗവേഷണങ്ങളിലും പ്രയോജനപ്പെടുത്തിവരുന്ന ഒരു സിദ്ധാന്തമാണിത്‌. ഭാഷാശാസ്‌ത്രത്തിൽ ഒരു ഭാഷയുടെ ആശയസംവഹനക്ഷമത, ഒരു എഴുത്തുകാരന്റെ ഭാഷയ്‌ക്കുള്ള പ്രത്യേകത; ഏതെങ്കിലും കൃതിയുടെ അജ്ഞാതകർത്തൃത്വം തുടങ്ങിയ കാര്യങ്ങള്‍ ഈ സിദ്ധാന്തമനുസരിച്ച്‌ കണ്ടുപിടിക്കാവുന്നതാണ്‌. ജീവശാസ്‌ത്രത്തിൽ ജീവികളുടെ ജനിതക സവിശേഷതകളും മറ്റും വിശകലനം ചെയ്യാന്‍ ഈ സിദ്ധാന്തം പ്രയോജനപ്പെടുന്നു. അതുപോലെ ശാസ്‌ത്രതര രംഗങ്ങളിലും ഈ സിദ്ധാന്തം പ്രയോഗിച്ചുവരുന്നു. ആശയങ്ങള്‍ തിരഞ്ഞെടുത്ത്‌ അയയ്‌ക്കുന്ന ഒരു ആരംഭകേന്ദ്രവും അതു സ്വീകരിക്കുന്ന ഒരു ലക്ഷ്യസ്ഥാനവും ഉള്ളതായി കണക്കാക്കുക. ഗണിതശാസ്‌ത്രമുപയോഗിച്ചുള്ള പഠനത്തിനുവേണ്ടി ആരംഭകേന്ദ്രത്തിൽനിന്നും സന്ദേശം സങ്കേത(Code)ഭാഷയിലേക്കു വിവർത്തനംചെയ്‌ത്‌ അയയ്‌ക്കുകയും ലക്ഷ്യസ്ഥാനത്തെത്തുമ്പോള്‍ സങ്കേതം വീണ്ടും സന്ദേശമായി മാറ്റുകയും ചെയ്യുന്നു. സങ്കേതഭാഷയിലുള്ള സന്ദേശം ലക്ഷ്യത്തിൽ എത്തിച്ചേരുന്നതുവരെയുള്ള സമയം, സ്ഥലം മുതലായവയ്‌ക്കെല്ലാംകൂടി "വീഥി' (Channel) എന്നു പറയും. ഇന്‍ഫർമേഷന്‍ തിയറിയിൽ വിനിമയസമ്പ്രദായത്തിന്‌ ഒരു ഗണിതശാസ്‌ത്രമാതൃക ഉണ്ടാക്കുകയാണ്‌ ചെയ്യുന്നത്‌. വിവരങ്ങളുടെ പ്രവാഹത്തെ അളക്കാനുള്ള സമ്പ്രദായം ആദ്യമായി ആവിഷ്‌കരിച്ചത്‌ സി.ഇ. ഷാനണ്‍ എന്ന ശാസ്‌ത്രജ്ഞനാണ്‌. ഒരു പ്രവാഹത്തിലെ വിവരത്തിന്റെ ആകെത്തുക ഒ ആയി സങ്കല്‌പിച്ചാൽ ഒനെ താഴെപ്പറയുന്ന സമവാക്യം ഉപയോഗിച്ച്‌ നിർവചിക്കാം:
+
[[ചിത്രം:Vol3_156_1.jpg|300px]]
-
ഇവിടെ  P1, P2, ... മുതലായവ സൂചിപ്പിക്കുന്നത്‌ സംഭാവ്യതയെയാണ്‌; കുറെ ആശയങ്ങളിൽനിന്നും ഒരു ആശയത്തെ തെരഞ്ഞെടുക്കുന്നതിനുള്ള സംഭാവ്യത. വിവരത്തിന്റെ അളവിനെ ധനസംഖ്യയാക്കാനാണ്‌ ഋണചിഹ്നം കൊടുത്തിട്ടുള്ളത്‌. എന്തെന്നാൽ സംഭാവ്യതകളുടെ ലോഗരിതം നിശ്ചയമായും ഋണസംഖ്യയായിരിക്കും. ഒരു ഉദാഹരണംകൊണ്ട്‌ ഈ വാക്യം വിശദമാക്കാം. , , , എന്നു നാലുചീട്ടുകള്‍ കമഴ്‌ത്തിവച്ചിരിക്കുന്നു. ഇവയിൽ ഒരെച്ചം സ്‌പേഡ്‌ ഏസ്‌ ആണ്‌. ഓരോ ചീട്ടിനും സ്‌പേഡ്‌ ഏസ്‌ ആയിരിക്കാനുള്ള സംഭാവ്യത മ്പ വീതമാണ്‌. എങ്കിൽ ഈ ചീട്ടുകള്‍ ഓരോന്നും സ്‌പേഡ്‌ ഏസിനെപ്പറ്റി നമുക്കു നല്‌കുന്ന വിവരത്തിന്റെ ശരാശരി അളവ്‌ മേല്‌പറഞ്ഞ സമവാക്യം ഉപയോഗിച്ചു കണക്കാക്കാം. P1, P2, P3, P4 എന്നിവ മ്പ വീതം ആയാൽ,  H = log2 4 = 2വിവരത്തിന്റെ അളവ്‌ "ബിറ്റ്‌' എന്ന ഏകകം ഉപയോഗിച്ച്‌ പറയുന്നു. ഓരോ ചീട്ടും നല്‌കുന്ന വിവരത്തിന്റെ ശരാശരി അളവ്‌ 2 ബിറ്റ്‌ ആണ്‌.A, B, C, Dഎന്നീ ചീട്ടുകള്‍ നല്‌കുന്ന വിവരത്തിന്റെ അളവിനെ സങ്കേതഭാഷയിൽ 2 അക്കങ്ങള്‍ ഉപയോഗിച്ചു പ്രകടമാക്കാം. , , , എന്നിവയ്‌ക്ക്‌ യഥാക്രമം 00, 01, 10, 11 എന്ന സങ്കേതങ്ങള്‍ ഉപയോഗിക്കാം. A എന്ന ചീട്ട്‌ സ്‌പേഡ്‌ ഏസ്‌ ആകുന്നു എന്ന സന്ദേശം "00' എന്ന സങ്കേതമുപയോഗിച്ച്‌ പ്രക്ഷേപണം ചെയ്യാം എന്നർഥം. 8 ചീട്ടുകള്‍ ഉപയോഗിക്കുകയും സംഭാവ്യത തുല്യമായി കണക്കാക്കുകയും ചെയ്‌താൽ ശരാശരി വിവരം 3 ബിറ്റ്‌ ആണെന്നു കാണാം.  
+
ഇവിടെ  P<sub>1</sub>, P<sub>2</sub>, ... മുതലായവ സൂചിപ്പിക്കുന്നത്‌ സംഭാവ്യതയെയാണ്‌; കുറെ ആശയങ്ങളില്‍നിന്നും ഒരു ആശയത്തെ തെരഞ്ഞെടുക്കുന്നതിനുള്ള സംഭാവ്യത. വിവരത്തിന്റെ അളവിനെ ധനസംഖ്യയാക്കാനാണ്‌ ഋണചിഹ്നം കൊടുത്തിട്ടുള്ളത്‌. എന്തെന്നാല്‍ സംഭാവ്യതകളുടെ ലോഗരിതം നിശ്ചയമായും ഋണസംഖ്യയായിരിക്കും. ഒരു ഉദാഹരണംകൊണ്ട്‌ ഈ വാക്യം വിശദമാക്കാം. A, B, C, D എന്നു നാലുചീട്ടുകള്‍ കമഴ്‌ത്തിവച്ചിരിക്കുന്നു. ഇവയില്‍ ഒരെണ്ണം സ്‌പേഡ്‌ ഏസ്‌ ആണ്‌. ഓരോ ചീട്ടിനും സ്‌പേഡ്‌ ഏസ്‌ ആയിരിക്കാനുള്ള സംഭാവ്യത &frac14; വീതമാണ്‌. എങ്കില്‍ ഈ ചീട്ടുകള്‍ ഓരോന്നും സ്‌പേഡ്‌ ഏസിനെപ്പറ്റി നമുക്കു നല്‌കുന്ന വിവരത്തിന്റെ ശരാശരി അളവ്‌ മേല്‌പറഞ്ഞ സമവാക്യം ഉപയോഗിച്ചു കണക്കാക്കാം. P<sub>1</sub>, P<sub>2</sub>, P<sub>3</sub>, P<sub>4</sub> എന്നിവ &frac14; വീതം ആയാല്‍,  H = log<sub>2</sub> 4 = 2വിവരത്തിന്റെ അളവ്‌ "ബിറ്റ്‌' എന്ന ഏകകം ഉപയോഗിച്ച്‌ പറയുന്നു. ഓരോ ചീട്ടും നല്‌കുന്ന വിവരത്തിന്റെ ശരാശരി അളവ്‌ 2 ബിറ്റ്‌ ആണ്‌.A, B, C, D എന്നീ ചീട്ടുകള്‍ നല്‌കുന്ന വിവരത്തിന്റെ അളവിനെ സങ്കേതഭാഷയില്‍ 2 അക്കങ്ങള്‍ ഉപയോഗിച്ചു പ്രകടമാക്കാം. A, B, C, D എന്നിവയ്‌ക്ക്‌ യഥാക്രമം 00, 01, 10, 11 എന്ന സങ്കേതങ്ങള്‍ ഉപയോഗിക്കാം. A എന്ന ചീട്ട്‌ സ്‌പേഡ്‌ ഏസ്‌ ആകുന്നു എന്ന സന്ദേശം '00' എന്ന സങ്കേതമുപയോഗിച്ച്‌ പ്രക്ഷേപണം ചെയ്യാം എന്നര്‍ഥം. 8 ചീട്ടുകള്‍ ഉപയോഗിക്കുകയും സംഭാവ്യത തുല്യമായി കണക്കാക്കുകയും ചെയ്‌താല്‍ ശരാശരി വിവരം 3 ബിറ്റ്‌ ആണെന്നു കാണാം.  
-
ഒരു സന്ദേശത്തെപ്പറ്റിയുള്ള നമ്മുടെ അജ്ഞത കൂടുതലാകുമ്പോള്‍ അതിനെ അറിയുവാന്‍ നാം കൂടുതൽ വിവരം ആവശ്യപ്പെടുന്നു. അറിഞ്ഞതിനെ വീണ്ടും അറിയുവാന്‍ സാധ്യമല്ല. ഉദാഹരണമായി എന്ന ചീട്ട്‌ സ്‌പേഡ്‌ ഏസ്‌ ആയിരിക്കാനുള്ള സംഭാവ്യത 1 ആണെങ്കിൽ ആ ചീട്ട്‌ നമുക്കു നല്‌കുന്ന പുതിയ വിവരത്തിന്റെ അളവ്‌ 1 ഹീഴ21 = 0 ആയിരിക്കും. പുതിയതായി വിവരമൊന്നുമില്ലെന്നർഥം. എല്ലാ ചീട്ടുകളും സ്‌പേഡ്‌ ഏസ്‌ ആകാനുള്ള സംഭാവ്യത തുല്യമാണെങ്കിൽ നമ്മുടെ അനിശ്ചിതത്വം ഏറ്റവും കൂടുതലാകുന്നു. അതിനാൽ ഏറ്റവും കൂടുതൽ വിവരം നാം ആവശ്യപ്പെടുന്നു. മേല്‌പറഞ്ഞ ഉദാഹരണത്തിൽ 2 ബിറ്റ്‌ വിവരം ഏറ്റവും കൂടിയതാണ്‌. ഇന്‍ഫർമേഷന്‍ സിദ്ധാന്തത്തിൽ സന്ദേശങ്ങള്‍ അയയ്‌ക്കുന്ന "വീഥി'യുടെ "ശേഷി' (capacity) പ്രധാനമാണ്‌. ഒരു സെക്കന്‍ഡിൽ n' ചിഹ്നങ്ങള്‍ (symbols)  പ്രക്ഷേപണം ചെയ്യാവുന്ന വീഥിയിൽക്കൂടി 2 ബിറ്റ്‌ വിവരം പ്രക്ഷേപണം ചെയ്യുമ്പോള്‍ വീഥിയുടെ ശേഷി 2n ബിറ്റ്‌ ആയിരിക്കും.  
+
ഒരു സന്ദേശത്തെപ്പറ്റിയുള്ള നമ്മുടെ അജ്ഞത കൂടുതലാകുമ്പോള്‍ അതിനെ അറിയുവാന്‍ നാം കൂടുതല്‍ വിവരം ആവശ്യപ്പെടുന്നു. അറിഞ്ഞതിനെ വീണ്ടും അറിയുവാന്‍ സാധ്യമല്ല. ഉദാഹരണമായി β എന്ന ചീട്ട്‌ സ്‌പേഡ്‌ ഏസ്‌ ആയിരിക്കാനുള്ള സംഭാവ്യത 1 ആണെങ്കില്‍ ആ ചീട്ട്‌ നമുക്കു നല്‌കുന്ന പുതിയ വിവരത്തിന്റെ അളവ്‌ 1 log<sub>2</sub>1 = 0 ആയിരിക്കും. പുതിയതായി വിവരമൊന്നുമില്ലെന്നര്‍ഥം. എല്ലാ ചീട്ടുകളും സ്‌പേഡ്‌ ഏസ്‌ ആകാനുള്ള സംഭാവ്യത തുല്യമാണെങ്കില്‍ നമ്മുടെ അനിശ്ചിതത്വം ഏറ്റവും കൂടുതലാകുന്നു. അതിനാല്‍ ഏറ്റവും കൂടുതല്‍ വിവരം നാം ആവശ്യപ്പെടുന്നു. മേല്‌പറഞ്ഞ ഉദാഹരണത്തില്‍ 2 ബിറ്റ്‌ വിവരം ഏറ്റവും കൂടിയതാണ്‌. ഇന്‍ഫര്‍മേഷന്‍ സിദ്ധാന്തത്തില്‍ സന്ദേശങ്ങള്‍ അയയ്‌ക്കുന്ന "വീഥി'യുടെ "ശേഷി' (capacity) പ്രധാനമാണ്‌. ഒരു സെക്കന്‍ഡില്‍ 'n' ചിഹ്നങ്ങള്‍ (symbols)  പ്രക്ഷേപണം ചെയ്യാവുന്ന വീഥിയില്‍ക്കൂടി 2 ബിറ്റ്‌ വിവരം പ്രക്ഷേപണം ചെയ്യുമ്പോള്‍ വീഥിയുടെ ശേഷി 2n ബിറ്റ്‌ ആയിരിക്കും.  
-
ഭാഷകളെപ്പറ്റിയുള്ള പഠനത്തിലും ഇന്‍ഫർമേഷന്‍ തിയറി ഉപയോഗിക്കുന്നുണ്ട്‌. അക്ഷരങ്ങള്‍ ചേർന്നാണ്‌ വാക്കുകള്‍ ഉണ്ടാകുന്നത്‌. വാക്കുകളും വാക്യങ്ങളും അടങ്ങിയതാണ്‌ ഭാഷ. കുറേ ശ്രമകരമാണെങ്കിലും സംഭാവ്യതാതത്ത്വം ഉപയോഗിച്ചുതന്നെയാണ്‌ ഭാഷ വിനിമയംചെയ്യുന്ന ആശയങ്ങളുടെ വിവരം അളക്കുന്നത്‌. കുറേ അക്ഷരങ്ങളുടെ ഗണം ഉപയോഗിച്ച്‌ നിർമിക്കാവുന്ന അർഥപുഷ്‌ടങ്ങളായ വാക്കുകളുടെ എച്ചവും കുറേ വാക്കുകള്‍ ഉപയോഗിച്ചു നിർമിക്കാവുന്ന വാക്യങ്ങളുടെ എച്ചവും കണക്കാക്കുന്നത്‌ എളുപ്പമല്ല. വാക്കുകളുടെ എച്ചം കൂട്ടിയതുകൊണ്ട്‌ ഒരു വാക്യം നല്‌കുന്ന വിവരത്തിന്റെ അളവ്‌ കൂടണമെന്നില്ല. ഇംഗ്ലീഷ്‌ ഭാഷയിൽ ഒരു വാക്കു നല്‌കുന്ന ശരാശരി വിവരം 11.82 ബിറ്റ്‌ ആണെന്നാണ്‌ ഷാനണ്‍ കണക്കാക്കിയിട്ടുള്ളത്‌. ഒരു ഇംഗ്ലീഷ്‌ വാക്കിന്റെ ശരാശരി നീളം 4.5 അക്ഷരങ്ങളാണ്‌. ഇതിൽനിന്നും ഒരു വാക്കിലെ ഓരോ അക്ഷരവും നല്‌കുന്ന വിവരത്തിന്‌ 2.14 ബിറ്റ്‌ മൂല്യം ഉണ്ടെന്നാണ്‌ അദ്ദേഹം കണക്കാക്കിയത്‌. ഓരോ ഭാഷയ്‌ക്കും ഉള്ള ഇത്തരം പ്രത്യേകതകള്‍ പഠിക്കുന്നതുപോലെ ഓരോ എഴുത്തുകാരനും ഉപയോഗിക്കുന്ന ശൈലിയെയും ഗണിതശാസ്‌ത്രപരമായി വിലയിരുത്താം. ഈ മാനദണ്ഡം ഉപയോഗിച്ച്‌ ഗ്രന്ഥങ്ങളുടെ അജ്ഞാതരായ കർത്താക്കളെ അനുമാനിക്കാവുന്നതാണ്‌.  
+
ഭാഷകളെപ്പറ്റിയുള്ള പഠനത്തിലും ഇന്‍ഫര്‍മേഷന്‍ തിയറി ഉപയോഗിക്കുന്നുണ്ട്‌. അക്ഷരങ്ങള്‍ ചേര്‍ന്നാണ്‌ വാക്കുകള്‍ ഉണ്ടാകുന്നത്‌. വാക്കുകളും വാക്യങ്ങളും അടങ്ങിയതാണ്‌ ഭാഷ. കുറേ ശ്രമകരമാണെങ്കിലും സംഭാവ്യതാതത്ത്വം ഉപയോഗിച്ചുതന്നെയാണ്‌ ഭാഷ വിനിമയംചെയ്യുന്ന ആശയങ്ങളുടെ വിവരം അളക്കുന്നത്‌. കുറേ അക്ഷരങ്ങളുടെ ഗണം ഉപയോഗിച്ച്‌ നിര്‍മിക്കാവുന്ന അര്‍ഥപുഷ്‌ടങ്ങളായ വാക്കുകളുടെ എണ്ണവും കുറേ വാക്കുകള്‍ ഉപയോഗിച്ചു നിര്‍മിക്കാവുന്ന വാക്യങ്ങളുടെ എണ്ണവും കണക്കാക്കുന്നത്‌ എളുപ്പമല്ല. വാക്കുകളുടെ എണ്ണം കൂട്ടിയതുകൊണ്ട്‌ ഒരു വാക്യം നല്‌കുന്ന വിവരത്തിന്റെ അളവ്‌ കൂടണമെന്നില്ല. ഇംഗ്ലീഷ്‌ ഭാഷയില്‍ ഒരു വാക്കു നല്‌കുന്ന ശരാശരി വിവരം 11.82 ബിറ്റ്‌ ആണെന്നാണ്‌ ഷാനണ്‍ കണക്കാക്കിയിട്ടുള്ളത്‌. ഒരു ഇംഗ്ലീഷ്‌ വാക്കിന്റെ ശരാശരി നീളം 4.5 അക്ഷരങ്ങളാണ്‌. ഇതില്‍നിന്നും ഒരു വാക്കിലെ ഓരോ അക്ഷരവും നല്‌കുന്ന വിവരത്തിന്‌ 2.14 ബിറ്റ്‌ മൂല്യം ഉണ്ടെന്നാണ്‌ അദ്ദേഹം കണക്കാക്കിയത്‌. ഓരോ ഭാഷയ്‌ക്കും ഉള്ള ഇത്തരം പ്രത്യേകതകള്‍ പഠിക്കുന്നതുപോലെ ഓരോ എഴുത്തുകാരനും ഉപയോഗിക്കുന്ന ശൈലിയെയും ഗണിതശാസ്‌ത്രപരമായി വിലയിരുത്താം. ഈ മാനദണ്ഡം ഉപയോഗിച്ച്‌ ഗ്രന്ഥങ്ങളുടെ അജ്ഞാതരായ കര്‍ത്താക്കളെ അനുമാനിക്കാവുന്നതാണ്‌.  
(ടി. സുശീലന്‍)
(ടി. സുശീലന്‍)

Current revision as of 12:00, 5 സെപ്റ്റംബര്‍ 2014

ഇന്‍ഫര്‍മേഷന്‍ തിയറി

Information Theory

വാര്‍ത്താവിനിമയസമ്പ്രദായങ്ങളെപ്പറ്റിയുള്ള ഗണിതശാസ്‌ത്രപരമായ സിദ്ധാന്തം. നിര്‍ണയ വിധേയമായ ഒരു കാര്യത്തെ മറ്റു കാര്യങ്ങളില്‍നിന്നു വേര്‍പെടുത്തിയെടുക്കുകയെന്നതാണ്‌ ഈ സിദ്ധാന്തത്തിന്റെ അടിസ്ഥാനം. റേഡിയോ, കമ്പിയില്ലാക്കമ്പി, ടെലിവിഷന്‍, കംപ്യൂട്ടര്‍ എന്നിവ തുടങ്ങി മനുഷ്യമസ്‌തിഷ്‌കംവരെയുള്ള ആശയവിനിമയ മാധ്യമങ്ങളുടെ പ്രവര്‍ത്തനത്തെ വിശകലനംചെയ്യുന്നതും ഇതിന്റെ പരിധിയില്‍വരുന്നു. വാര്‍ത്താവിനിമയം എന്ന പ്രവര്‍ത്തനത്തില്‍ വാര്‍ത്ത പ്രക്ഷേപണം ചെയ്യുമ്പോള്‍ അതു മുഴുവനുമായോ ഭാഗികമായോ ലക്ഷ്യത്തില്‍ എത്തിച്ചേരാം. ലക്ഷ്യവും ഫലവും തമ്മിലുള്ള ബന്ധം മനസ്സിലാക്കുകയാണ്‌ ഈ പഠനംകൊണ്ട്‌ സാധിക്കുന്നത്‌. സാംഖ്യിക (Statistics)ത്തിലെ സംഭാവ്യതാസിദ്ധാന്ത(Probability Theory) ത്തിന്റെ ഒരു ഭാഗമാണ്‌ ഇന്‍ഫര്‍മേഷന്‍ തിയറി. വളരെ സാങ്കേതികസ്വഭാവമുള്ളതാണ്‌ ഈ സിദ്ധാന്തം.

എല്ലാ ശാസ്‌ത്രീയ ഗവേഷണങ്ങളിലും പ്രയോജനപ്പെടുത്തിവരുന്ന ഒരു സിദ്ധാന്തമാണിത്‌. ഭാഷാശാസ്‌ത്രത്തില്‍ ഒരു ഭാഷയുടെ ആശയസംവഹനക്ഷമത, ഒരു എഴുത്തുകാരന്റെ ഭാഷയ്‌ക്കുള്ള പ്രത്യേകത; ഏതെങ്കിലും കൃതിയുടെ അജ്ഞാതകര്‍ത്തൃത്വം തുടങ്ങിയ കാര്യങ്ങള്‍ ഈ സിദ്ധാന്തമനുസരിച്ച്‌ കണ്ടുപിടിക്കാവുന്നതാണ്‌. ജീവശാസ്‌ത്രത്തില്‍ ജീവികളുടെ ജനിതക സവിശേഷതകളും മറ്റും വിശകലനം ചെയ്യാന്‍ ഈ സിദ്ധാന്തം പ്രയോജനപ്പെടുന്നു. അതുപോലെ ശാസ്‌ത്രതര രംഗങ്ങളിലും ഈ സിദ്ധാന്തം പ്രയോഗിച്ചുവരുന്നു. ആശയങ്ങള്‍ തിരഞ്ഞെടുത്ത്‌ അയയ്‌ക്കുന്ന ഒരു ആരംഭകേന്ദ്രവും അതു സ്വീകരിക്കുന്ന ഒരു ലക്ഷ്യസ്ഥാനവും ഉള്ളതായി കണക്കാക്കുക. ഗണിതശാസ്‌ത്രമുപയോഗിച്ചുള്ള പഠനത്തിനുവേണ്ടി ആരംഭകേന്ദ്രത്തില്‍നിന്നും സന്ദേശം സങ്കേത(Code)ഭാഷയിലേക്കു വിവര്‍ത്തനംചെയ്‌ത്‌ അയയ്‌ക്കുകയും ലക്ഷ്യസ്ഥാനത്തെത്തുമ്പോള്‍ സങ്കേതം വീണ്ടും സന്ദേശമായി മാറ്റുകയും ചെയ്യുന്നു. സങ്കേതഭാഷയിലുള്ള സന്ദേശം ലക്ഷ്യത്തില്‍ എത്തിച്ചേരുന്നതുവരെയുള്ള സമയം, സ്ഥലം മുതലായവയ്‌ക്കെല്ലാംകൂടി "വീഥി' (Channel) എന്നു പറയും. ഇന്‍ഫര്‍മേഷന്‍ തിയറിയില്‍ വിനിമയസമ്പ്രദായത്തിന്‌ ഒരു ഗണിതശാസ്‌ത്രമാതൃക ഉണ്ടാക്കുകയാണ്‌ ചെയ്യുന്നത്‌. വിവരങ്ങളുടെ പ്രവാഹത്തെ അളക്കാനുള്ള സമ്പ്രദായം ആദ്യമായി ആവിഷ്‌കരിച്ചത്‌ സി.ഇ. ഷാനണ്‍ എന്ന ശാസ്‌ത്രജ്ഞനാണ്‌. ഒരു പ്രവാഹത്തിലെ വിവരത്തിന്റെ ആകെത്തുക H ആയി സങ്കല്‌പിച്ചാല്‍ H-നെ താഴെപ്പറയുന്ന സമവാക്യം ഉപയോഗിച്ച്‌ നിര്‍വചിക്കാം:

ഇവിടെ P1, P2, ... മുതലായവ സൂചിപ്പിക്കുന്നത്‌ സംഭാവ്യതയെയാണ്‌; കുറെ ആശയങ്ങളില്‍നിന്നും ഒരു ആശയത്തെ തെരഞ്ഞെടുക്കുന്നതിനുള്ള സംഭാവ്യത. വിവരത്തിന്റെ അളവിനെ ധനസംഖ്യയാക്കാനാണ്‌ ഋണചിഹ്നം കൊടുത്തിട്ടുള്ളത്‌. എന്തെന്നാല്‍ സംഭാവ്യതകളുടെ ലോഗരിതം നിശ്ചയമായും ഋണസംഖ്യയായിരിക്കും. ഒരു ഉദാഹരണംകൊണ്ട്‌ ഈ വാക്യം വിശദമാക്കാം. A, B, C, D എന്നു നാലുചീട്ടുകള്‍ കമഴ്‌ത്തിവച്ചിരിക്കുന്നു. ഇവയില്‍ ഒരെണ്ണം സ്‌പേഡ്‌ ഏസ്‌ ആണ്‌. ഓരോ ചീട്ടിനും സ്‌പേഡ്‌ ഏസ്‌ ആയിരിക്കാനുള്ള സംഭാവ്യത ¼ വീതമാണ്‌. എങ്കില്‍ ഈ ചീട്ടുകള്‍ ഓരോന്നും സ്‌പേഡ്‌ ഏസിനെപ്പറ്റി നമുക്കു നല്‌കുന്ന വിവരത്തിന്റെ ശരാശരി അളവ്‌ മേല്‌പറഞ്ഞ സമവാക്യം ഉപയോഗിച്ചു കണക്കാക്കാം. P1, P2, P3, P4 എന്നിവ ¼ വീതം ആയാല്‍, H = log2 4 = 2വിവരത്തിന്റെ അളവ്‌ "ബിറ്റ്‌' എന്ന ഏകകം ഉപയോഗിച്ച്‌ പറയുന്നു. ഓരോ ചീട്ടും നല്‌കുന്ന വിവരത്തിന്റെ ശരാശരി അളവ്‌ 2 ബിറ്റ്‌ ആണ്‌.A, B, C, D എന്നീ ചീട്ടുകള്‍ നല്‌കുന്ന വിവരത്തിന്റെ അളവിനെ സങ്കേതഭാഷയില്‍ 2 അക്കങ്ങള്‍ ഉപയോഗിച്ചു പ്രകടമാക്കാം. A, B, C, D എന്നിവയ്‌ക്ക്‌ യഥാക്രമം 00, 01, 10, 11 എന്ന സങ്കേതങ്ങള്‍ ഉപയോഗിക്കാം. A എന്ന ചീട്ട്‌ സ്‌പേഡ്‌ ഏസ്‌ ആകുന്നു എന്ന സന്ദേശം '00' എന്ന സങ്കേതമുപയോഗിച്ച്‌ പ്രക്ഷേപണം ചെയ്യാം എന്നര്‍ഥം. 8 ചീട്ടുകള്‍ ഉപയോഗിക്കുകയും സംഭാവ്യത തുല്യമായി കണക്കാക്കുകയും ചെയ്‌താല്‍ ശരാശരി വിവരം 3 ബിറ്റ്‌ ആണെന്നു കാണാം.

ഒരു സന്ദേശത്തെപ്പറ്റിയുള്ള നമ്മുടെ അജ്ഞത കൂടുതലാകുമ്പോള്‍ അതിനെ അറിയുവാന്‍ നാം കൂടുതല്‍ വിവരം ആവശ്യപ്പെടുന്നു. അറിഞ്ഞതിനെ വീണ്ടും അറിയുവാന്‍ സാധ്യമല്ല. ഉദാഹരണമായി β എന്ന ചീട്ട്‌ സ്‌പേഡ്‌ ഏസ്‌ ആയിരിക്കാനുള്ള സംഭാവ്യത 1 ആണെങ്കില്‍ ആ ചീട്ട്‌ നമുക്കു നല്‌കുന്ന പുതിയ വിവരത്തിന്റെ അളവ്‌ 1 log21 = 0 ആയിരിക്കും. പുതിയതായി വിവരമൊന്നുമില്ലെന്നര്‍ഥം. എല്ലാ ചീട്ടുകളും സ്‌പേഡ്‌ ഏസ്‌ ആകാനുള്ള സംഭാവ്യത തുല്യമാണെങ്കില്‍ നമ്മുടെ അനിശ്ചിതത്വം ഏറ്റവും കൂടുതലാകുന്നു. അതിനാല്‍ ഏറ്റവും കൂടുതല്‍ വിവരം നാം ആവശ്യപ്പെടുന്നു. മേല്‌പറഞ്ഞ ഉദാഹരണത്തില്‍ 2 ബിറ്റ്‌ വിവരം ഏറ്റവും കൂടിയതാണ്‌. ഇന്‍ഫര്‍മേഷന്‍ സിദ്ധാന്തത്തില്‍ സന്ദേശങ്ങള്‍ അയയ്‌ക്കുന്ന "വീഥി'യുടെ "ശേഷി' (capacity) പ്രധാനമാണ്‌. ഒരു സെക്കന്‍ഡില്‍ 'n' ചിഹ്നങ്ങള്‍ (symbols) പ്രക്ഷേപണം ചെയ്യാവുന്ന വീഥിയില്‍ക്കൂടി 2 ബിറ്റ്‌ വിവരം പ്രക്ഷേപണം ചെയ്യുമ്പോള്‍ വീഥിയുടെ ശേഷി 2n ബിറ്റ്‌ ആയിരിക്കും.

ഭാഷകളെപ്പറ്റിയുള്ള പഠനത്തിലും ഇന്‍ഫര്‍മേഷന്‍ തിയറി ഉപയോഗിക്കുന്നുണ്ട്‌. അക്ഷരങ്ങള്‍ ചേര്‍ന്നാണ്‌ വാക്കുകള്‍ ഉണ്ടാകുന്നത്‌. വാക്കുകളും വാക്യങ്ങളും അടങ്ങിയതാണ്‌ ഭാഷ. കുറേ ശ്രമകരമാണെങ്കിലും സംഭാവ്യതാതത്ത്വം ഉപയോഗിച്ചുതന്നെയാണ്‌ ഭാഷ വിനിമയംചെയ്യുന്ന ആശയങ്ങളുടെ വിവരം അളക്കുന്നത്‌. കുറേ അക്ഷരങ്ങളുടെ ഗണം ഉപയോഗിച്ച്‌ നിര്‍മിക്കാവുന്ന അര്‍ഥപുഷ്‌ടങ്ങളായ വാക്കുകളുടെ എണ്ണവും കുറേ വാക്കുകള്‍ ഉപയോഗിച്ചു നിര്‍മിക്കാവുന്ന വാക്യങ്ങളുടെ എണ്ണവും കണക്കാക്കുന്നത്‌ എളുപ്പമല്ല. വാക്കുകളുടെ എണ്ണം കൂട്ടിയതുകൊണ്ട്‌ ഒരു വാക്യം നല്‌കുന്ന വിവരത്തിന്റെ അളവ്‌ കൂടണമെന്നില്ല. ഇംഗ്ലീഷ്‌ ഭാഷയില്‍ ഒരു വാക്കു നല്‌കുന്ന ശരാശരി വിവരം 11.82 ബിറ്റ്‌ ആണെന്നാണ്‌ ഷാനണ്‍ കണക്കാക്കിയിട്ടുള്ളത്‌. ഒരു ഇംഗ്ലീഷ്‌ വാക്കിന്റെ ശരാശരി നീളം 4.5 അക്ഷരങ്ങളാണ്‌. ഇതില്‍നിന്നും ഒരു വാക്കിലെ ഓരോ അക്ഷരവും നല്‌കുന്ന വിവരത്തിന്‌ 2.14 ബിറ്റ്‌ മൂല്യം ഉണ്ടെന്നാണ്‌ അദ്ദേഹം കണക്കാക്കിയത്‌. ഓരോ ഭാഷയ്‌ക്കും ഉള്ള ഇത്തരം പ്രത്യേകതകള്‍ പഠിക്കുന്നതുപോലെ ഓരോ എഴുത്തുകാരനും ഉപയോഗിക്കുന്ന ശൈലിയെയും ഗണിതശാസ്‌ത്രപരമായി വിലയിരുത്താം. ഈ മാനദണ്ഡം ഉപയോഗിച്ച്‌ ഗ്രന്ഥങ്ങളുടെ അജ്ഞാതരായ കര്‍ത്താക്കളെ അനുമാനിക്കാവുന്നതാണ്‌.

(ടി. സുശീലന്‍)

താളിന്റെ അനുബന്ധങ്ങള്‍
സ്വകാര്യതാളുകള്‍