മലയാളം കമ്പ്യുട്ടിങ്ങിനെ സംബന്ധിച്ചിടത്തോളം സുപ്രധാനമായൊരു ആവശ്യകതയായ അകാരാദിക്രമം(Sorting) ഇത്രയും കാലമായും നമുക്കു് ശരിയായ രീതിയില് ഇല്ല. ഇപ്പോള് നിങ്ങള് മലയാളത്തില് കുറേവാക്കുകള് അകാരാദിക്രമത്തിലാക്കിയാല് കിട്ടുന്ന ക്രമം യൂണിക്കോഡ് കോഡ് പോയിന്റുകളുടെ ആരോഹണക്രമത്തിലായിരിക്കും. ഇതു പരിശോധിയ്ക്കാന് മലയാളത്തിലുള്ള ഗ്നോമിലോ KDE യിലോ മലയാളം പേരുകളുള്ള കുറേ ഫയലുകള് സോര്ട്ട് ചെയ്തു നോക്കിയാല് മതി. മലയാളം അകാരാദിക്രമം ഇല്ലാതിരുന്നതു് ഒരിക്കലും സാങ്കേതിക കാരണങ്ങള് കൊണ്ടല്ല. ഏതു് ക്രമമാണു് ശരി എന്നതിനു് ആധികാരികമെന്നു പറയാവുന്ന ഒരു നിര്വചനവും കണ്ടെത്താനാവാത്തതാണു്. ശബ്ദതാരാവലി തുടങ്ങിയ പല ഗ്രന്ഥങ്ങളിലും പല തരത്തിലാണു് അകാരാദിക്രമം ഉള്ളതെന്നാണു് ഇതിനെപ്പറ്റി അന്വേഷിച്ചപ്പോള് അറിയാന് കഴിഞ്ഞതു്. അക്ഷരമാലയിലെ ക്രമം അനുസരിച്ചാല് പോരേ എന്നു ചോദിച്ചേക്കാം. പക്ഷേ അതുകൊണ്ടുമാത്രം പോര. എന്തുകൊണ്ടാണെന്നു വഴിയേ പറയാം. ഇത്തരമൊരു അവസ്ഥയില് ഞാന് ഒരു അകാരാദിക്രമം ചര്ച്ചയ്ക്കായി അവതരിപ്പിയ്ക്കുകയാണു്. അതിനുമുമ്പു് അകാരാദിക്രമത്തിന്റെ പ്രാധാന്യത്തെപ്പറ്റി കുറച്ചു പറയട്ടെ. പേരുകളോ സ്ഥലപ്പേരുകളോ അകാരാദിക്രമത്തിലാക്കുന്നതു് നമുക്കു് സ്കൂള് വിദ്യാഭ്യാസകാലം മുതലേ പരിചയമാണു്. ക്ലാസിലെ റോള് നമ്പര് അതിനനുസരിച്ചായിരിക്കും. പരീക്ഷയില് അടുത്തു് ആരിരിയ്ക്കും, ഇന്റര്വ്യൂവിനു പോകുമ്പോള് പേരു വിളിയ്ക്കുന്നതു് ആദ്യമോ അവസാനമോ, തുടങ്ങി എത്രയോ സന്ദര്ഭങ്ങളില് ഈ ക്രമത്തെ കുറിച്ചു് നമ്മള് ചിന്തിച്ചിട്ടുമുണ്ടു്. 'ഒരു പരീക്ഷയില് ജയിച്ച 100 പേരില് ആദ്യത്തെ 10 പേര്ക്കു ജോലി കൊടുക്കാമെന്നു തീരുമാനിച്ചപ്പോള് സ എന്ന അക്ഷരത്തില് പേരുള്ളതുകൊണ്ടു് അവസാനമായിപ്പോയി ജോലി പോയി' എന്ന സന്ദര്ഭത്തെക്കുറിച്ചാലോചിച്ചു നോക്കൂ.. വ്യക്തിപരമായി, s എന്ന അക്ഷരത്തില് പേരു് തുടങ്ങിയതുകൊണ്ടു് ചില്ലറ വിഷമങ്ങള് ഉണ്ടായിട്ടുണ്ടു്. പക്ഷേ അതേ s പലപ്പോഴും നല്ലതായി ഭവിച്ചിട്ടുമുണ്ടു് :) അതുകൊണ്ടു് അകാരാദിക്രമം ജീവിതപ്രശ്നമാണെന്നു് ഞാന് പറയുന്നു...!
ചോദ്യം: പക്ഷേ മലയാളത്തിന്റെ അകാരാദിക്രമം യൂണിക്കോഡ് തീരുമാനിക്കില്ലേ? ഉത്തരം: തീര്ച്ചയായും!. അവര് അതു നേരത്തേ തന്നെ തീരുമാനിച്ചുവെന്നു തോന്നുന്നു. മലയാളത്തിന്റെ കോളേഷന് ചാര്ട്ട് ഇവിടെയുണ്ടു്: http://unicode.org/charts/collation/chart_Malayalam.html . വായിച്ചു നോക്കൂ. യരലവശഷസഹളഴറ എന്നതിനു പകരം യരറലള എന്ന ക്രമം കാണാം. കൂടാതെ ആ ചാര്ട്ടില് രണ്ടു് മലയാളം അക്ഷരങ്ങളെ കാണ്മാനില്ല! അനുസ്വാരം, വിസര്ഗ്ഗം (ം, ഃ) എന്നിവ അതിലില്ല. ആരാണു് ഈ പട്ടിക ഉണ്ടാക്കിയതെന്നറിയില്ല. ആരായാലും മലയാളിയാവാന് വഴിയില്ല. മലയാളം മാത്രമല്ല ഗുജറാത്തി, മറാത്തി എന്നിവയും തെറ്റാണു്. ബാക്കി ഭാഷകളുടെ കാര്യം ഇങ്ങനെയൊക്കെ തന്നെയാണെന്നാണു് അറിയാന് കഴിഞ്ഞതു്.
ഇനി നമ്മുടെ അകാരാദിക്രമത്തിലേയ്ക്കു വരാം. അക്ഷരമാലാക്രമം തന്നെയാണു് അടിസ്ഥാനമാക്കിയിട്ടുള്ളതു്. പക്ഷേ പൂര്ണ്ണമായും ആ ക്രമം അല്ല താനും. താഴെപ്പറയുന്നവയാണു് പ്രധാനമാറ്റങ്ങള് അല്ലെങ്കില് ശ്രദ്ധിയ്ക്കേണ്ട മാറ്റങ്ങള് :
1. അനുസ്വാരത്തെ മകാരത്തിന്റെ ചില്ലായി പരിഗണിച്ചിരിക്കുന്നു.കേരളപാണിനീയത്തില് അനുസ്വാരം മകാരത്തിന്റെ ചില്ലായി കണക്കാക്കാവുന്നതാണെന്നു പറഞ്ഞിട്ടുണ്ടു്. ഇതു പ്രകാരം കംപ്യൂട്ടര്-കമ്പ്യൂട്ടര്, പംപരം(ഇങ്ങനെ എഴുതാറില്ലെങ്കില് കൂടി)- പമ്പരം എന്നിവ അടുത്തടുത്തു വരും. മ് = ം എന്ന ഒരു നിയമമാണിതിനുപയോഗിച്ചതു്. കംപ്യൂട്ടര് കമ്പ്യൂട്ടര് എന്ന ക്രമമായിരിക്കും വരുന്നതു്. (ഈ മാറ്റം ഉമേഷേട്ടനാണു് നിര്ദ്ദേശിച്ചതു്)
2. മലയാള സ്വരചിഹ്നങ്ങള്ക്കു് യൂണിക്കോഡ് നിര്ദ്ദേശിച്ചിരിക്കുന്ന canonical equivalence പാലിച്ചിരിക്കുന്നു. താഴെ പറയുന്നവയാണവ: U+0D4A MALAYALAM VOWEL SIGN O = U+0D46 MALAYALAM VOWEL SIGN E + U+0D3E MALAYALAM VOWEL SIGN AA U+0D4B MALAYALAM VOWEL SIGN OO = U+0D47 MALAYALAM VOWEL SIGN EE + U+0D3E MALAYALAM VOWEL SIGN AA U+0D4C MALAYALAM VOWEL SIGN AU = U+0D46 MALAYALAM VOWEL SIGN E + U+0D57 MALAYALAM AU LENGTH MARK അതായതു് ൊ = െ + ാ ോ = േ + ാ ൌ = െ +ൗ ഇതിന് പ്രകാരം മേ + ാ + ഷണം == മോ + ഷണം == മോഷണം എന്നാവും അതായതു് മോ എന്നെങ്ങനെ എഴുതിയാലും അടുത്തടുത്തു വരും. കുറിപ്പു്: സാധാരണഗതിയില് ഇത്തരത്തില് സ്വരചിഹ്നങ്ങളെ പിരിച്ചെഴുതാറില്ല. ഇങ്ങനെ ഒരു നിയമം ഉണ്ടു് എന്നതുകൊണ്ടു മാത്രം ഇവിടെയും അതുചേര്ത്തു എന്നുമാത്രം (ഇതിനെപ്പറ്റിയുള്ള കൂടുതല് വിവരങ്ങള്ക്കു് എന്റെ ഈ ബ്ലോഗ് പോസ്റ്റ് കാണുക: http://santhoshtr.livejournal.com/11701.html)
3. ചില്ലക്ഷരങ്ങള്: യൂണിക്കോഡ് സ്റ്റാന്ഡേഡ് അനുശാസിയ്ക്കുന്ന പൂജ്യം കോളേഷന് വെയ്റ്റ്
> മലയാളം കമ്പ്യുട്ടിങ്ങിനെ സംബന്ധിച്ചിടത്തോളം സുപ്രധാനമായൊരു ആവശ്യകതയായ > അകാരാദിക്രമം(Sorting) ഇത്രയും കാലമായും നമുക്കു് ശരിയായ രീതിയില് ഇല്ല. > ഇപ്പോള് നിങ്ങള് മലയാളത്തില് കുറേവാക്കുകള് > അകാരാദിക്രമത്തിലാക്കിയാല് കിട്ടുന്ന ക്രമം യൂണിക്കോഡ് കോഡ് > പോയിന്റുകളുടെ ആരോഹണക്രമത്തിലായിരിക്കും. ഇതു പരിശോധിയ്ക്കാന് > മലയാളത്തിലുള്ള ഗ്നോമിലോ KDE യിലോ മലയാളം പേരുകളുള്ള കുറേ ഫയലുകള് > സോര്ട്ട് ചെയ്തു നോക്കിയാല് മതി. > മലയാളം അകാരാദിക്രമം ഇല്ലാതിരുന്നതു് ഒരിക്കലും സാങ്കേതിക കാരണങ്ങള് > കൊണ്ടല്ല. ഏതു് ക്രമമാണു് ശരി എന്നതിനു് ആധികാരികമെന്നു പറയാവുന്ന ഒരു > നിര്വചനവും കണ്ടെത്താനാവാത്തതാണു്. ശബ്ദതാരാവലി തുടങ്ങിയ പല > ഗ്രന്ഥങ്ങളിലും പല തരത്തിലാണു് അകാരാദിക്രമം ഉള്ളതെന്നാണു് ഇതിനെപ്പറ്റി > അന്വേഷിച്ചപ്പോള് അറിയാന് കഴിഞ്ഞതു്. അക്ഷരമാലയിലെ ക്രമം അനുസരിച്ചാല് > പോരേ എന്നു ചോദിച്ചേക്കാം. പക്ഷേ അതുകൊണ്ടുമാത്രം പോര. എന്തുകൊണ്ടാണെന്നു > വഴിയേ പറയാം. > ഇത്തരമൊരു അവസ്ഥയില് ഞാന് ഒരു അകാരാദിക്രമം ചര്ച്ചയ്ക്കായി > അവതരിപ്പിയ്ക്കുകയാണു്. അതിനുമുമ്പു് അകാരാദിക്രമത്തിന്റെ > പ്രാധാന്യത്തെപ്പറ്റി കുറച്ചു പറയട്ടെ. > പേരുകളോ സ്ഥലപ്പേരുകളോ അകാരാദിക്രമത്തിലാക്കുന്നതു് നമുക്കു് സ്കൂള് > വിദ്യാഭ്യാസകാലം മുതലേ പരിചയമാണു്. ക്ലാസിലെ റോള് നമ്പര് > അതിനനുസരിച്ചായിരിക്കും. പരീക്ഷയില് അടുത്തു് ആരിരിയ്ക്കും, > ഇന്റര്വ്യൂവിനു പോകുമ്പോള് പേരു വിളിയ്ക്കുന്നതു് ആദ്യമോ അവസാനമോ, > തുടങ്ങി എത്രയോ സന്ദര്ഭങ്ങളില് ഈ ക്രമത്തെ കുറിച്ചു് നമ്മള് > ചിന്തിച്ചിട്ടുമുണ്ടു്. 'ഒരു പരീക്ഷയില് ജയിച്ച 100 പേരില് ആദ്യത്തെ 10 > പേര്ക്കു ജോലി കൊടുക്കാമെന്നു തീരുമാനിച്ചപ്പോള് സ എന്ന അക്ഷരത്തില് > പേരുള്ളതുകൊണ്ടു് അവസാനമായിപ്പോയി ജോലി പോയി' എന്ന > സന്ദര്ഭത്തെക്കുറിച്ചാലോചിച്ചു നോക്കൂ.. വ്യക്തിപരമായി, s എന്ന > അക്ഷരത്തില് പേരു് തുടങ്ങിയതുകൊണ്ടു് ചില്ലറ വിഷമങ്ങള് > ഉണ്ടായിട്ടുണ്ടു്. പക്ഷേ അതേ s പലപ്പോഴും നല്ലതായി ഭവിച്ചിട്ടുമുണ്ടു് :) > അതുകൊണ്ടു് അകാരാദിക്രമം ജീവിതപ്രശ്നമാണെന്നു് ഞാന് പറയുന്നു...!
> ചോദ്യം: പക്ഷേ മലയാളത്തിന്റെ അകാരാദിക്രമം യൂണിക്കോഡ് തീരുമാനിക്കില്ലേ? > ഉത്തരം: തീര്ച്ചയായും!. അവര് അതു നേരത്തേ തന്നെ തീരുമാനിച്ചുവെന്നു > തോന്നുന്നു. മലയാളത്തിന്റെ കോളേഷന് ചാര്ട്ട് ഇവിടെയുണ്ടു്: > http://unicode.org/charts/collation/chart_Malayalam.html . വായിച്ചു > നോക്കൂ. യരലവശഷസഹളഴറ എന്നതിനു പകരം യരറലള എന്ന ക്രമം കാണാം. കൂടാതെ ആ > ചാര്ട്ടില് രണ്ടു് മലയാളം അക്ഷരങ്ങളെ കാണ്മാനില്ല! അനുസ്വാരം, > വിസര്ഗ്ഗം (ം, ഃ) എന്നിവ അതിലില്ല. ആരാണു് ഈ പട്ടിക > ഉണ്ടാക്കിയതെന്നറിയില്ല. ആരായാലും മലയാളിയാവാന് വഴിയില്ല. മലയാളം > മാത്രമല്ല ഗുജറാത്തി, മറാത്തി എന്നിവയും തെറ്റാണു്. ബാക്കി ഭാഷകളുടെ > കാര്യം ഇങ്ങനെയൊക്കെ തന്നെയാണെന്നാണു് അറിയാന് കഴിഞ്ഞതു്.
> ഇനി നമ്മുടെ അകാരാദിക്രമത്തിലേയ്ക്കു വരാം. > അക്ഷരമാലാക്രമം തന്നെയാണു് അടിസ്ഥാനമാക്കിയിട്ടുള്ളതു്. പക്ഷേ > പൂര്ണ്ണമായും ആ ക്രമം അല്ല താനും. താഴെപ്പറയുന്നവയാണു് > പ്രധാനമാറ്റങ്ങള് അല്ലെങ്കില് ശ്രദ്ധിയ്ക്കേണ്ട മാറ്റങ്ങള് :
> 1. അനുസ്വാരത്തെ മകാരത്തിന്റെ ചില്ലായി > പരിഗണിച്ചിരിക്കുന്നു.കേരളപാണിനീയത്തില് അനുസ്വാരം മകാരത്തിന്റെ > ചില്ലായി കണക്കാക്കാവുന്നതാണെന്നു പറഞ്ഞിട്ടുണ്ടു്. ഇതു പ്രകാരം > കംപ്യൂട്ടര്-കമ്പ്യൂട്ടര്, പംപരം(ഇങ്ങനെ എഴുതാറില്ലെങ്കില് കൂടി)- > പമ്പരം എന്നിവ അടുത്തടുത്തു വരും. മ് = ം എന്ന ഒരു > നിയമമാണിതിനുപയോഗിച്ചതു്. > കംപ്യൂട്ടര് > കമ്പ്യൂട്ടര് > എന്ന ക്രമമായിരിക്കും വരുന്നതു്. (ഈ മാറ്റം ഉമേഷേട്ടനാണു് നിര്ദ്ദേശിച്ചതു്)
> 2. മലയാള സ്വരചിഹ്നങ്ങള്ക്കു് യൂണിക്കോഡ് നിര്ദ്ദേശിച്ചിരിക്കുന്ന > canonical equivalence പാലിച്ചിരിക്കുന്നു. > താഴെ പറയുന്നവയാണവ: > U+0D4A MALAYALAM VOWEL SIGN O = U+0D46 MALAYALAM VOWEL SIGN E + U+0D3E > MALAYALAM VOWEL SIGN AA > U+0D4B MALAYALAM VOWEL SIGN OO = U+0D47 MALAYALAM VOWEL SIGN EE + > U+0D3E MALAYALAM VOWEL SIGN AA > U+0D4C MALAYALAM VOWEL SIGN AU = U+0D46 MALAYALAM VOWEL SIGN E + > U+0D57 MALAYALAM AU LENGTH MARK > അതായതു് > ൊ = െ + ാ > ോ = േ + ാ > ൌ = െ +ൗ > ഇതിന് പ്രകാരം > മേ + ാ + ഷണം == മോ + ഷണം == മോഷണം എന്നാവും > അതായതു് മോ എന്നെങ്ങനെ എഴുതിയാലും അടുത്തടുത്തു വരും. > കുറിപ്പു്: സാധാരണഗതിയില് ഇത്തരത്തില് സ്വരചിഹ്നങ്ങളെ > പിരിച്ചെഴുതാറില്ല. ഇങ്ങനെ ഒരു നിയമം ഉണ്ടു് എന്നതുകൊണ്ടു മാത്രം > ഇവിടെയും അതുചേര്ത്തു എന്നുമാത്രം (ഇതിനെപ്പറ്റിയുള്ള കൂടുതല് > വിവരങ്ങള്ക്കു് എന്റെ ഈ ബ്ലോഗ് പോസ്റ്റ് കാണുക: > http://santhoshtr.livejournal.com/11701.html)
> സന്തോഷ്, > 5 ാമത്തെ മാറ്റം ഒന്നു നോക്കാമോ ? അതു രണ്ടും ഒന്നല്ലേ ?൧൦
ശരിയാണു്. ഇങ്ങനെ തിരുത്തി വായിയ്ക്കുക [...] 5. ചന്ദ്രക്കല : ഇതിന്റെ കാര്യത്തില് എനിക്കു സംശയം ഉണ്ടു് ക് ക കാ എന്ന ക്രമമാണോ, അതോ ക ക് കാ എന്ന ക്രമമാണോ വേണ്ടതെന്നു്. [...]
> 5. ചന്ദ്രക്കല : > ഇതിന്റെ കാര്യത്തില് എനിക്കു സംശയം ഉണ്ടു് > ക് > ക > കാ > എന്ന ക്രമമാണോ, അതോ > ക > ക് > കാ > എന്ന ക്രമമാണോ വേണ്ടതെന്നു്. > [...]
ഉച്ചാരണാടിസ്ഥാനത്തിലുള്ള ക്രമമായിരിക്കും നല്ലതു്.
ക് - എന്ന ശബ്ദം ഒറ്റക്ക് നിലില്ക്കുന്നില്ലല്ലോ. വാക്കിന്റെ അവസാനം വരുന്നതു് സംവൃതോപകാരത്തോടു് കൂടി അയിരിക്കുമല്ലോ. അപ്പോള് സംവൃതോപകാരത്തിന്റെ സ്ഥാനമാണ് തീരുമാനിക്കേണ്ടതു്. അത് ആദ്യത്തേതാകുന്നതാകും നല്ലതു്
> ക് - എന്ന ശബ്ദം ഒറ്റക്ക് നിലില്ക്കുന്നില്ലല്ലോ. വാക്കിന്റെ അവസാനം > വരുന്നതു് സംവൃതോപകാരത്തോടു് കൂടി അയിരിക്കുമല്ലോ. അപ്പോള് സംവൃതോപകാരത്തിന്റെ > സ്ഥാനമാണ് തീരുമാനിക്കേണ്ടതു്. അത് ആദ്യത്തേതാകുന്നതാകും നല്ലതു്
>> ക് - എന്ന ശബ്ദം ഒറ്റക്ക് നിലില്ക്കുന്നില്ലല്ലോ. വാക്കിന്റെ അവസാനം >> വരുന്നതു് സംവൃതോപകാരത്തോടു് കൂടി അയിരിക്കുമല്ലോ. അപ്പോള് സംവൃതോപകാരത്തിന്റെ >> സ്ഥാനമാണ് തീരുമാനിക്കേണ്ടതു്. അത് ആദ്യത്തേതാകുന്നതാകും നല്ലതു്
സംവൃതോപകാരമല്ല, സംവൃതോകാരമാണു്.. സംവൃത ഉകാരം.. തു്, കു് , രു് എന്നിവ ഉദാഹരണം. ക്, ത്, ര് എന്നിവ സംവൃതോകാരമല്ല, സ്വരസാന്നിദ്ധ്യമില്ലാത്ത അക്ഷരങ്ങളാണു്. എന്നിരിക്കിലും, "അച്ചടി" യില് pseudo-സംവൃതോകാരമായി അവ ഉപയോഗിച്ചു കാണുന്നു.. സംവൃതോകാരത്തിന്റെ സ്ഥാനം കൊടുത്തിരിക്കുന്നതു് ഉകാരത്തിനു ശേഷം ആണു് അതാ, അതു, അതു്
അന്നു് നമ്മള് ചര്ച്ച ചെയ്ത അകാരാദിക്രമത്തിനു പല പോരായ്മയും ഉള്ളതായി പിന്നീടു് മനസ്സിലായി. പ്രധാനമായും താഴെപ്പറയുന്നതായിരുന്നു പ്രശ്നങ്ങള് 1. ത, ത് എന്നിവ ഏതു ക്രമത്തില് ആവണം എന്നു്. ത എന്നതു് ത് നു് ശേഷം വരണമെന്നാണു് പൊതുവിലെ അഭിപ്രായം. കാരണം ത് എന്നതു് അകാരമില്ലാത്ത ത ആയതുകൊണ്ടുതന്നെ. അതുപോലെ കൂട്ടക്ഷരങ്ങള് അവസാനം വരണം എന്നാണു് മനസ്സിലായതു്. അങ്ങനെ വരുമ്പോള് ത എന്നതിലെ ഒളിഞ്ഞിരിക്കുന്ന അകാരത്തെ ഗൌരവമായി തന്നെ എടുക്കേണ്ടിവന്നു. ത = ത് + അ എന്ന രീതിയില് എടുത്തപ്പോള് സംഗതി എളുപ്പമായി . 2. സംവൃതോകാരം ഈയുടെ ചിഹനത്തിനും ഉ ചിഹ്നത്തിനും ഇടയില് വരുന്നുണ്ടായിരുന്നില്ല. അതു ശരിയാക്കി 3. അന്നു് മാറ്റിയെഴുതിയതു് ml_IN എന്ന ഫയലായിരുന്നു, പക്ഷേ, മലയാളത്തിന്റെ കൂടെ വേറെ ഭാഷകള് ക്രമീകരിക്കേണ്ടി വരുമ്പോള് ലൊക്കേല് സെറ്റിങ്ങനുസരിച്ച് ഏതെങ്കിലും ഒരു ഭാഷ മാത്രമേ സോര്ട്ട് ആവുന്നുണ്ടായിരുന്നുള്ളൂ.
രചന അക്ഷരവേദി കുറച്ചു വര്ഷങ്ങള് മുന്പ് പ്രസിദ്ധീകരിച്ച ലേഖനമാണു്(അറ്റാച്ച് ചെയ്തിരിക്കുന്നു-rachana-malayalam-collation.pdf) പുതിയ അകാരാദിക്രമത്തിനു് ആധാരമായി എടുത്തതു്. തിരുത്തിയെഴുതിയ അകാരാദിക്രമത്തിന്റെ നിയമങ്ങള് (malayalam-collation.pdf) അറ്റാച്ചു ചെയ്തിരിക്കുന്നു.
Glibc യുടെ പുതുക്കിയ കൊളേഷന് ടേബിള് അറ്റാച്ചു ചെയ്തിരിക്കുന്നു. ഈ ഫയല് /usr/share/i18n/locales എന്ന സ്ഥലത്തു് വെയ്ക്കണം(നേരത്തെ ഉള്ള ഫയല് ബാക്ക് അപ് ചെയ്യുക) എന്നിട്ട് ലൊക്കേലുകള് പുതുക്കുക : $sudo locale-gen (or use sudo dpkg-reconfigure locales) . അതിനുശേഷം ഏതെങ്കിലും എഡിറ്ററില് കുറേ മലയാളം വാക്കുകളെഴുതി സോര്ട്ട് ചെയ്തു നോക്കുക.[locale-gen is available in debian based systems. In fedora based systems, I am not sure how to modify the existing table by this table. ]
Minor corrections were made in the collation table after a review by
Pravin Satpute. Notable difference is
<U0D02> "<ml-ma><ml-virama><mlvw-shorta>";<BAS>;<MIN>;IGNORE # ം = മ
+ ്
to
<U0D02> "<ml-ma><ml-virama>";<BAS>;<MIN>;IGNORE # ം = മ + ്
That was mistake and corrected now. No other changes
Modified table present in SMC's git source code repository
http://git.savannah.gnu.org/gitweb/?p=smc.git;a=tree;f=collation
ഷെമിച്ചു ബേഗലു... വീണ്ടും നടത്തിയ പരിശോധനയില് കുറച്ചു കൂടി ചില്ലറ പിഴവുകള് കണ്ടെത്തിയിട്ടൂണ്ടു്. ഫിക്സു ചെയ്യാന് സമയമെടുത്തേക്കും. വളരെ പ്രധാനപ്പെട്ട സംഗതിയായതുകൊണ്ടു് കുറ്റമറ്റതാക്കാന് ശ്രദ്ധിക്കേണ്ടതുണ്ടു് -സന്തോഷ് തോട്ടിങ്ങല്
> ഷെമിച്ചു ബേഗലു... > വീണ്ടും നടത്തിയ പരിശോധനയില് കുറച്ചു കൂടി ചില്ലറ പിഴവുകള് > കണ്ടെത്തിയിട്ടൂണ്ടു്. ഫിക്സു ചെയ്യാന് സമയമെടുത്തേക്കും. > വളരെ പ്രധാനപ്പെട്ട സംഗതിയായതുകൊണ്ടു് കുറ്റമറ്റതാക്കാന് > ശ്രദ്ധിക്കേണ്ടതുണ്ടു്
ഇപ്പോള് ശരിയായെന്നു തോന്നുന്നു. പുതിയ ടേബിള് ഗിറ്റില് ചേര്ത്തിട്ടുണ്ടു്. അറ്റാച്ചു ചെയ്തിട്ടുമുണ്ടു്. എല്ലാവരും ഒന്നുകൂടി ടെസ്റ്റ് ചെയ്യുമല്ലോ? നേരത്തേ പറഞ്ഞ 8 നിയമങ്ങള് തന്നെയാണു്. അതില് മാറ്റമൊന്നുമില്ല.
ചോദ്യം: പക്ഷേ മലയാളത്തിന്റെ അകാരാദിക്രമം യൂണിക്കോഡ് തീരുമാനിക്കില്ലേ? ഉത്തരം: തീര്ച്ചയായും!. അവര് അതു നേരത്തേ തന്നെ തീരുമാനിച്ചുവെന്നു തോന്നുന്നു. മലയാളത്തിന്റെ കോളേഷന് ചാര്ട്ട് ഇവിടെയുണ്ടു്: http://unicode.org/charts/collation/chart_Malayalam.html . വായിച്ചു നോക്കൂ. യരലവശഷസഹളഴറ എന്നതിനു പകരം യരറലള എന്ന ക്രമം കാണാം. കൂടാതെ ആ ചാര്ട്ടില് രണ്ടു് മലയാളം അക്ഷരങ്ങളെ കാണ്മാനില്ല! അനുസ്വാരം, വിസര്ഗ്ഗം (ം, ഃ) എന്നിവ അതിലില്ല. ആരാണു് ഈ പട്ടിക ഉണ്ടാക്കിയതെന്നറിയില്ല. ആരായാലും മലയാളിയാവാന് വഴിയില്ല. മലയാളം മാത്രമല്ല ഗുജറാത്തി, മറാത്തി എന്നിവയും തെറ്റാണു്. ബാക്കി ഭാഷകളുടെ കാര്യം ഇങ്ങനെയൊക്കെ തന്നെയാണെന്നാണു് അറിയാന് കഴിഞ്ഞതു്.
അനുസ്വാരം, വിസര്ഗ്ഗം (ം, ഃ) Values are available in Unicode
> 2009/1/4 santhosh.thottin...@gmail.com <santhosh.thottin...@gmail.com>: > > ഷെമിച്ചു ബേഗലു... > > വീണ്ടും നടത്തിയ പരിശോധനയില് കുറച്ചു കൂടി ചില്ലറ പിഴവുകള് > > കണ്ടെത്തിയിട്ടൂണ്ടു്. ഫിക്സു ചെയ്യാന് സമയമെടുത്തേക്കും. > > വളരെ പ്രധാനപ്പെട്ട സംഗതിയായതുകൊണ്ടു് കുറ്റമറ്റതാക്കാന് > > ശ്രദ്ധിക്കേണ്ടതുണ്ടു്
> ഇപ്പോള് ശരിയായെന്നു തോന്നുന്നു. പുതിയ ടേബിള് ഗിറ്റില് > ചേര്ത്തിട്ടുണ്ടു്. അറ്റാച്ചു ചെയ്തിട്ടുമുണ്ടു്. > എല്ലാവരും ഒന്നുകൂടി ടെസ്റ്റ് ചെയ്യുമല്ലോ? > നേരത്തേ പറഞ്ഞ 8 നിയമങ്ങള് തന്നെയാണു്. അതില് മാറ്റമൊന്നുമില്ല.
On Feb 28, 1:29 pm, "Rajeev R.R" <rajeev...@gmail.com> wrote:
> ചോദ്യം: പക്ഷേ മലയാളത്തിന്റെ അകാരാദിക്രമം യൂണിക്കോഡ് തീരുമാനിക്കില്ലേ? > ഉത്തരം: തീര്ച്ചയായും!. അവര് അതു നേരത്തേ തന്നെ തീരുമാനിച്ചുവെന്നു > തോന്നുന്നു. മലയാളത്തിന്റെ കോളേഷന് ചാര്ട്ട് ഇവിടെയുണ്ടു്:http://unicode.org/charts/collation/chart_Malayalam.html. വായിച്ചു > നോക്കൂ.
It is better to quote the part of the mail you are replying instead of copy pasting. Readers can understand who wrote what.
> അനുസ്വാരം, > വിസര്ഗ്ഗം (ം, ഃ) Values are available in Unicode