देवनागरी शाटन (sorting) के लिए प्रोग्राम

96 views
Skip to first unread message

Anunad Singh

unread,
Sep 27, 2013, 1:44:51 PM9/27/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
देवनागरी का शाटन कर सकते हैं।
Devanagari Kramak_12.zip

Dharmendra Pare

unread,
Sep 27, 2013, 11:12:22 PM9/27/13
to technic...@googlegroups.com
वाह मजा आ गया । दो छोटे से प्रयोग करके देखे । बिल्‍कुल ठीक । बहुत बहुत बधाई । 


2013/9/27 Anunad Singh <anu...@gmail.com>
देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
देवनागरी का शाटन कर सकते हैं।

--
आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.
अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

Madhusudan H Jhaveri

unread,
Sep 27, 2013, 11:21:18 PM9/27/13
to technic...@googlegroups.com
धर्मेन्द्र जी से सहमति। अनुनाद जी, आपकी सेवा प्रशंसनीय है।
डॉ. मधु(सूदन) झवेरी 

narayan prasad

unread,
Sep 28, 2013, 4:05:04 AM9/28/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
बहुत अच्छा, अनुनाद जी ।
इस प्रोग्राम को और बेहतर एवं विस्तारित करने हेतु सुझाव -
(क) बेहतर बनाने हेतु सुझाव
 1. बॉक्स को छोड़कर बाकी क्षेत्र को पीले रंग से भरने से थोड़ा देखने में अच्छा लगेगा, जैसा कि कई अन्य परिवर्तकों में किया गया है ।
 2. शाटित शब्दों के पूर्व क्रम संख्या दी जाय ।
 3. सभी पुनरावर्तित शब्दों को अलग-अलग दिखाने के बदले केवल एक ही बार लिखकर उसके दाएँ तरफ पुनरावर्तन की संख्या सूचित की जाय ।

(ख) विस्तारित करने हेतु सुझाव
 1. अभी जो शाटन किया गया है वह अनुलोम शाटन है, अर्थात् शब्दों को बाएँ से दाएँ वर्ण-क्रमानुसार रखा गया है । प्रतिलोम शाटन (reverse sorting) भी भाषा विश्लेषण हेतु बहुत उपयोगी होता है । जैसे, सभी समान प्रत्ययान्त शब्दों को इकट्ठा समाविष्ट किए जाने से शब्दों की रचना समझी जा सकती है । उदाहरणार्थ, मगही में '-गर' प्रत्ययान्त शब्दों (मजगर, नटगर, लमगर, मोटगर, छरगर, सवदगर, टेसगर, उमरगर, तीतगर, ...) की एकत्र सूची बनाई जाय तो भाषा के अध्ययन-अध्यापन में बड़ी आसानी होगी । अनुलोम शाटन में ये शब्द एक दूसरे से बहुत दूर-दूर पर रखने पड़ेंगे ।
 2. प्रतिलोम शाटन में भी दो तरह के विकल्प रखे जा सकते हैं - (i) सभी शब्दों को क्रम से रखे जा सकते हैं (ii) पहले सभी एक अक्षर वाले शब्दों को, फिर सभी दो अक्षर वाले शब्दों को, उसके आगे सभी तीन अक्षर वाले शब्दों को ... । विस्तार से समझने के लिए देखें - मगही धातुपाठ में इस प्रकार शाटित धातुओं की सूची । यहाँ इस प्रकार का शाटन Delphi प्रोग्राम से किया गया था ।
--- नारायण प्रसाद




2013/9/27 Anunad Singh <anu...@gmail.com>
देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
देवनागरी का शाटन कर सकते हैं।

Anunad Singh

unread,
Sep 28, 2013, 4:09:05 AM9/28/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
धर्मेन्द्र जी और मधुसूदन जी,

प्रोग्राम को जाँचने और अपनी त्वरित प्रतिक्रिया देने के लिए धन्यवाद।

ओपेनआफिस (Calc) और एमएस आफिस (Exel) में जो शॉटन होता है वह देवनागरी के लिए उपयुक्त नहीं है। वह देवनागरी वर्णों के यूनिकोड पॉंइंट के आरोही या अवरोही क्रम के आधार पर किया जाता है।  यह अंग्रेजी एवं अन्य यूरोपीय भाषाओं की लिपियों के लिए तो ठीक है (क्योंकि वे अल्फाबेट आधारित हैं) किन्तु देवनागरी एवं अन्य भारतीय लिपियों के लिए नहीं।  यह भी ध्यातव्य है कि कैल्क और इक्सेल आदि में 'कस्टम सॉर्टिंग क्रम' की भी सुविधा है। किन्तु उससे भी भारतीय लिपियों में शॉटन का काम नहीं बन पाता है।

यह प्रोग्राम इसी कमी की पूर्ति के लिए बनाया गया है।

अभी इस प्रोग्राम में निम्नलिखित परिवर्धन करना शेष है-
(१) इसको कुछ सीमा तक लचीला (कस्टमाइजेबल) बनाना है जिससे प्रयोक्ता  अपने इच्छित क्रम में शाटन कर सकें।

(२) दो-तीन बहुप्रचलित देवनागरी शाटन क्रमों को चुनने की व्यवस्था

(३) इसे सभी भारतीय लिपियों (ब्राह्मी व्युत्पन्न लिपियों) के साथ काम करने के योग्य बनाना

(४) रोमन तथा अन्य लिपियों के मिश्रित होने पर भी काम करने के योग्य बनाना

(५) 'पाठ विलगक' (टेक्स्ट सेपरेटर)  के रूप में  नई लाइन (\n) , खाली जगह (स्पेस), कॉमा, टैब आदि को चुनने की सुविधा देना ( 'राम मोहन' तथा 'राम चन्द्र' की तुलना करनी हो तो...)

(६) कुछ चीजों को नजरअंदाज करने/न करने का विकल्प देना (जैसे 'दिन-रात' में स्थित '-' के लिए )

(७) वाक्यांशों की तुलना में किसी शब्द (जैसे 'का' ) को नजरअंदाज करने का विकल्प आदि

आपके ध्यान में भी इस तरह की कोई सुविधा हो तो कृपया अवश्य बताएँ।

-- अनुनाद




2013/9/28 Madhusudan H Jhaveri <mjha...@umassd.edu>
Boxbe This message is eligible for Automatic Cleanup! (mjha...@umassd.edu) Add cleanup rule | More info

धर्मेन्द्र जी से सहमति। अनुनाद जी, आपकी सेवा प्रशंसनीय है।
डॉ. मधु(सूदन) झवेरी 


----- Original Message -----
From: Dharmendra Pare <dharmen...@gmail.com>
To: technic...@googlegroups.com
Sent: Fri, 27 Sep 2013 23:12:22 -0400 (EDT)



--
जब भी देश पर विपत्ति, जुल्म, गुलामी की मुसीबत आई है।
अपनी यह हिंदी ही काम आई है।
रामानंद और रामानुजाचार्य से लेकर
अन्ना तक सबने हिंदी ही अपनाई है।

Anunad Singh

unread,
Sep 28, 2013, 4:24:21 AM9/28/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
नारायण प्रसाद जी,

विस्तृत सुझाव के लिए बहुत-बहुत धन्यवाद। आगामी संस्करणों में आपके सुझावों को सम्मिलित करने का प्रयास करूँगा।

आपने प्रतिलोम शाटन ( शब्द के अन्त से आदि की तरफ आते हुए तुलना / 'रिट्रोग्रेड शॉर्टिंग" ) की बात की है। यह २००७ में मैने बनाया था। उसमें अनुलोम और प्रतिलोम दोनों शाटन की व्यवस्था थी। किन्तु अनुलोम शाटन देवनागरी की दृष्टि से नहीं बल्कि यूनिकोड प्वाइंट की दृष्टि से था। परन्तु प्रतिलोम शाटन बिलकुल देवनागरी की दृष्टि से था।  इस प्रोग्राम को भी संलग्न कर रहा हूँ।

-- अनुनाद

Devanagari Pratilom Kramak_07.zip

V S Rawat

unread,
Sep 28, 2013, 4:53:36 AM9/28/13
to technic...@googlegroups.com
On 9/27/2013 11:14 PM, Anunad Singh wrote:
> देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
> देवनागरी का शाटन कर सकते हैं।
>

यह अच्छा काम कर रहा है जैसी आपकी मंशा रही होगी।


सुझाव
- स्पेस आदि से अलग किए गए शब्दों को अलग अलग लाइन पर लेना और एक एक शब्द को सॉर्ट
करना, उतना उपयोगी नहीं हो पाएगा।

विकल्प दीजिए कि पूरी लाइन को सॉर्ट कर दे, या वर्तमान तरीके से।
पूरी लाइन को सॉर्ट कर पाए तो हम वर्ड की टेबल का कोई कॉलम या एक्सेल का कोई कॉलम
एक एक करके इसमें डाल के सॉर्ट कर पाएँगे चाहे उस कॉलम की हर पंक्ति में जितने भी शब्द हों.

या फिर या साथ ही विकल्प दे सकते हैं कि शब्दों को अलग करने वाला वर्ण कौन सा है, क्या
स्पेस या कॉमा या सेमी कोलन या टैब या फिर न्यूलाइन, और फिर उस अकेले वर्ण से शब्दों को
अलग अलग करके उनको क्रमबद्ध करेंगे तो सभी अपनी-अपनी सुविधानुसार कर सकेंगे।

सोर्स देखा।
1. आपने अलग से नुक्ता लगाए हुए वर्णों को नुक्ते वाले वर्णों में बदल के बहुत बढ़िया काम किया है।

2. किसी भी वर्ण को हटाइए मत। स्पेस को न्यूलाइन में मत बदलिए। इससे तो इनपुट ही बदल
जाएगा और हमारी जानकारी में भी नहीं आएगा। आप ; . , । आदि को हटा रहे हैं। ऐसा मत
कीजिए।

अगर सॉर्टिंग के लिए किसी बदलाव की तकनीकी ज़रूरत है ही तो हर वर्ण को किसी अनन्य
वर्ण में बदल दीजिए जो टेक्स्ट में हो ही नहीं सकता और फिर सॉर्टिंग के बाद उस अनन्य वर्ण
को वापस पुराने वर्ण में बदल दीजिए।

कुल मिला कर मुझे लगता है कि अगर इसे एक्सेल या वर्ड के एक कॉलम को सॉर्ट करने के हिसाब
से बनाया जाए तो लोगों के लिए अधिक उपयोगी रहेगा क्योंकि सभी का इस प्रकार का डेटा
या तो एक्सेल में रहता है, या वर्ड की टेबल में। या बाकी डेटा फ़ाइलों सीएसवी एक्सेस
एसक्यूएल वगैरह से एक्सेल के फ़ॉर्मेट में लाया ही जा सकता है।

कोई किसी रनिंग पैराग्राफ़ के एक एक शब्द को सॉर्ट करेगा ऐसी संभावना मुझे नहीं दिखती
है। लेकिन अगर करे भी तो पहले वर्ड में पाठ को खोल कर 2-4 ग्लोबल रिप्लेसमेंट करके वो सब
कर लेगा जो ये प्रोग्राम कर रहा है, फिर इसमें सॉर्ट कर लेगा। लेकिन अगर मौज़ूदा तरीका
ही रखा तो बाकी किसी तरीके से उपयोग में नहीं आ पाएगा।

--

देवनागरी में पहली बार सॉर्टिंग देखी। बहुत दिनों से सोच रहा था कि ऐसा कुछ होना
चाहिए, ज़िक़्र भी किया था समूह में, लेकिन समझ नहीं आया था कि किया कैसे जाए। यह आपने
एकदम अभूतपूर्व काम किया है।

धन्यवाद।
रावत

narayan prasad

unread,
Sep 28, 2013, 5:54:30 AM9/28/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
प्रतिलोम शाटन प्रोग्राम बिलकुल नहीं काम कर रहा । मैं शाटन हेतु एक पूरी कहानी ही डाल दी, जिसमें करीब डेढ़ हजार शब्द हैं । परन्तु प्रोग्राम केवल पहले वाक्य के शब्दों को ग्रहण कर रहा है । उसमें भी शाटन का कार्य बिलकुल नहीं हो रहा ।
--- नारायण प्रसाद

Anunad Singh

unread,
Sep 28, 2013, 7:17:45 AM9/28/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
पूरी कहानी डालेंगे तो फंस जाएगा। यह पुराना प्रोग्राम है जो नए वाले प्रोग्राम जितना 'मजबूत' (rugged) नहीं है।

अच्छा हो कि आप नए प्रोग्राम से अनुलोम क्रम में बदल लें। जो परिणाम आये उसे कॉपी करके प्रतिलोम वाले में डालें और परिणाम देखें।



2013/9/28 narayan prasad <hin...@gmail.com>
Boxbe This message is eligible for Automatic Cleanup! (hin...@gmail.com) Add cleanup rule | More info

प्रतिलोम शाटन प्रोग्राम बिलकुल नहीं काम कर रहा । मैं शाटन हेतु एक पूरी कहानी ही डाल दी, जिसमें करीब डेढ़ हजार शब्द हैं । परन्तु प्रोग्राम केवल पहले वाक्य के शब्दों को ग्रहण कर रहा है । उसमें भी शाटन का कार्य बिलकुल नहीं हो रहा ।
--- नारायण प्रसाद

--
आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.
अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

Anunad Singh

unread,
Sep 28, 2013, 7:37:01 AM9/28/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
रावत जी,
आपके सुझावों एवं उत्साहवर्धक टिप्पणी के लिए धन्यवाद

आपके सभी सुझाव अत्यन्त उपयोगी हैं। मेरे भी मन में यही है कि इसको ऐसा बनाया जाय कि जिस प्रकार Exel/Calc टेबुलर आंकड़ों को शाटित करते हैं वैसे ही यह CSV को शाटित कर दे।

इसी तरह मैं इसमें 'स्पेस' को न्यू लाइन में जबरन बदलने के बजाय प्रयोक्ता की इच्छा के आधार पर कॉमा, स्पेस, न्यू लाइन, टैब आदि पर टेक्स्ट को तोड़ने का विकल्प प्रदान करूँगा।

--अनुनाद


2013/9/28 V S Rawat <vsr...@gmail.com>
Boxbe This message is eligible for Automatic Cleanup! (vsr...@gmail.com) Add cleanup rule | More info

On 9/27/2013 11:14 PM, Anunad Singh wrote:
देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
देवनागरी का शाटन कर सकते हैं।


--
आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hindi+unsubscribe@googlegroups.com को एक ईमेल भेजें.

अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

Anubhav Chattoraj

unread,
Sep 28, 2013, 7:48:41 AM9/28/13
to technical-hindi
अनुनाद जी, आपका कोड थोड़ा लंबा लगा, इसलिए मैंने कुछ बदलाव किए। संलग्न
फ़ाइल देखिए।

2013/9/27 Anunad Singh <anu...@gmail.com>:
> देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
> देवनागरी का शाटन कर सकते हैं।
>
> --
> आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
> इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.
Devanagari Kramak_12_new.html

Anunad Singh

unread,
Sep 28, 2013, 8:11:53 AM9/28/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
अनुभव जी,
नमस्ते
आपका कोड देखकर बहुत खुशी हुई। आपके कोड में एक 'प्रोफेशनल टच' है जो हमारे वाले में नहीं है। वैसे मैं प्रोग्रामर या कम्प्यूटर विज्ञानी हूँ भी नहीं।

पर मैं देख रहा हूँ कि आपके कोड का अल्गोरिद्म बदल गया है। (जिसको ठीक किया जा सकता है) । मूल प्रोग्राम  'किम्' को पहले रखता है और 'किम' को बाद में। आपका कोड यह नहीं कर रहा है।

खैर विस्तृत टिप्पणी मैं बाद में करूँगा। अभी तो इतना कहूँगा कि आपके आने से हिन्दी एवं भारतीय भाषाओं के लिए प्रोग्राम विकसित करने में बहुत सहायता मिलेगी।

-- अनुनाद


2013/9/28 Anubhav Chattoraj <anubhav....@gmail.com>
Boxbe This message is eligible for Automatic Cleanup! (anubhav....@gmail.com) Add cleanup rule | More info

अनुनाद जी, आपका कोड थोड़ा लंबा लगा, इसलिए मैंने कुछ बदलाव किए। संलग्न
फ़ाइल देखिए।

2013/9/27 Anunad Singh <anu...@gmail.com>:
> देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
> देवनागरी का शाटन कर सकते हैं।
>
> --
> आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
> इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.
> अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

--
आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.
अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

Anubhav Chattoraj

unread,
Sep 28, 2013, 9:27:58 AM9/28/13
to technical-hindi
अनुनाद जी,

प्रशंसा का पात्र बनाने के लिए आपका बहुत धन्यवाद। लेकिन कहना चाहूँगा कि आपने शायद मुझे ज़्यादा आँक लिया है। मैं भी प्रोफ़ेशनल प्रोग्रामर नहीं हूँ, सिर्फ़ कंप्यूटर विज्ञान का छात्र हूँ।

खैर, शाटन-क्रम कट-पेस्ट की गलती के कारण बदल गया है। इसे आसानी से ठीक किया जा सकता है -- अवग्रह और हल-चिह्न sort_order की आखिरी पंक्ति में नहीं, पहली पंक्ति पर अंकों के बाद आने चाहिए।

लेकिन आपके क्रमानुसार संयुक्ताक्षर मूल अक्षर के पहले आते हैं। "क्रम" इत्यादि शब्द "कम" के पहले रखे जाते हैं। क्या ये सच में उचित है?

2013/9/28 Anunad Singh <anu...@gmail.com>

narayan prasad

unread,
Sep 28, 2013, 9:44:49 AM9/28/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
<<"क्रम" इत्यादि शब्द "कम" के पहले रखे जाते हैं। क्या ये सच में उचित है?>>

मेरे विचार में तो नहीं । इसी बात से मुझे यह लगता है कि 'किम्' को 'किम' के बाद आना चाहिए, अर्थात् किम, किमा, किमि, ..., किमौ, किम् - यह क्रम होना चाहिए ।
--- नारायण प्रसाद

V S Rawat

unread,
Sep 28, 2013, 10:04:44 AM9/28/13
to technic...@googlegroups.com
मुझे आप दोनों से उल्टा लगता है।

मुझे ऐसा लगता है जब म्, आधा म है तो इसे पूरे अक्षर से पहले आना चाहिए।

सभी वर्णों में सबसे पहले आधा अक्षर, फिर पूरा अक्षर, फिर एक एक करके मात्राओं वाले अक्षर
आने चाहिए।

संयुक्ताक्षर भी अक्षरों को आधा मान के उसके क्रम में आने चाहिए।

खैर इसके लिए कोई भी छपा हुआ हिन्दी शब्दकोश देख लीजिए, जो भी क्रम हो, उसी क्रम को
अपनाया जा सकता है।

धन्यवाद
रावत

On 9/28/2013 7:14 PM, narayan prasad wrote:
> <<"क्रम" इत्यादि शब्द "कम" के पहले रखे जाते हैं। क्या ये सच में उचित है?>>
>
> मेरे विचार में तो नहीं । इसी बात से मुझे यह लगता है कि 'किम्' को 'किम' के बाद आना
> चाहिए, अर्थात् किम, किमा, किमि, ..., किमौ, किम् - यह क्रम होना चाहिए ।
> --- नारायण प्रसाद
>
>
>
> 2013/9/28 Anubhav Chattoraj <anubhav....@gmail.com
> <mailto:anubhav....@gmail.com>>
>
> अनुनाद जी,
>
> प्रशंसा का पात्र बनाने के लिए आपका बहुत धन्यवाद। लेकिन कहना चाहूँगा कि आपने
> शायद मुझे ज़्यादा आँक लिया है। मैं भी प्रोफ़ेशनल प्रोग्रामर नहीं हूँ, सिर्फ़ कंप्यूटर
> विज्ञान का छात्र हूँ।
>
> खैर, शाटन-क्रम कट-पेस्ट की गलती के कारण बदल गया है। इसे आसानी से ठीक किया जा
> सकता है -- अवग्रह और हल-चिह्न sort_order की आखिरी पंक्ति में नहीं, पहली पंक्ति
> पर अंकों के बाद आने चाहिए।
>
> लेकिन आपके क्रमानुसार संयुक्ताक्षर मूल अक्षर के पहले आते हैं। "क्रम" इत्यादि शब्द "कम"
> के पहले रखे जाते हैं। क्या ये सच में उचित है?
>
>
> 2013/9/28 Anunad Singh <anu...@gmail.com <mailto:anu...@gmail.com>>
>
> अनुभव जी,
> नमस्ते
> आपका कोड देखकर बहुत खुशी हुई। आपके कोड में एक 'प्रोफेशनल टच' है जो हमारे
> वाले में नहीं है। वैसे मैं प्रोग्रामर या कम्प्यूटर विज्ञानी हूँ भी नहीं।
>
> पर मैं देख रहा हूँ कि आपके कोड का अल्गोरिद्म बदल गया है। (जिसको ठीक किया
> जा सकता है) । मूल प्रोग्राम 'किम्' को पहले रखता है और 'किम' को बाद में।
> आपका कोड यह नहीं कर रहा है।
>
> खैर विस्तृत टिप्पणी मैं बाद में करूँगा। अभी तो इतना कहूँगा कि आपके आने से हिन्दी
> एवं भारतीय भाषाओं के लिए प्रोग्राम विकसित करने में बहुत सहायता मिलेगी।
>
> -- अनुनाद
>
>
> 2013/9/28 Anubhav Chattoraj <anubhav....@gmail.com
> <mailto:anubhav....@gmail.com>>
>
> Boxbe <https://www.boxbe.com/overview> This message is
> eligible for Automatic Cleanup! (anubhav....@gmail.com
> <mailto:anubhav....@gmail.com>) Add cleanup rule
> <https://www.boxbe.com/popup?url=https%3A%2F%2Fwww.boxbe.com%2Fcleanup%3Ftoken%3DcLT2nxeaBBvDNcYrzp8Z%252BrzMbXXToRW8P3dkf6uIBg2uPYiOQCttzsvGH0OPy6uCwO0CL27HNIolbD99pyb0VB8xNEOZyeWV%252B%252Bi5m4BF1jRymgEfzkQFF9Hc9sPUWeM1q33IIXEL%252B24L15ubJCpU2w%253D%253D%26key%3Dq%252FCaiEnNjeVvuhlXiYVLZmfbVCxr5bWo3bxFApcEhfw%253D&tc_serial=15259810407&tc_rand=1358066863&utm_source=stf&utm_medium=email&utm_campaign=ANNO_CLEANUP_ADD&utm_content=001>
> | More info
> <http://blog.boxbe.com/general/boxbe-automatic-cleanup?tc_serial=15259810407&tc_rand=1358066863&utm_source=stf&utm_medium=email&utm_campaign=ANNO_CLEANUP_ADD&utm_content=001>
>
>
> अनुनाद जी, आपका कोड थोड़ा लंबा लगा, इसलिए मैंने कुछ बदलाव किए। संलग्न
> फ़ाइल देखिए।
>
> 2013/9/27 Anunad Singh <anu...@gmail.com
> <mailto:anu...@gmail.com>>:
> > देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
> > देवनागरी का शाटन कर सकते हैं।
> >
> > --
> > आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह
> "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)"
> समूह की सदस्यता ली है.
> > इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद
> करने के लिए, technical-hin...@googlegroups.com
> <mailto:technical-hindi%2Bunsu...@googlegroups.com> को
> एक ईमेल भेजें.
> > अधिक विकल्‍पों के लिए,
> https://groups.google.com/groups/opt_out पर जाएं.
>
> --
> आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific
> and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की
> सदस्यता ली है.
> इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के
> लिए, technical-hin...@googlegroups.com
> <mailto:technical-hindi%2Bunsu...@googlegroups.com> को

Anunad Singh

unread,
Sep 29, 2013, 12:37:02 AM9/29/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

 हिन्दी में शाटन क्रम मानकीकृत नहीं है (जहाँ तक मैं जानता हूँ)। ऐतिहासिक रूप से प्राचीन संस्कृत/पालि/प्राकृत ग्रन्थों में कहीं वर्ण-क्रम का उपयोग करते हुए कुछ सामग्री (शब्दकोश आदि) निर्मित नहीं की गई (शायद)

वामन शिवराम आप्टे जी के संस्कृत कोश में एक विशेष क्रम अपनाया गया है। मेरे खयाल से हिन्दी में भी उसी को अपनाया जाता है। उसमें 'हरित्' पहले आता है, 'हरित' बाद में। 'कंस' पहले आता है 'कस' बाद में (शायद कस शब्द है ही नहीं, केवल बात को स्पष्ट करने के लिए लिखा है)

लेकिन अर्ध अक्षरों से शुरू होने वाले शब्द उसी अक्षर के 'औ' की मात्रा के शब्दों के समाप्त होने के बाद आते हैं। उदाहरण के लिए  'सौरभ' के बाद 'स्वस्थ'  रखा गया है।

मान लीजिए कि अर्ध अक्षरों को 'पूर्ण' अक्षर से पहले स्थान देना है तो अपने प्रोग्राम में 'विराम' (हल) को पहली पंक्ति में करके देखें। क्या इतने से ही काम चल पा रहा है?

-- अनुनाद

Hariraam

unread,
Sep 29, 2013, 8:45:07 AM9/29/13
to technic...@googlegroups.com
आदरणीय अनुनाद जी, अनुभव जी एवं रावत जी,

नारायण जी सही कह रहे हैं:

चूँकि युनिकोड में देवनागरी 34 मूल व्यञ्जनों (क् ख् ग् घ् ङ् .... ह् ) की Encoding नहीं हुई
है, इसलिए यह समस्या उपजी है। इसी कारण देवनागरी व भारतीय लिपियाँ Complex
Script के अन्तर्गत रखनी पड़ी हैं। इसी कारण सही सार्टिंग आर्डर पाना अत्यन्त कठिन हो
गया है।

हलन्त का मान "-अ" होता है अर्थात् "माइनस अ"

इसलिए

क् ख्.... से लेकर ह् तक हलन्तयुक्त (अर्थात् आधे) अक्षरों को
क ख... से ह तक पूर्ण व्यञ्जनों से पहले ही आना चाहिए।

किन्तु "क, का...कः" को
"क्क , क्ख, ...क्र... क्ह" आदि संयुक्ताक्षरों के पहले ही आना चाहिए।

इस समस्या के समाधान के लिए यह तर्क (Logic) प्रोग्राम में डाला जाए तो शायद समाधान
मिल सकता है।

क्+अ= क
क्+आ = का = क + ा
.
.
.
क्+औ = कौ = क +ौ

मात्राओं के लिए यह तर्क दिया जा सके तो सही होगा।

्+आ = ा
्+इ =ि
्+ई =ी
्+उ = ु
्+ऊ =ू
्+ऋ = ृ
्+ए = े
्+ऐ = ै
्+ओ = ो
्+औ =ौ

चूँकि लोग मानते हैं कि 'अ' की कोई मात्रा नहीं होती।
जबकि ध्वनिशास्त्र/नादशास्त्र में 'अ' की मात्रा अदृश्य Invisible होती है। जिसके जुड़ने
पर हलन्त हट जाता है।
ISCII Codes का जब 1991 में भारतीय मानक ब्यूरो द्वारा मानकीकरण जारी किया गया
था, उसमें डिसिमल कोड नम्बर 217 में Invisible कोड की Encoding की गई थी। (देखें
अटैच की गई पीडीएफ फाइल)

Unicode में इसके समरूप Dotted circle (Hex 25CC) है जो "खाली मात्रा" टाइप करने
पर उनके पहले प्रकट होता है।

हालांकि हलन्त कोड को सभी मात्राओँ के अन्त में तथा नुक्ता के पहले Encode किया गया है
अतः default sorting में हलन्तयुक्त अक्षर हलन्तरहित अगले अक्षर के पहले आ जाते हैं, किन्तु
जहाँ हलन्त किसी शब्द के अन्त में अर्थात् स्पेस से पहले आता है वहाँ सही क्रम नहीं मिल
पाता, क्योंकि स्पेस का कोड HEX 0020 होता है।
वाक पहले आ जाता है
वाक् बाद में आता है।

शायद उक्त किसी तर्क को प्रोग्राम में फिक्स करने से फिलहाल हमें "येन केन प्रकारेण" सही
sorting order उपलब्ध हो पाए।

-- हरिराम
isciiapril03.pdf

V S Rawat

unread,
Sep 29, 2013, 12:25:05 PM9/29/13
to technic...@googlegroups.com
मैं एक विचार दे रहा था, मुझे किसी भी विधि में कोई ऐतराज़ नहीं है।

अभी तक सॉर्टिंग होती ही नहीं थी, इतने साल हो गए यूनीकोड बने। यूनीकोड के अक्षरों को
ही सॉर्टिंग के क्रम में ही रखा जाना चाहिए था, जैसे अंग्रेजी के अक्षरों के एस्काई कोड ही
उनकी सॉर्टिंग का क्रम तय कर देते हैं।

अब सॉर्टिंग बनाने का एक बढ़िया उपयोगी काम आप लोग कर रहे हैं तो मेरा इस प्रयास में
पूरा समर्थन है, जो भी तय करें, वह बढ़िया और उपयोगी रहेगा।

धन्यवाद।
--
रावत

(Dr.) Kavita Vachaknavee

unread,
Sep 29, 2013, 5:52:28 PM9/29/13
to technic...@googlegroups.com
अनुनाद जी, 
इस महत्वपूर्ण संसाधन को विकसित करने के लिए अत्यन्त धन्यवाद। 
स्वयंसेवी के रूप में कार्य करने वालों ने हिन्दी को बहुत समृद्ध किया है। 
अनुभव जी भी अब इसमें आपके साथ जुड़ कर इसे अधिक सटीक व अद्यतन करने में सहयोग देंगे। पश्चात् इसकी फायनल फाईल की भी प्रतीक्षा रहेगी। 


पुनः सद्भाव सहित 

bestregards.gif 
 सादर शुभेच्छु
- (डॉ.) कविता वाचक्नवी

Anubhav Chattoraj

unread,
Sep 29, 2013, 10:58:47 PM9/29/13
to technical-hindi
अनुनाद जी एवं हरिराम जी,

रावत जी की सलाहानुसार मैंने कुछ हिंदी शब्दकोश देखे। एस॰ चन्द का एक हिंदी-हिंदी शब्दकोश और DSAL (http://dsal.uchicago.edu/dictionaries/) के हिंदी शब्दकोश देखे।

संयुक्ताक्षर संपूर्ण अक्षर के बाद आएँ इस पर सभी कोश सहमत हैं। लेकिन आधे अक्षरों (अर्थात् शब्द के अंत में आने वाले हलंत-युक्त अक्षरों) का क्या किया जाए, इस पर कोई सहमति नहीं हैं। कुछ शब्दकोशों में ये मूल (अ-युक्त) अक्षरों के बाद रखे जाते हैं और कुछ शब्कोशों में इनके पहले।

हरिराम जी, आपने जो लॉजिक दिया है, उससे अर्धाक्षर < पूर्ण अक्षर < संयुक्ताक्षर के क्रम में शाटन किया जा सकता हैं। फ़ुरसत मिलने पर इसे भी इंप्लिमेंट करके समूह के सामने रखूँगा।

Anunad Singh

unread,
Sep 29, 2013, 11:26:04 PM9/29/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
उपरोक्त सभी चर्चाओं को ध्यान में रखते हुए, सारांश रूप में  निम्नलिखित बातें कहना चाहूँगा:

(१) सम्स्कृत/हिन्दी के शाटन का कोई मानक नहीं है। (जबकि सिंहल, बर्मी भाषा, तिब्बती, थाई आदि के शाटन से सम्बन्धित दस्तावेज नेट पर उपलब्ध हैं।)

(२) देवनागरी के मानकीकरण पर चर्चा (जिसमें शाटन भी एक मुद्दा था) चली थी (अन्यत्र) जो अधूरी रह गई थी।

(३) यह प्रोग्राम अस्तित्व में आ गया है और काम कर रहा है। अब मुद्दा यह नहीं है कि देवनगारी में 'सही' शाटन हो सकता है या नहीं बल्कि यह है कि शाटन का क्रम क्या हो।

(४) चूँकि इस प्रोग्राम में आसानी से यह सुविधा प्रदान की जा सकती है कि प्रयोक्ता अपने 'इच्छित शाटन क्रम' में शाटन कर सके, अब हमें तीन-चार बहुप्रचलित या ऐतिहासिक रूप से प्रचलित या 'तर्कपूर्ण' शाटन क्रम यहाँ प्रस्तुत करना चाहिए ताकि उनको इस प्रोग्राम में लागू कर सकें।

(५) हरिराम जी के इस कथन से कि देवनागरी का यूनिकोड 'ठीक से' निर्धारित नहीं हुआ है, इसलिए शाटन की समस्या है, मैं सहमत नहीं हूँ। इस विषय पर विद्वानों ने बड़ी स्पष्टता से लिखा है, देखें:

Q: What about collation of Indic language data? Is that just a binary sort?

http://www.unicode.org/faq/indic.html

 A: No. Collation order is not the same as code point order. A good treatment of some issues specific to collation in Indic languages can be found in the paper Issues in Indic Language Collation by Cathy Wissink.


Collation in general must proceed at the level of language or language variant, not at the script or codepoint levels. See also UTS #10: Unicode Collation Algortihm. Some Indic-specific issues are also discussed in that report.

इसी बात को बड़े विस्तार से, सोदाहरण यहाँ  समझाया गया है:

Indic Languages vs Collation

अन्त में यही निवेदन है कि आप सभी लोग हिन्दी के लिए बहुप्रचलित/ऐतिहासिक/वैज्ञानिक शाटन क्रम प्रदान करें जिन्हें इस प्रोग्राम में लागू किया जा सके।


narayan prasad

unread,
Sep 30, 2013, 6:43:04 AM9/30/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
इस प्रोग्राम को वस्तुतः उपयोगी बनाने के लिए कृपया 'शब्दावली निर्माण' (अर्थात् प्रत्येक शब्द का एक ही बार चयन) हेतु संशोधित संस्करण शीघ्रातिशीघ्र तैयार करें । शब्दों की बारम्बारता (frequency) बाद के संस्करणों में दी जा सकती है ।
--- नारायण प्रसाद


2013/9/28 Anunad Singh <anu...@gmail.com>

Anunad Singh

unread,
Sep 30, 2013, 10:06:24 AM9/30/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
नारायण जी,

मैने पुनरावृत्त शब्दों को हटाने की व्यस्था कर दी है,। कृपया जाँचिए।



2013/9/30 narayan prasad <hin...@gmail.com>
Boxbe This message is eligible for Automatic Cleanup! (hin...@gmail.com) Add cleanup rule | More info

इस प्रोग्राम को वस्तुतः उपयोगी बनाने के लिए कृपया 'शब्दावली निर्माण' (अर्थात् प्रत्येक शब्द का एक ही बार चयन) हेतु संशोधित संस्करण शीघ्रातिशीघ्र तैयार करें । शब्दों की बारम्बारता (frequency) बाद के संस्करणों में दी जा सकती है ।
--- नारायण प्रसाद


2013/9/28 Anunad Singh <anu...@gmail.com>

--
आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.

अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

Devanagari Kramak_15.zip

Hariraam

unread,
Sep 30, 2013, 10:15:23 AM9/30/13
to technic...@googlegroups.com
<हरिराम जी के इस कथन से कि देवनागरी का यूनिकोड 'ठीक से' निर्धारित नहीं हुआ है, इसलिए शाटन की समस्या है>
 
अनुनाद जी,
 
मेरा कथन ऐसा नहीं है।
कृपया मेरा सन्देश पुनः देखें। पुनः स्पष्ट करता हूँ।
"चूँकि युनिकोड में देवनागरी व अन्य भारतीय लिपियों में मूल व्यञ्जनों की Encoding नहीं हुई है, अतः यह समस्या है।"
 
सन्दर्भ : भारत सरकार के सूचना एवं प्रोद्योगिकी मंत्रालय के TDIL द्वारा सन् 2002 से युनिकोड में मूल व्यञ्जनों के लिए स्वतन्त्र कोड निर्धारित करने के लिए काफी प्रयास किया गया था, लेकिन प्रस्ताव स्वीकृत नहीं हो पाया....
हरिराम
प्रगत भारत <http://hariraama.blogspot.com>


2013/9/30 Anunad Singh <anu...@gmail.com>
.....

Hariraam

unread,
Sep 30, 2013, 10:27:39 AM9/30/13
to technic...@googlegroups.com
युनिकोड में देवनागरी का जो शाटन चार्ट निर्धारित है, वह निम्नवत् है। यहाँ देखें।
 
 

Devanagari


0950

0972

0904

0905

0906

0973

0974

0975

0976

0977

0907

0908

0909

090A

090B

0960

090C

0961

090D

090E

090F

0910

0911

0912

0913

0914

0915
क़
0958

0916
ख़
0959

0917
ग़
095A

097B

0918

0919

091A

091B

091C
ज़
095B

0979

097C

091D

091E

091F

0920

0921
ड़
095C

097E

0922
ढ़
095D

0923

0924

0925

0926

0927

0928

0929

092A

092B
फ़
095E

092C
ॿ
097F

092D

092E

092F
य़
095F

097A

0930

0931

0932

0933

0934

0935

0936

0937

0938

0939

093D

097D

1CE9

1CEA

1CEB

1CEC

1CEE

1CEF

1CF0

1CF1

1CF5

1CF6

A8F2

A8F3

A8F4

A8F5

A8F6

A8F7

A8FB
◌ा
093E
◌ऺ
093A
◌ऻ
093B
◌ॏ
094F
◌ॖ
0956
◌ॗ
0957
◌ि
093F
◌ी
0940
◌ु
0941
◌ू
0942
◌ृ
0943
◌ॄ
0944
◌ॢ
0962
◌ॣ
0963
◌ॅ
0945
◌ॕ
0955
◌ॆ
0946
◌े
0947
◌ॎ
094E
◌ै
0948
◌ॉ
0949
◌ॊ
094A
◌ो
094B
◌ौ
094C
◌्
094D

हरिराम
प्रगत भारत <http://hariraama.blogspot.com>


2013/9/30 Anunad Singh <anu...@gmail.com>
उपरोक्त सभी चर्चाओं को ध्यान में रखते हुए, सारांश रूप में  निम्नलिखित बातें कहना चाहूँगा:


(१) सम्स्कृत/हिन्दी के शाटन का कोई मानक नहीं है। (जबकि सिंहल, बर्मी भाषा, तिब्बती, थाई आदि के शाटन से सम्बन्धित दस्तावेज नेट पर उपलब्ध हैं।)

(२) देवनागरी के मानकीकरण पर चर्चा (जिसमें शाटन भी एक मुद्दा था) चली थी (अन्यत्र) जो अधूरी रह गई थी।
 
मानकीकरण हेतु बनी उप-समिति अपने कार्य में संलग्न है। उप-समिति के मसौदे में पहले ही "देवनागरी" लिपि संबंधी हिस्से को अलग करके इसे अगले कार्यक्रम में शामिल करने का निर्णय लिया गया था। क्योंकि देवनागरी केवल हिन्दी की ही नहीं,  बल्कि मूलतः संस्कृत, फिर मराठी, नेपाली... इत्यादि कई भाषाओं की लिपि हैं, उन भाषाओं के विद्वानों को शामिल करने का प्रस्ताव दिया गया था।

narayan prasad

unread,
Sep 30, 2013, 11:54:03 AM9/30/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
<<मैने पुनरावृत्त शब्दों को हटाने की व्यस्था कर दी है,। कृपया जाँचिए।>>

जाँच कर ली है । पुनरावृत्ति की समस्या अभी भी है ।

प्रतीत होता है कि punctuation marks को शाटन के पहले ही हटा दिया है । ऐसी परिस्थिति में 'बड़े-बड़े', 'घर-घर', 'खेती-गृहस्थी', 'परिवार-नियोजन' जैसे शब्दों में से योजक चिह्न को हटाने से ये एक शब्द बन जाते हैं ।

narayan prasad

unread,
Sep 30, 2013, 12:48:32 PM9/30/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
ओह, आपने "Remove repeated words" आपने शाटन के बाद निचले बॉक्स के भी नीचे दिया है जो मेरी पीसी के स्क्रीन के छोटा होने से दिखा नहीं । इसे दबाने पर पुनरावृत्त शब्द हट जाते हैं ।
"स्पेस" को भी यह प्रोग्राम एक शब्द के रूप में लेता है । इसे प्रिंट न करें ।

--- नारायण प्रसाद


2013/9/30 narayan prasad <hin...@gmail.com>

Anunad Singh

unread,
Sep 30, 2013, 10:54:52 PM9/30/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
नारायण जी,
अभी इस प्रोग्राम को बहुत सुधारना है। रोमन अक्षर, स्पेस, अर्धविराम, पूर्नविराम, खड़ि पाई, कोलन, प्रशनवाचक चिह्न आदि बहुत सी चीजें मूल टेक्स्ट से हटाने के बाद बचे टेक्स्ट का शाटन किया जा रहा है। अगामी संस्करणों में डैश, स्पेश, आदि को भी पाठ की तुलना में सम्मिलित करेंगे।

Anunad Singh

unread,
Sep 30, 2013, 11:03:22 PM9/30/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
हरिराम जी,
आप जिसे 'देवनागरी का शाटन चार्ट' कह रहे हैं वह 'देवनागरी के यूनिकोड का चार्ट' है। यही बात यूनिकोड कान्सोर्शियम वाले बार-बार दोहराते हैं। किसी भी भाषा के शाटन के क्रम का निर्धारण न उनके अधिकारक्षेत्र में है, न एजेण्डे में।

हाँ, यह अवश्य है कि आप किसी ऐसे प्रोग्राम का उपयोग करके शार्टिंग करेंगे जो सीधे  'यूनिकोड शॉर्टिंग अल्गोरिद्म' का उपयोग करता है तो देवनागरी इसी क्रम में शाटित होगी क्योंकि देवनागरी का यूनिकोड इसी क्रम में कम से अधिक मान की ओर ।बढता हुआ है।

Anunad Singh

unread,
Sep 30, 2013, 11:17:14 PM9/30/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
यूनिकोड कान्सोर्शियम बार-बार स्पष्ट करता है कि किसी भाषा के शाटन का क्रम का निर्धारण उनका काम नहीं है और न ही वे ऐसा करते हैं। हाँ, मोटे तौर पर देवनागरी यूनिकोड या अन्य लिपियों के यूनिकोड इस प्रकार निर्धारित किए गए हैं कि उनसे आभास (भ्रम?) होता है कि यूनिकोड  कॉन्सोर्शियम ने ये कोड शाटन के क्रम में निर्धारित किया है किन्तु कुछ-कुछ गलती कर दी है।


अनुनाद जी,
 
मेरा कथन ऐसा नहीं है।
कृपया मेरा सन्देश पुनः देखें। पुनः स्पष्ट करता हूँ।
"चूँकि युनिकोड में देवनागरी व अन्य भारतीय लिपियों में मूल व्यञ्जनों की Encoding नहीं हुई है, अतः यह समस्या है।"


 यूनिकोड कांसोर्शियम का यही कहना है कि कोडिंग और शार्टिंग को अलग-अलग देखा जाय, दोनों को मिश्रित न किया जाय। 'देवनागरी का शाटन कोई समस्या नहीं है'। बल्कि समस्या यह है कि हम ही किसी एक शाटन क्रम पर एकमत नहीं हो पा रहे।

Shree Devi Kumar

unread,
Oct 1, 2013, 6:31:10 AM10/1/13
to technic...@googlegroups.com
Anunadji,
Thanks for the program, I'll download and give it a try.
Since there was a question regarding the sorting order to be used for Hindi, I'm providing links to a recent Hindi Shabdakosh available in Google Books. It gives the order used in the two volumes as well as the logic for the same. You can provide that order also as one option, if you see fit. See pages 13-17 of Volume 1 in preview mode for the same.

Prabhat Brihat Hindi Shabdakosh (vol-2)

Prabhat Brihat Hindi Shabdakosh




Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com


2013/10/1 Anunad Singh <anu...@gmail.com>

--

Hariraam

unread,
Oct 1, 2013, 6:56:47 AM10/1/13
to technic...@googlegroups.com
अनुनाद जी,
 
आपने सही कहा है। Unicode.org का एक सदस्य होने के नाते मैं यह तथ्य कई वर्ष पहले से भली भाँति जानता हूँ कि Encoding और Collation अलग अलग प्रक्रियाएँ हैं। कृपया यह तथ्य बारम्बार रिपीट नहीं करें।
 
शायद शीघ्रता में आप मेरे सन्देशों को ठीक-से पढ़ नहीं पाए हैं। मैंने पिछले सन्देश में कोड चार्ट नहीं, बल्कि शाटन-क्रम का चार्ट दिया है।
 
नए Code निर्धारण की प्रक्रिया सतत् जारी है, किसी लिपि के नए कोड को अन्य वर्णों बीच में बैठाकर अन्य वर्णों के कोड नम्बरों को बदला नहीं जा सकता, अतः नये वर्ण की Encoding अन्य खाली स्थान पर की जाती है। अतः शाटन क्रम के अनुसार Encoding करना सम्भव नहीं हो पाता। आरम्भ में (1988 में) ISCII को युनिकोड में ज्यों का त्यों लिया गया था, तब तक शाटन ISCII के अनुसार ही था। बाद में अन्य वर्णों की कोड नम्बरिंग हुई तो नया क्रम रख पाना संभव नहीं हुआ।
 
युनिकोड द्वारा Collation निर्धारण के लिए अलग व्यवस्था है।
 
युनिकोड में देवनागरी के कोड चार्ट निम्न तीन कड़ियों पर दिए गए हैं:
 
जबकि 
 
निर्धारित Sorting अर्थात् Collation का चार्ट निम्न कड़ी पर दिया गया है:
 
निम्न कड़ी पर UCA = Unicode Collation Algorithm दिए गए हैं:
 
Sorting का प्रोग्राम बनानेवालों को पहले इनका अवलोकन अवश्य कर लेना चाहिए।
 
कृपया शान्त मन से फुर्सत में देखें।
 
देवनागरी के शाटन क्रम पर एकमत होने के लिए सभी विद्वानों को कुछ ठोस तथ्य एवं सन्दर्भों का अध्ययन या अवलोकन करना आवश्यक होगा, जिन्हें उपलब्ध कराने का प्रयास जारी है।
 
सादर।
हरिराम


2013/10/1 Anunad Singh <anu...@gmail.com>
यूनिकोड कान्सोर्शियम बार-बार स्पष्ट करता है कि किसी भाषा के शाटन का क्रम का निर्धारण उनका काम नहीं है और न ही वे ऐसा करते हैं। हाँ, मोटे तौर पर देवनागरी यूनिकोड या अन्य लिपियों के यूनिकोड इस प्रकार निर्धारित किए गए हैं कि उनसे आभास (भ्रम?) होता है कि यूनिकोड  कॉन्सोर्शियम ने ये कोड शाटन के क्रम में निर्धारित किया है किन्तु कुछ-कुछ गलती कर दी है।

 
 यूनिकोड कांसोर्शियम का यही कहना है कि कोडिंग और शार्टिंग को अलग-अलग देखा जाय, दोनों को मिश्रित न किया जाय। 'देवनागरी का शाटन कोई समस्या नहीं है'। बल्कि समस्या यह है कि हम ही किसी एक शाटन क्रम पर एकमत नहीं हो पा रहे।

Hariraam

unread,
Oct 1, 2013, 7:18:51 AM10/1/13
to technic...@googlegroups.com
श्री देवी कुमार जी,
 
इस पुस्तक की कड़ी देने के लिए बहुत धन्यवाद।
 
इस पुस्तक में अनुक्रमणिका के बाद शब्दारम्भ के पहले पन्ने पर जो स्पष्ट किया गया है, उससे उद्धृत कर रहा हूँ, जो सभी शाटन क्रम निर्धारकों के ध्यान देने के लिए आवश्यक तथ्य है....
 
Inline image 1
हरिराम

2013/10/1 Shree Devi Kumar <shree...@gmail.com>
Anunadji,
Thanks for the program, I'll download and give it a try.
Since there was a question regarding the sorting order to be used for Hindi, I'm providing links to a recent Hindi Shabdakosh available in Google Books. It gives the order used in the two volumes as well as the logic for the same. You can provide that order also as one option, if you see fit. See pages 13-17 of Volume 1 in preview mode for the same.

 

Prabhat Brihat Hindi Shabdakosh


Shree Devi Kumar
____________________________________________________________
SortingOrderProblem in HindiDicPrabhat.JPG

Anunad Singh

unread,
Oct 5, 2013, 9:59:52 AM10/5/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
हरिराम जी,

आपने लिखा था
युनिकोड में देवनागरी का जो शाटन चार्ट निर्धारित है, वह निम्नवत् है। यहाँ देखें।

मुझसे गलती हो गई कि मैने इसे ध्यान से नहीं देखा। वस्तुतः यह विशाल  'डिफाल्ट यूनिकोड कोलेशन एलिमेण्ट टेबल' (DUCET) का वह भाग है जो देवनागरी से सम्बन्धित है। इसके बारे में मैं निम्नलिखित बातें कहना चाहता हूँ-

(१) DUCET एक 'डिफाल्ट' टेबल है। 'डिफाल्ट' का अर्थ यह है कि किसी भी वर्ण के क्रम के बारे में शाटन प्रोग्राम में यदि कोई अतिरिक्त जानकारी नहीं दी जाएगी तो इसमें दिया गया क्रम लागू होगा। यदि सम्पूर्ण DUCET को ध्यान से देखा जाय तो प्रत्येक वर्ण के आगे तीन/चार  भार (weight) दिए हैं। इन भारों को घटाबढ़ाकर उस वर्ण का दूसरे वर्णों के सापेक्ष क्रम बदला जा सकता है।  ICU ने अपने प्रोग्राम में यह व्यवस्था दी है।

(२) ुपरोक्त सारणी में तुलना के कई स्तर (तीन-चार) दिए गए हैं। हिन्दी सहित सभी भारतीय कई भाषाओं के लिए केवल एक ही स्तर पर्याप्त है। किन्तु कुछ भाषाएँ (जैसे लाओ आदि) हैं जिनका समानुक्रमण केवल क्रम निर्धारण से नहीं होता बल्कि उनमें कुछ अन्य बातों को भी समानुक्रमण के लिए शामिल करना पड़ता है।

(३) 'देवनागरी का समानुक्रमण' और 'हिन्दी का समानुक्रण'  जरूरी नहीं एक ही हो।  हिन्दी, मराठी, संस्कृत, सिन्धी, नेपाली आदि की लिपि देवनागरी होते हुए भी समानुक्रमण अलग-अलग हो सकता है।

-- अनुनाद

Anubhav Chattoraj

unread,
Oct 5, 2013, 10:36:42 AM10/5/13
to technical-hindi
अनुनाद जी,

>हिन्दी सहित सभी भारतीय कई भाषाओं के लिए केवल एक ही स्तर पर्याप्त है।

जहाँ तक मेरी समझ में आया, देवनागरी के लिए दो स्तरों की ज़रूरत है। बृहत् हिंदी शब्दकोश के क्रम में आम तौर पर नुक्ते को नज़रअंदाज़ कर दिया जाता है, लेकिन अगर दो शब्दों में सिर्फ़ नुक्ते का अंतर हो तो नुक्ते वाले शब्द को बाद में रखा जाता है।

इस क्रम में शाटन करना हो तो दो स्तर इस्तेमाल करने पड़ेंगे। प्राइमरी लेवल पे नुक्ते को शून्य का भार दिया जाएगा। सेकंडरी लेवल पर इसे कोई पॉसिटिव (धनात्मक) भार दिया जाएगा लेकिन अन्य सभी अक्षरों/चिह्नों को शून्य का भार मिलेगा।

आपके बाकी बिंदुओं से पूर्णतया सहमत हूँ।

Anunad Singh

unread,
Oct 5, 2013, 12:15:20 PM10/5/13
to technic...@googlegroups.com
अनुभव जी,
देवनागरी यूनिकोड में नुक्ते वाले वर्णों, यथा क़, ग़, ज़ आदि को लिखने
के दो तरीके सम्भव हैं-
१) उनके लिए निर्धारित यूनिकोड का प्रयोग किया जाय। ( 'क' तथा 'क़' दोनों
के लिए अलग यूनिकोड निर्धारित हैं।

२) इनको 'मूल वर्ण + नुक्ता वर्ण' के रूप में लिखा जाय।

दोनों दशाओं में देखने पर वे समान ही दिखते हैं किन्तु उनके यूनोकोड में
अन्तर होता है।

उपरोक्त बात को ध्यान में रखते हुए यदि तुलना के पहले ही सभी 'मूल वर्ण +
नुक्ता' (=दो बाइट) को बदलकर एक बाइट वाले संगत यूनिकोड में बदल दिया जाय
और वर्णों का क्रम बताने वाली सारणी में मूल वर्नों के ठीक बाद
नुक्तायुक्त एक-बाइट वाले वर्ण रख दिए जाँय (जैसे क, क़, ख आदि) तो यह
समस्या यहीं समाप्त हो जाती है , अर्थात् दूसरे स्तर की आवश्यकता ही नहीं
है।

-- अनुनाद

2013/10/5, Anubhav Chattoraj <anubhav....@gmail.com>:
> This message is eligible for Automatic Cleanup!
> (anubhav....@gmail.com)
> Add cleanup rule:
> https://www.boxbe.com/popup?url=https%3A%2F%2Fwww.boxbe.com%2Fcleanup%3Ftoken%3D5Z9VM5umNKQhxMUEQ9K6idwtIslkFrn33b9doHh2rOsOVfjb4FMjtnnbbKY7xgV61n%252F8pLHqk5MVaDc9OoqJvh1jFePw8Cf9MwGwK%252FTUwUtA7k2lvMszMaRUiK2tijQ6%252FfgFcvfbjmG85OH%252FQerijQ%253D%253D%26key%3D5HHzZ2m0ZRrtDW7SKHbXmxpO%252BITNSKCOEzLH3v4Ldfc%253D&tc_serial=15324341637&tc_rand=1566308390&utm_source=stf&utm_medium=email&utm_campaign=ANNO_CLEANUP_ADD&utm_content=001
> More info:
> http://blog.boxbe.com/general/boxbe-automatic-cleanup?tc_serial=15324341637&tc_rand=1566308390&utm_source=stf&utm_medium=email&utm_campaign=ANNO_CLEANUP_ADD&utm_content=001

narayan prasad

unread,
Oct 5, 2013, 12:28:13 PM10/5/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
<<उपरोक्त बात को ध्यान में रखते हुए यदि तुलना के पहले ही सभी 'मूल वर्ण +
नुक्ता' (=दो बाइट) को बदलकर एक बाइट वाले संगत यूनिकोड में बदल दिया जाय
और वर्णों का क्रम बताने वाली सारणी में मूल वर्नों के ठीक बाद
नुक्तायुक्त एक-बाइट वाले वर्ण रख दिए जाँय (जैसे क, क़, ख आदि) तो यह
समस्या यहीं समाप्त हो जाती है , अर्थात् दूसरे स्तर की आवश्यकता ही नहीं
है।>>


ड़ और ढ़ के बारे में आपका क्या विचार है ?
--- नारायण प्रसाद


2013/10/5 Anunad Singh <anu...@gmail.com>

Anubhav Chattoraj

unread,
Oct 5, 2013, 12:51:39 PM10/5/13
to technical-hindi
अनुनाद जी,

आपसे अनुरोध करता हूँ की जवाब भेजने से पहले ईमेल को ठीक से पढ़ लिया करें।

आपने कहा,

>नुक्तायुक्त एक-बाइट वाले वर्ण रख दिए जाँय (जैसे क, क़, ख आदि) तो यह समस्या यहीं समाप्त हो जाती है , अर्थात् दूसरे स्तर की आवश्यकता ही नहीं है।

मैंने बृहत् हिंदी कोश के शाटन-क्रम का जो वर्णन दिया था, कृपया उसे दोबारा पढ़ लें।

आपके लॉजिक के अनुसार "क़" वर्ण हमेशा "क" के बाद रखा जाएगा। "क़स्बा" शब्द "कह" के बाद रखा जाएगा। लेकिन बृहत् हिंदी कोश का क्रम अलग है। कोश के अनुसार नुक्ते का असर शाटन पर नहीं पड़ना चाहिए, "क़स्बा" पहले आना चाहिए।

पर नुक्ते को पूरी तरह से नज़रअंदाज़ भी नहीं कर सकते, क्योंकि एक स्थिति में (और सिर्फ़ उसी स्थिति में) नुक्ते का असर पड़ता है: जब दो शब्दों में सिर्फ़ नुक्ते का ही अंतर हो। ऐसी स्थिति में नुक्ता-युक्त शब्द बाद में रखा जाता है। उदाहरण के रूप में, "ख़ाना" शब्द "खाना" के बाद रखा जाएगा।

प्रीकंपोज़्ड (नुक्ता-युक्त) कैरेक्टर इस्तेमाल करें या डीकंपोज़्ड, ऐसे क्रम में शाटन करने के लिए दो स्तर लगेंगे ही।


V S Rawat

unread,
Oct 5, 2013, 3:24:58 PM10/5/13
to technic...@googlegroups.com
कोश वाले कैसे कर रहे हैं पता नहीं, लेकिन कम्प्यूटर से सॉर्टिंग करने में यह संभव नहीं हो
सकता है कि नुक्ते वाला क़ और बग़ैर नुक्ते वाला क एक साथ मिश्रित आते रहें, जब जिसका कोई
मान्य शब्द मिल जाए, तब वो आ जाए।

कम्प्यूटर से सॉर्टिंग करने में या तो सारे बिना नुक्ते वाले क शब्द पहले आएँगे, और फिर नुक्ते
वाले क़ शब्द आएँगे, या फिर इसका विपरीत होगा। लेकिन वो दोनों शब्द अलग-अलग, एक के
बाद एक ही आ पाएँगे, मिश्रित नहीं आ सकते हैं। कौन से शब्द पहले आएँगे यह हमारे दिए गए
ऑर्डर पर निर्भर करेगा।

यदि इसमें कोई असंभव संभव वाली बात हो तो कृपया स्पष्ट करें।

रावत

V S Rawat

unread,
Oct 5, 2013, 3:42:59 PM10/5/13
to technic...@googlegroups.com
मेरा मानना है कि सॉर्टिंग प्रोग्राम को सिर्फ़ दिए गए पाठ को क्रम से लगाना चाहिए।
मेरा मानना है कि सॉर्टिंग प्रोग्राम को मूल पाठ में कोई भी, किसी भी तरह का भी, छोटे
से छोटा भी परिवर्तन नहीं करना चाहिए।
मेरा मानना है कि मूल पाठ और परिणामी पाठ में क्रम के अलावा कोई और अन्तर नहीं होना
चाहिए।

इसलिए मुझे यह वर्ण प्लस नुक्ता को ऩुक्ते वाले वर्ण में बदलना अनावश्यक ही नहीं, वास्तव में
त्रुटिपूर्ण लगता है।

यह प्रयोक्ता पर निर्भर करता है कि वो किस कारण से किसी विशिष्ठ प्रकार के पाठ की
सॉर्टिंग कर रहा है। हो सकता है कि उसकी कोई दरकार हो कि वो नुक्ते को अलग ही रखना
चाहता है। ऐसी स्थिति में अगर आपने पाठ में कोई बदलाव कर दिए तो उसका पाठ बेकार हो
जाएगा।

अगर परिणामी पाठ देखकर उसे लगता है कि नुक्ता युक्त वर्ण ग़लत स्थान पर आ गए, तो वह
मूल पाठ को वर्ड आदि में खोलकर इन वर्णों को हाथ से बदल सकता है, जिससे परिणामी पाठ
में वो ख़ुद ब ख़ुद ठीक हो जाएँगे।

लेकिन अगर आपने प्रोग्राम के भीतर कुछ बदलाव किया, तो वह अपने पाठ को वापस नहीं पा
पाएगा या आपके प्रोग्राम का उपयोग नहीं कर पाएगा।

सवाल है कि ऐसी क्या दरकार हो सकती है तो एक कच्चा सा उदाहरण देता हूँ कि आपकी
सॉर्टिंग सिर्फ़ हिन्दी के लिए है। बाकी भाषाओं के लिए नहीं है, कम से कम अभी नहीं है। अब
मान लीजिए कि किसी को तमिल यूनीकोड की सॉर्टिंग करनी है तो वो तमिल पाठ को
सॉफ़्टवेयर से हिन्दी यूनीकोड में बदलेगा, फिर इस हिन्दी यूनीकोड की आपका प्रोग्राम का
इस्तेमाल करके सॉर्टिंग करेगा, और फिर परिणामी पाठ को सॉफ़्टवेयर से वापस हिन्दी
यूनीकोड से तमिल यूनीकोड में बदल लेगा। उसका काम शत प्रतिशत हो जाएगा।

लेकिन इस बीच में अगर प्रोग्राम ने भीतर ही भीतर पाठ में कोई परिवर्तन कर दिए तो वह
वापस तमिल में परिवर्तित करने पर मूल पाठ को पा ही नहीं पाएगा। उसका मूल पाठ गड़बड़
हो चुका होगा।

बात तमिल या किसी भाषा में नुक्ते की नहीं है। इस तरह के एक के बाद दूसरा फिर तीसरा
परिवर्तन मैं बहुत करता हूँ, आप सबने ही किए होंगे क्योंकि कोई सॉफ़्टवेयर एक काम करता है
कोई दूसरा काम करता है, कोई तीसरा चौथा काम करता है, पहले से चौथे काम को सीधा एक
ही वार में करने वाला सॉफ़्टवेयर नहीं होता है। जैसे फ़ॉन्ट परिवर्तनों में है कि अगर क फ़ॉन्ट
से घ फ़ॉन्ट में सीधे परिवर्तित करने का सॉफ़्टवेयर नहीं है, लेकिन क से ख में, और फिर ख से ग
में और फिर ग से घ फ़ॉन्ट में परिवर्तन करने के सॉफ़्टवेयर हैं, तो हम इस क्रम का इस्तेमाल
करके परिवर्तन कर ही लेंगे। आप सबने किया होगा।

इसलिए मूल पाठ में किसी भी तरह का कोई परिवर्तन सॉफ़्टवेयर के द्वारा किया जाना
प्रोग्राम के स्कोप को सीमित कर देगा।

सारे सॉर्टिंग प्रोग्राम ऐसे ही करते हैं। मैंने आजतक कोई भी अंग्रेजी सॉर्टिंग का प्रोग्राम
नहीं देखा जो पाठ में कोई परिवर्तन कर रहा हो।

इसलिए मेरा निवेदन है कि प्रोग्राम के भीतर किसी भी तरह का परिवर्तन न करें। प्रोग्राम
सिर्फ़ क्रमबद्ध करे।

आप दोनों प्रावधान रखें, नुक्ता युक्त और अलग से नुक्ता लगे वर्ण, दोनों की सॉर्टिंग का क्रम
निर्धारित कर दें और उसके अनुसार सॉर्टिंग कर दें। इनपुट पाठ में जो होगा उसके हिसाब से
परिणामी पाठ मिल जाएगा। बस, यही होना चाहिए।

रावत

V S Rawat

unread,
Oct 5, 2013, 3:47:00 PM10/5/13
to technic...@googlegroups.com
अगर चाहते ही हैं नुक्ते के लिए प्रावधान करना तो एक प्रीप्रॉसेसिंग प्रोग्राम अलग से दे
सकते हैं, जो अलग से नुक्ता लगाए वर्णों को नुक्ते वाले वर्णों में बदल दे।

ऐसे प्रीप्रॉसेसिंग प्रोग्राम का ख़ुद भी बहुत उपयोग रहेगा, बिना सॉर्टिग किए भी। यह
पाठ को सही यूनीकोड में कर रहा है, जो बहुत अच्छी बात होगी। जिन्हें सॉर्टिंग करवानी
भी नहीं होगी, वो भी इस प्रोग्राम का उपयोग कर सकेंगे अपने पाठों को ठीक करने के लिए।

लेकिन पाठ का परिवर्तन प्रोग्राम के भीतर न करवाएँ।

धन्यवाद
रावत

Anubhav Chattoraj

unread,
Oct 5, 2013, 10:48:36 PM10/5/13
to technical-hindi
रावत जी,

कंप्यूटर में इस प्रकार से सॉर्ट करना बिलकुल संभव है। प्रोग्राम में दो शब्दों की तुलना करते समय पहले तो नुक्ते को नज़रअंदाज़ करके तुलना करेंगे। अगर इस पहली तुलना में दोनों शब्द बराबर मिले, तो दोनों शब्दों की तुलना फ़िर से करेंगे, और इस बार सिर्फ़ नुक्ते पर ही ध्यान देंगे।

Anunad Singh

unread,
Oct 6, 2013, 2:02:24 AM10/6/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
मुझे लगता है कि हम लोग एक साथ बहुत सारे विषयों पर चर्चा कर रहे हैं।  इस कारण चर्चा सिकुड़ने के बजाय फैलती जा रही है।

निम्नलिखित विषय अलग-अलग विषय हैं जिनपर अलग से चर्चा हो तो फलप्रद चर्चा हो सकेगी-

(१) हिन्दी शाटन के क्रम का मानकीकरण : यदि एक क्रम को मानकीकृत नहीं किया जा सकता तो दो-तीन क्रम  प्रस्तुत किए जाँय।

(२) शाटन प्रोग्राम में कौन-कौन सी सुविधाएँ और विकल्प हों (इस पर विशेषकर रावत जी लिख रहे हैं)

(३) किसी दिए हुए क्रम में शाटन के लिए प्रोग्राम इम्प्लिमेण्टेशन कैसे होगा (एक-स्तरीय तुलना से काम चल जाएगा या द्विस्तरीय लगेगा;  'यूनिकोड कोलेशन अल्गोरिद्म' के पीछे चला जाय या अपना स्वतंत्र अल्गोरिद्म बनाना ठीक रहेगा आदि)

नारायण जी ने इसी को ध्यान में रखकर देवनागरी शाटन क्रम पर चर्चा के लिए अलग से विषय दिया है।

--अनुनाद

V S Rawat

unread,
Oct 6, 2013, 7:19:41 AM10/6/13
to technic...@googlegroups.com
On 10/6/2013 11:32 AM, Anunad Singh wrote:
> मुझे लगता है कि हम लोग एक साथ बहुत सारे विषयों पर चर्चा कर रहे हैं। इस कारण चर्चा
> सिकुड़ने के बजाय फैलती जा रही है।

> (२) शाटन प्रोग्राम में कौन-कौन सी सुविधाएँ और विकल्प हों (इस पर विशेषकर रावत जी
> लिख रहे हैं)
>

ना जी, मैं किसी भी सुविधा और विकल्प की बात बिल्कुल नहीं कर रहा हूँ।

मैं सिर्फ़ इतना कह रहा हूँ कि सॉर्टिंग प्रोग्राम को सिर्फ़ सॉर्टिंग करनी चाहिए, मूल पाठ
में कोई भी बदलाव नहीं करना चाहिए।

बस इतना ही।
--
रावत

V S Rawat

unread,
Oct 6, 2013, 7:23:05 AM10/6/13
to technic...@googlegroups.com
अनुभव जी,

यह इंतज़ाम विशेष रूप से नुक्ते की विशेष प्रोसेसिंग करने के लिए विशेष कोड लिखकर किया
जाएगा। वरना तो मूल प्रोग्राम इस अतिरिक्त कोड के बिना भी बढ़िया सॉर्टिंग करेगा।

ख़ैर, मेरा मानना है कि इस अतिरिक्त कोड की कोई आवश्यकता नहीं है।

Hariraam

unread,
Oct 6, 2013, 9:58:21 AM10/6/13
to technic...@googlegroups.com
अनुनाद जी,

आपने सही कहा है। देवनागरी लिपि के अलग अलग भाषाओं में प्रयोग के समानुक्रमण अलग होने से अलग अलग शाटन प्रोग्राम बनाने होंगे।
यथा--
देवनागरी-हिन्दी शाटन
देवनागरी-मराठी शाटन
देवनागरी-नेपाली शाटन
देवनागरी-... शाटन
देवनागरी-... शाटन

क्योंकि अलग अलग भाषा के विद्वान अपनी भाषाओं में देवनागरी के वर्णों का क्रम भिन्न मानते हैं। यथा - मराठी व ओड़िआ व बंगला व दक्षिण भारतीय लिपियों में ळ को पहले और ल को बाद में रखा जाता है, जबकि देवनागरी-हिन्दी में ल को पहले व ळ को बाद में रखा जाता है।

देवनागरी-हिन्दी शाटन में फिलहाल हमें अन्य लिपियों से लिप्यन्तरण की सुविधा के लिए लिए अन्य वर्णों को ignore करके शाटन करना होगा।
पुनश्चः
देवनागरी-परिवर्द्धित शाटन में सभी Encoded वर्णों को शामिल कर शाटन प्रोग्राम बनाना होगा।
किन्तु
देवनागरी-हिन्दी-मूल(Basic) शाटन प्रोग्राम 
में केवल हिन्दी में बहुतायत से प्रयुक्त होनेवाले मूल वर्णों को लेकर ही शाटन प्रोग्राम बनाना होगा।

देवनागरी-Extended एवं देवनागरी-Vedic का शाटन क्रम निर्धारित करना हमारे ज्ञान की सीमा से बाहर की बात है, इसके लिए वैदिक व्याकरण-कार विद्वानों की मदद लेनी होगी।

विभिन्न हिन्दी शब्दकोशों का शाटन क्रम सही नहीं है। विभिन्न कोशकार स्वयं भ्रमित रहे हैं। अतः हिन्दी आदि शब्दकोशों का अन्धानुकरण न करके आधुनिक डैटाबेस प्रयोग के लिए सर्वाधिक उपयुक्त व वैज्ञानिक आधार पर सही माने जाने वाले शाटन क्रम को ही मानक निर्धारित करना होगा, ताकि फिलहाल, भूमि पट्टों (Land records), आधार कार्ड, Voter's ID Card, जनगणना कार्य आदि अत्यन्त आवश्यक डैटाबेस अनुप्रयोगों के लिए एक उचित शाटन-क्रम उपलब्ध हो सके।

इसके लिए कुछ सन्दर्भ साहित्य मैं शीघ्र ही उपलब्ध कराने का प्रयास कर रहा हूँ।

सादर।

-- हरिराम


On 05-10-2013 19:29, Anunad Singh wrote:
हरिराम जी,

आपने लिखा था
युनिकोड में देवनागरी का जो शाटन चार्ट निर्धारित है, वह निम्नवत् है। यहाँ देखें।

मुझसे गलती हो गई कि मैने इसे ध्यान से नहीं देखा। वस्तुतः यह विशाल  'डिफाल्ट यूनिकोड कोलेशन एलिमेण्ट टेबल' (DUCET) का वह भाग है जो देवनागरी से सम्बन्धित है। इसके बारे में मैं निम्नलिखित बातें कहना चाहता हूँ-
.....

Anubhav Chattoraj

unread,
Oct 6, 2013, 11:26:46 AM10/6/13
to technical-hindi
हरिराम जी,

आपकी एक छोटी-सी गलती को सुधारना चाहता हूँ। आपने लिखा

>मराठी व ओड़िआ व बंगला व दक्षिण भारतीय लिपियों में ळ को पहले और ल को बाद में रखा जाता है,
ओड़िआ व दक्षिण भारती लिपियों के बारे में नहीं जानता, पर बंगला में ळ के लिए अक्षर ही नहीं है और मराठी में इसे ह के बाद रखा जाता है।

ख़ैर, क्रम निर्धारण के प्रयासों के बारे में कृपया हमें अपडेटेड रखें। अगर हमसे कोई सहायता संभव हो, तो माँगने में संकोच न करें।

narayan prasad

unread,
Oct 6, 2013, 1:23:04 PM10/6/13
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
<< >>मराठी व ओड़िआ व बंगला व दक्षिण भारतीय लिपियों में ळ को पहले और ल को बाद में रखा जाता है,
>ओड़िआ व दक्षिण भारती लिपियों के बारे में नहीं जानता, पर बंगला में ळ के
>लिए अक्षर ही नहीं है और मराठी में इसे ह के बाद रखा जाता है। >>

सभी में ल (ல) पहले आता है, ळ (ள) बाद में । यदि ऴ (ழ) भी हो तो ऴ (ழ) के बाद ळ (ள) आता है ।

उड़िया में - ल ळ ( )

तमिल में - ल ऴ ळ ( ல ழ ள )

तेलुगु में - ल ळ ( ల ళ )

कन्नड में - ल ऴ ळ ( ಲ ೞ ಳ )

मलयालम में - ल ऴ ळ ( ല ഴ ള )


--- नारायण प्रसाद



2013/10/6 Anubhav Chattoraj <anubhav....@gmail.com>

--

Hariraam

unread,
Oct 23, 2013, 3:54:54 AM10/23/13
to technic...@googlegroups.com
भारतीय लिपियों के वर्ण-अनुक्रम पर दो आलेख यहाँ मिले हैं-
 
 
 
 
जिसमें निम्न प्रचिलत तथ्य प्रायोगिक रूप से तथा वैज्ञानिक रूप से सही नहीं लगते--
 
Inline image 1
 
पुनश्च तमिल वर्ण-क्रम का यह नियम देवनागरी तथा सभी भारतीय लिपियों पर ध्वनि विज्ञान की दृष्टि से लागू होना चाहिए--
 
Inline image 2
 
देवनागरी वर्ण-क्रम को व्यावहारिक रूप से निर्धारण करने हेतु विद्वानों के मत अपेक्षित हैं।
 
हरिराम


Dv-SortingHalCharsFirst.JPG
Dv-SortingNasalsFirst.JPG

Shree Devi Kumar

unread,
Oct 23, 2013, 10:08:57 PM10/23/13
to technic...@googlegroups.com
Two other Unicode reports which may be relevant:

http://www.unicode.org/notes/tn1/
Issues in Indic Language Collation
- 2002

http://www.unicode.org/reports/tr10/
UNICODE COLLATION ALGORITHM
​ 
- 2013

​Also of interest will be

#
# This file defines the Default Unicode Collation Element Table 
# (DUCET) for the Unicode Collation Algorithm






Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com


2013/10/23 Hariraam <hari...@gmail.com>

>
> भारतीय लिपियों के वर्ण-अनुक्रम पर दो आलेख यहाँ मिले हैं-
>  
> http://bhashaindia.com/Developers/IndianLang/indicscript/pages/langvscoll.aspx
>  
> <http://www.google.co.in/url?sa=t&rct=j&q=&esrc=s&frm=1&source=web&cd=4&cad=rja&ved=0CEIQFjAD&url=http%3A%2F%2Fdownload.microsoft.com%2Fdownload%2F2%2Fd%2Fa%2F2daed6fd-9876-4894-92c2-4ffc51ce5c1a%2Fcollationintro-current.ppt&ei=wHhnUrqyN4qyrAeK1YG4Bw&usg=AFQjCNHSdMGkEwgmFlpCqncBf2whl6Wzrg>
>  
>  
> जिसमें निम्न प्रचिलत तथ्य प्रायोगिक रूप से तथा वैज्ञानिक रूप से सही नहीं लगते--
>  
>  
> पुनश्च तमिल वर्ण-क्रम का यह नियम देवनागरी तथा सभी भारतीय लिपियों पर ध्वनि विज्ञान की दृष्टि से लागू होना चाहिए--
>  
>  
> देवनागरी वर्ण-क्रम को व्यावहारिक रूप से निर्धारण करने हेतु विद्वानों के मत अपेक्षित हैं।
>  
> हरिराम
>
>

Shree Devi Kumar

unread,
Oct 24, 2013, 8:11:43 AM10/24/13
to technic...@googlegroups.com
I just tried a small test on it by defining custom rules . Please scroll towards bottom of page and in custom rules area, past the following:

[reorder Deva Beng Guru Gujr Orya Taml Telu Knda Mlym Sinh]

&ॐ<ा<ि<ी<ु<ू<ृ<ॅ<े<ै<ॉ<ो<ौ<ं<ँ<ः

&[before 1]

क<क्

Then sort the following text by pasting in the SOURCE box on top, and click on SORT button

क्
क्‍
क्‌
क़
क्ळ
क़्‍
कृ
कॉ
कॅ
कं
कँ

कः
का
कि
की
कु
कू
के
को
कै
कौ
कृ


I have defined the half-letter before full letter only for ka, it can be expanded to the whole alphabet.

 

Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com


2013/10/24 Shree Devi Kumar <shree...@gmail.com>

Shree Devi Kumar

unread,
Oct 24, 2013, 8:32:16 AM10/24/13
to technic...@googlegroups.com
Maybe the rule needs << instead of < in the first line with maatraas

Hariraam

unread,
Oct 25, 2013, 2:20:08 AM10/25/13
to technic...@googlegroups.com
Whether icu, UCA rules, specially for Indic, is uniersally followed by all major OSs, Office packs, DBMS apps, etc. as default?
 

हरिराम


2013/10/24 Shree Devi Kumar <shree...@gmail.com>
Maybe the rule needs << instead of < in the first line with maatraas

Shree Devi Kumar


Shree Devi Kumar

unread,
Oct 25, 2013, 2:48:04 AM10/25/13
to technic...@googlegroups.com
ICU seems to be implementing Unicode only.
http://site.icu-project.org/design/collation/icu-4-6-changes

If there is consensus in the group regarding what the 'correct' sort order(s) for Hindi should be, we can try writing to Unicode. Quan had some good advice regarding that:


Quan Nguyen
4:20 AM (7 hours ago)

Reply
to me
Yes, since it is critical information that many OS, programs, and applications depend on, one would need official documents, national standards to back up your requests for corrections. It requires strong persuasion, convincing data for Unicode consortium to approve changes.

Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com


2013/10/25 Hariraam <hari...@gmail.com>

Shree Devi Kumar

unread,
Oct 25, 2013, 5:52:24 AM10/25/13
to technic...@googlegroups.com
Based on Monier Williams Sanskrit dictionary

This could be used as a basis for marking differences required for Hindi


1.6 Alphabetical order and sorting of Sanskrit

Although standard alphabetical ordering of Sanskrit is clear, if not always adhered to
{Cf. the ordering of words in Mylius 1992, see esp. pp. 497ff.} it may be useful to give
here the sorting sequences, especially as the sequence is not quite straightforward. For
computer searching sorting is less imoprtant as processor power increases, but for
merging different word lists as well as for checking/correcting of entries it is quite
useful.

The sorting sequence is:

Vowels:
a A i I u U R RR lR lRR e ai o au

AnusvAra + [yrlvzSs]:
My Mr Ml Mv Mz MS Ms

Visarga:
H

AnusvAra in final position:
M

Consonants:
k kh g gh G j jh J T Th D(L) Dh(Lh) N t th d dh n p ph b bh m y r l v z S s h

AnusvAra before the following consonants have to be converted to homorganic nasals
before sorting:
Mk=Gk Mg=Gg Mc=Jc Mj=Jj MT=NT MD=ND Mt=nt Mn=nn Mp=mp Mb=mb
Mm=mm

AnunAsika is equivalent to AnusvAra.

Avagraha is equivalent to a or is ignored(?).

Combinations of primary vowels a-i, a-u, A-i, A-u are sorted as single primary vowels
(thus MW {prau0ga} (p. 652,3) before {prauga} (p. 714,2) {prakaGkata} and
{mAu0tha} before {mAkanda}).

Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com


Shree Devi Kumar

unread,
Oct 25, 2013, 7:29:48 AM10/25/13
to technic...@googlegroups.com
TDIL Hindi Script Grammar says:
http://tdil-dc.in/tdildcMain/articles/534028Devanagari%20Script%20Behaviour%20for%20Hindi%20%20ver%201.4.7.pdf

In the case of Hindithe following is the traditional sort order as determined by the
expertsand used in dictionaries
.


The order as given below is pertinent to sorting by a computer program and is compliant
with CLDR as laid down by Unicode and W3C.

It adds before अ

ंं  ं

and after ह

ि












 In the above the order of 'e E ai' and 'o O au' seems wrong to me.
I think the order should be:

ॅ  े  ै
एंड
ॉॉॉॉॉ ॉ  ो ौ

ऍ ए ऐ
एंड
ऑ ओ औ

So, if people follow the order as given in TDIL document, they will sort incorrectly - at least for these.
 

 

 



Also see (sanskrit related discussion - anusvar and anunasika)

Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com


Reply all
Reply to author
Forward
0 new messages