देवनागरी शाटन (sorting) के लिए प्रोग्राम

Anunad Singh

unread,

Sep 27, 2013, 1:44:51 PM9/27/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
देवनागरी का शाटन कर सकते हैं।

Devanagari Kramak_12.zip

Dharmendra Pare

unread,

Sep 27, 2013, 11:12:22 PM9/27/13

to technic...@googlegroups.com

वाह मजा आ गया । दो छोटे से प्रयोग करके देखे । बिल्‍कुल ठीक । बहुत बहुत बधाई ।

2013/9/27 Anunad Singh <anu...@gmail.com>

देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
देवनागरी का शाटन कर सकते हैं।

--
आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.
अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

Madhusudan H Jhaveri

unread,

Sep 27, 2013, 11:21:18 PM9/27/13

to technic...@googlegroups.com

धर्मेन्द्र जी से सहमति। अनुनाद जी, आपकी सेवा प्रशंसनीय है।
डॉ. मधु(सूदन) झवेरी

narayan prasad

unread,

Sep 28, 2013, 4:05:04 AM9/28/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

बहुत अच्छा, अनुनाद जी ।
इस प्रोग्राम को और बेहतर एवं विस्तारित करने हेतु सुझाव -
(क) बेहतर बनाने हेतु सुझाव
1. बॉक्स को छोड़कर बाकी क्षेत्र को पीले रंग से भरने से थोड़ा देखने में अच्छा लगेगा, जैसा कि कई अन्य परिवर्तकों में किया गया है ।
2. शाटित शब्दों के पूर्व क्रम संख्या दी जाय ।
3. सभी पुनरावर्तित शब्दों को अलग-अलग दिखाने के बदले केवल एक ही बार लिखकर उसके दाएँ तरफ पुनरावर्तन की संख्या सूचित की जाय ।

(ख) विस्तारित करने हेतु सुझाव
1. अभी जो शाटन किया गया है वह अनुलोम शाटन है, अर्थात् शब्दों को बाएँ से दाएँ वर्ण-क्रमानुसार रखा गया है । प्रतिलोम शाटन (reverse sorting) भी भाषा विश्लेषण हेतु बहुत उपयोगी होता है । जैसे, सभी समान प्रत्ययान्त शब्दों को इकट्ठा समाविष्ट किए जाने से शब्दों की रचना समझी जा सकती है । उदाहरणार्थ, मगही में '-गर' प्रत्ययान्त शब्दों (मजगर, नटगर, लमगर, मोटगर, छरगर, सवदगर, टेसगर, उमरगर, तीतगर, ...) की एकत्र सूची बनाई जाय तो भाषा के अध्ययन-अध्यापन में बड़ी आसानी होगी । अनुलोम शाटन में ये शब्द एक दूसरे से बहुत दूर-दूर पर रखने पड़ेंगे ।
2. प्रतिलोम शाटन में भी दो तरह के विकल्प रखे जा सकते हैं - (i) सभी शब्दों को क्रम से रखे जा सकते हैं (ii) पहले सभी एक अक्षर वाले शब्दों को, फिर सभी दो अक्षर वाले शब्दों को, उसके आगे सभी तीन अक्षर वाले शब्दों को ... । विस्तार से समझने के लिए देखें - मगही धातुपाठ में इस प्रकार शाटित धातुओं की सूची । यहाँ इस प्रकार का शाटन Delphi प्रोग्राम से किया गया था ।
--- नारायण प्रसाद

2013/9/27 Anunad Singh <anu...@gmail.com>

देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
देवनागरी का शाटन कर सकते हैं।

Anunad Singh

unread,

Sep 28, 2013, 4:09:05 AM9/28/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

धर्मेन्द्र जी और मधुसूदन जी,

प्रोग्राम को जाँचने और अपनी त्वरित प्रतिक्रिया देने के लिए धन्यवाद।

ओपेनआफिस (Calc) और एमएस आफिस (Exel) में जो शॉटन होता है वह देवनागरी के लिए उपयुक्त नहीं है। वह देवनागरी वर्णों के यूनिकोड पॉंइंट के आरोही या अवरोही क्रम के आधार पर किया जाता है। यह अंग्रेजी एवं अन्य यूरोपीय भाषाओं की लिपियों के लिए तो ठीक है (क्योंकि वे अल्फाबेट आधारित हैं) किन्तु देवनागरी एवं अन्य भारतीय लिपियों के लिए नहीं। यह भी ध्यातव्य है कि कैल्क और इक्सेल आदि में 'कस्टम सॉर्टिंग क्रम' की भी सुविधा है। किन्तु उससे भी भारतीय लिपियों में शॉटन का काम नहीं बन पाता है।

यह प्रोग्राम इसी कमी की पूर्ति के लिए बनाया गया है।

अभी इस प्रोग्राम में निम्नलिखित परिवर्धन करना शेष है-

(१) इसको कुछ सीमा तक लचीला (कस्टमाइजेबल) बनाना है जिससे प्रयोक्ता अपने इच्छित क्रम में शाटन कर सकें।

(२) दो-तीन बहुप्रचलित देवनागरी शाटन क्रमों को चुनने की व्यवस्था

(३) इसे सभी भारतीय लिपियों (ब्राह्मी व्युत्पन्न लिपियों) के साथ काम करने के योग्य बनाना

(४) रोमन तथा अन्य लिपियों के मिश्रित होने पर भी काम करने के योग्य बनाना

(५) 'पाठ विलगक' (टेक्स्ट सेपरेटर) के रूप में नई लाइन (\n) , खाली जगह (स्पेस), कॉमा, टैब आदि को चुनने की सुविधा देना ( 'राम मोहन' तथा 'राम चन्द्र' की तुलना करनी हो तो...)

(६) कुछ चीजों को नजरअंदाज करने/न करने का विकल्प देना (जैसे 'दिन-रात' में स्थित '-' के लिए )

(७) वाक्यांशों की तुलना में किसी शब्द (जैसे 'का' ) को नजरअंदाज करने का विकल्प आदि

आपके ध्यान में भी इस तरह की कोई सुविधा हो तो कृपया अवश्य बताएँ।

-- अनुनाद

2013/9/28 Madhusudan H Jhaveri <mjha...@umassd.edu>

This message is eligible for Automatic Cleanup! (mjha...@umassd.edu) Add cleanup rule | More info

धर्मेन्द्र जी से सहमति। अनुनाद जी, आपकी सेवा प्रशंसनीय है।
डॉ. मधु(सूदन) झवेरी

----- Original Message -----
From: Dharmendra Pare <dharmen...@gmail.com>
To: technic...@googlegroups.com
Sent: Fri, 27 Sep 2013 23:12:22 -0400 (EDT)

--

जब भी देश पर विपत्ति, जुल्म, गुलामी की मुसीबत आई है।
अपनी यह हिंदी ही काम आई है।
रामानंद और रामानुजाचार्य से लेकर
अन्ना तक सबने हिंदी ही अपनाई है।

Anunad Singh

unread,

Sep 28, 2013, 4:24:21 AM9/28/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

नारायण प्रसाद जी,

विस्तृत सुझाव के लिए बहुत-बहुत धन्यवाद। आगामी संस्करणों में आपके सुझावों को सम्मिलित करने का प्रयास करूँगा।

आपने प्रतिलोम शाटन ( शब्द के अन्त से आदि की तरफ आते हुए तुलना / 'रिट्रोग्रेड शॉर्टिंग" ) की बात की है। यह २००७ में मैने बनाया था। उसमें अनुलोम और प्रतिलोम दोनों शाटन की व्यवस्था थी। किन्तु अनुलोम शाटन देवनागरी की दृष्टि से नहीं बल्कि यूनिकोड प्वाइंट की दृष्टि से था। परन्तु प्रतिलोम शाटन बिलकुल देवनागरी की दृष्टि से था। इस प्रोग्राम को भी संलग्न कर रहा हूँ।

-- अनुनाद

Devanagari Pratilom Kramak_07.zip

V S Rawat

unread,

Sep 28, 2013, 4:53:36 AM9/28/13

to technic...@googlegroups.com

On 9/27/2013 11:14 PM, Anunad Singh wrote:
> देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
> देवनागरी का शाटन कर सकते हैं।
>

यह अच्छा काम कर रहा है जैसी आपकी मंशा रही होगी।

सुझाव
- स्पेस आदि से अलग किए गए शब्दों को अलग अलग लाइन पर लेना और एक एक शब्द को सॉर्ट
करना, उतना उपयोगी नहीं हो पाएगा।

विकल्प दीजिए कि पूरी लाइन को सॉर्ट कर दे, या वर्तमान तरीके से।
पूरी लाइन को सॉर्ट कर पाए तो हम वर्ड की टेबल का कोई कॉलम या एक्सेल का कोई कॉलम
एक एक करके इसमें डाल के सॉर्ट कर पाएँगे चाहे उस कॉलम की हर पंक्ति में जितने भी शब्द हों.

या फिर या साथ ही विकल्प दे सकते हैं कि शब्दों को अलग करने वाला वर्ण कौन सा है, क्या
स्पेस या कॉमा या सेमी कोलन या टैब या फिर न्यूलाइन, और फिर उस अकेले वर्ण से शब्दों को
अलग अलग करके उनको क्रमबद्ध करेंगे तो सभी अपनी-अपनी सुविधानुसार कर सकेंगे।

सोर्स देखा।
1. आपने अलग से नुक्ता लगाए हुए वर्णों को नुक्ते वाले वर्णों में बदल के बहुत बढ़िया काम किया है।

2. किसी भी वर्ण को हटाइए मत। स्पेस को न्यूलाइन में मत बदलिए। इससे तो इनपुट ही बदल
जाएगा और हमारी जानकारी में भी नहीं आएगा। आप ; . , । आदि को हटा रहे हैं। ऐसा मत
कीजिए।

अगर सॉर्टिंग के लिए किसी बदलाव की तकनीकी ज़रूरत है ही तो हर वर्ण को किसी अनन्य
वर्ण में बदल दीजिए जो टेक्स्ट में हो ही नहीं सकता और फिर सॉर्टिंग के बाद उस अनन्य वर्ण
को वापस पुराने वर्ण में बदल दीजिए।

कुल मिला कर मुझे लगता है कि अगर इसे एक्सेल या वर्ड के एक कॉलम को सॉर्ट करने के हिसाब
से बनाया जाए तो लोगों के लिए अधिक उपयोगी रहेगा क्योंकि सभी का इस प्रकार का डेटा
या तो एक्सेल में रहता है, या वर्ड की टेबल में। या बाकी डेटा फ़ाइलों सीएसवी एक्सेस
एसक्यूएल वगैरह से एक्सेल के फ़ॉर्मेट में लाया ही जा सकता है।

कोई किसी रनिंग पैराग्राफ़ के एक एक शब्द को सॉर्ट करेगा ऐसी संभावना मुझे नहीं दिखती
है। लेकिन अगर करे भी तो पहले वर्ड में पाठ को खोल कर 2-4 ग्लोबल रिप्लेसमेंट करके वो सब
कर लेगा जो ये प्रोग्राम कर रहा है, फिर इसमें सॉर्ट कर लेगा। लेकिन अगर मौज़ूदा तरीका
ही रखा तो बाकी किसी तरीके से उपयोग में नहीं आ पाएगा।

--

देवनागरी में पहली बार सॉर्टिंग देखी। बहुत दिनों से सोच रहा था कि ऐसा कुछ होना
चाहिए, ज़िक़्र भी किया था समूह में, लेकिन समझ नहीं आया था कि किया कैसे जाए। यह आपने
एकदम अभूतपूर्व काम किया है।

धन्यवाद।
रावत

narayan prasad

unread,

Sep 28, 2013, 5:54:30 AM9/28/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

प्रतिलोम शाटन प्रोग्राम बिलकुल नहीं काम कर रहा । मैं शाटन हेतु एक पूरी कहानी ही डाल दी, जिसमें करीब डेढ़ हजार शब्द हैं । परन्तु प्रोग्राम केवल पहले वाक्य के शब्दों को ग्रहण कर रहा है । उसमें भी शाटन का कार्य बिलकुल नहीं हो रहा ।
--- नारायण प्रसाद

Anunad Singh

unread,

Sep 28, 2013, 7:17:45 AM9/28/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

पूरी कहानी डालेंगे तो फंस जाएगा। यह पुराना प्रोग्राम है जो नए वाले प्रोग्राम जितना 'मजबूत' (rugged) नहीं है।

अच्छा हो कि आप नए प्रोग्राम से अनुलोम क्रम में बदल लें। जो परिणाम आये उसे कॉपी करके प्रतिलोम वाले में डालें और परिणाम देखें।

2013/9/28 narayan prasad <hin...@gmail.com>

This message is eligible for Automatic Cleanup! (hin...@gmail.com) Add cleanup rule | More info

प्रतिलोम शाटन प्रोग्राम बिलकुल नहीं काम कर रहा । मैं शाटन हेतु एक पूरी कहानी ही डाल दी, जिसमें करीब डेढ़ हजार शब्द हैं । परन्तु प्रोग्राम केवल पहले वाक्य के शब्दों को ग्रहण कर रहा है । उसमें भी शाटन का कार्य बिलकुल नहीं हो रहा ।

--- नारायण प्रसाद

--
आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.
अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

Anunad Singh

unread,

Sep 28, 2013, 7:37:01 AM9/28/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

रावत जी,

आपके सुझावों एवं उत्साहवर्धक टिप्पणी के लिए धन्यवाद

आपके सभी सुझाव अत्यन्त उपयोगी हैं। मेरे भी मन में यही है कि इसको ऐसा बनाया जाय कि जिस प्रकार Exel/Calc टेबुलर आंकड़ों को शाटित करते हैं वैसे ही यह CSV को शाटित कर दे।

इसी तरह मैं इसमें 'स्पेस' को न्यू लाइन में जबरन बदलने के बजाय प्रयोक्ता की इच्छा के आधार पर कॉमा, स्पेस, न्यू लाइन, टैब आदि पर टेक्स्ट को तोड़ने का विकल्प प्रदान करूँगा।

--अनुनाद

2013/9/28 V S Rawat <vsr...@gmail.com>

This message is eligible for Automatic Cleanup! (vsr...@gmail.com) Add cleanup rule | More info

On 9/27/2013 11:14 PM, Anunad Singh wrote:

देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
देवनागरी का शाटन कर सकते हैं।

--
आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.

इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hindi+unsubscribe@googlegroups.com को एक ईमेल भेजें.

अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

Anubhav Chattoraj

unread,

Sep 28, 2013, 7:48:41 AM9/28/13

to technical-hindi

अनुनाद जी, आपका कोड थोड़ा लंबा लगा, इसलिए मैंने कुछ बदलाव किए। संलग्न
फ़ाइल देखिए।

2013/9/27 Anunad Singh <anu...@gmail.com>:

> देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
> देवनागरी का शाटन कर सकते हैं।
>

> --
> आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.

> इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.

Devanagari Kramak_12_new.html

Anunad Singh

unread,

Sep 28, 2013, 8:11:53 AM9/28/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

अनुभव जी,

नमस्ते

आपका कोड देखकर बहुत खुशी हुई। आपके कोड में एक 'प्रोफेशनल टच' है जो हमारे वाले में नहीं है। वैसे मैं प्रोग्रामर या कम्प्यूटर विज्ञानी हूँ भी नहीं।

पर मैं देख रहा हूँ कि आपके कोड का अल्गोरिद्म बदल गया है। (जिसको ठीक किया जा सकता है) । मूल प्रोग्राम 'किम्' को पहले रखता है और 'किम' को बाद में। आपका कोड यह नहीं कर रहा है।

खैर विस्तृत टिप्पणी मैं बाद में करूँगा। अभी तो इतना कहूँगा कि आपके आने से हिन्दी एवं भारतीय भाषाओं के लिए प्रोग्राम विकसित करने में बहुत सहायता मिलेगी।

-- अनुनाद

2013/9/28 Anubhav Chattoraj <anubhav....@gmail.com>

This message is eligible for Automatic Cleanup! (anubhav....@gmail.com) Add cleanup rule | More info

अनुनाद जी, आपका कोड थोड़ा लंबा लगा, इसलिए मैंने कुछ बदलाव किए। संलग्न
फ़ाइल देखिए।

2013/9/27 Anunad Singh <anu...@gmail.com>:

> देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
> देवनागरी का शाटन कर सकते हैं।
>

> --
> आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
> इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.
> अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

--
आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.
अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

Anubhav Chattoraj

unread,

Sep 28, 2013, 9:27:58 AM9/28/13

to technical-hindi

अनुनाद जी,

प्रशंसा का पात्र बनाने के लिए आपका बहुत धन्यवाद। लेकिन कहना चाहूँगा कि आपने शायद मुझे ज़्यादा आँक लिया है। मैं भी प्रोफ़ेशनल प्रोग्रामर नहीं हूँ, सिर्फ़ कंप्यूटर विज्ञान का छात्र हूँ।

खैर, शाटन-क्रम कट-पेस्ट की गलती के कारण बदल गया है। इसे आसानी से ठीक किया जा सकता है -- अवग्रह और हल-चिह्न sort_order की आखिरी पंक्ति में नहीं, पहली पंक्ति पर अंकों के बाद आने चाहिए।

लेकिन आपके क्रमानुसार संयुक्ताक्षर मूल अक्षर के पहले आते हैं। "क्रम" इत्यादि शब्द "कम" के पहले रखे जाते हैं। क्या ये सच में उचित है?

2013/9/28 Anunad Singh <anu...@gmail.com>

narayan prasad

unread,

Sep 28, 2013, 9:44:49 AM9/28/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

<<"क्रम" इत्यादि शब्द "कम" के पहले रखे जाते हैं। क्या ये सच में उचित है?>>

मेरे विचार में तो नहीं । इसी बात से मुझे यह लगता है कि 'किम्' को 'किम' के बाद आना चाहिए, अर्थात् किम, किमा, किमि, ..., किमौ, किम् - यह क्रम होना चाहिए ।
--- नारायण प्रसाद

V S Rawat

unread,

Sep 28, 2013, 10:04:44 AM9/28/13

to technic...@googlegroups.com

मुझे आप दोनों से उल्टा लगता है।

मुझे ऐसा लगता है जब म्, आधा म है तो इसे पूरे अक्षर से पहले आना चाहिए।

सभी वर्णों में सबसे पहले आधा अक्षर, फिर पूरा अक्षर, फिर एक एक करके मात्राओं वाले अक्षर
आने चाहिए।

संयुक्ताक्षर भी अक्षरों को आधा मान के उसके क्रम में आने चाहिए।

खैर इसके लिए कोई भी छपा हुआ हिन्दी शब्दकोश देख लीजिए, जो भी क्रम हो, उसी क्रम को
अपनाया जा सकता है।

धन्यवाद
रावत

On 9/28/2013 7:14 PM, narayan prasad wrote:
> <<"क्रम" इत्यादि शब्द "कम" के पहले रखे जाते हैं। क्या ये सच में उचित है?>>
>
> मेरे विचार में तो नहीं । इसी बात से मुझे यह लगता है कि 'किम्' को 'किम' के बाद आना
> चाहिए, अर्थात् किम, किमा, किमि, ..., किमौ, किम् - यह क्रम होना चाहिए ।
> --- नारायण प्रसाद
>
>
>
> 2013/9/28 Anubhav Chattoraj <anubhav....@gmail.com

> <mailto:anubhav....@gmail.com>>

>
> अनुनाद जी,
>
> प्रशंसा का पात्र बनाने के लिए आपका बहुत धन्यवाद। लेकिन कहना चाहूँगा कि आपने
> शायद मुझे ज़्यादा आँक लिया है। मैं भी प्रोफ़ेशनल प्रोग्रामर नहीं हूँ, सिर्फ़ कंप्यूटर
> विज्ञान का छात्र हूँ।
>
> खैर, शाटन-क्रम कट-पेस्ट की गलती के कारण बदल गया है। इसे आसानी से ठीक किया जा
> सकता है -- अवग्रह और हल-चिह्न sort_order की आखिरी पंक्ति में नहीं, पहली पंक्ति
> पर अंकों के बाद आने चाहिए।
>
> लेकिन आपके क्रमानुसार संयुक्ताक्षर मूल अक्षर के पहले आते हैं। "क्रम" इत्यादि शब्द "कम"
> के पहले रखे जाते हैं। क्या ये सच में उचित है?
>
>

> 2013/9/28 Anunad Singh <anu...@gmail.com <mailto:anu...@gmail.com>>

>
> अनुभव जी,
> नमस्ते
> आपका कोड देखकर बहुत खुशी हुई। आपके कोड में एक 'प्रोफेशनल टच' है जो हमारे
> वाले में नहीं है। वैसे मैं प्रोग्रामर या कम्प्यूटर विज्ञानी हूँ भी नहीं।
>
> पर मैं देख रहा हूँ कि आपके कोड का अल्गोरिद्म बदल गया है। (जिसको ठीक किया
> जा सकता है) । मूल प्रोग्राम 'किम्' को पहले रखता है और 'किम' को बाद में।
> आपका कोड यह नहीं कर रहा है।
>
> खैर विस्तृत टिप्पणी मैं बाद में करूँगा। अभी तो इतना कहूँगा कि आपके आने से हिन्दी
> एवं भारतीय भाषाओं के लिए प्रोग्राम विकसित करने में बहुत सहायता मिलेगी।
>
> -- अनुनाद
>
>
> 2013/9/28 Anubhav Chattoraj <anubhav....@gmail.com

> <mailto:anubhav....@gmail.com>>
>
> Boxbe <https://www.boxbe.com/overview> This message is

> eligible for Automatic Cleanup! (anubhav....@gmail.com

> <mailto:anubhav....@gmail.com>) Add cleanup rule
> <https://www.boxbe.com/popup?url=https%3A%2F%2Fwww.boxbe.com%2Fcleanup%3Ftoken%3DcLT2nxeaBBvDNcYrzp8Z%252BrzMbXXToRW8P3dkf6uIBg2uPYiOQCttzsvGH0OPy6uCwO0CL27HNIolbD99pyb0VB8xNEOZyeWV%252B%252Bi5m4BF1jRymgEfzkQFF9Hc9sPUWeM1q33IIXEL%252B24L15ubJCpU2w%253D%253D%26key%3Dq%252FCaiEnNjeVvuhlXiYVLZmfbVCxr5bWo3bxFApcEhfw%253D&tc_serial=15259810407&tc_rand=1358066863&utm_source=stf&utm_medium=email&utm_campaign=ANNO_CLEANUP_ADD&utm_content=001>
> | More info
> <http://blog.boxbe.com/general/boxbe-automatic-cleanup?tc_serial=15259810407&tc_rand=1358066863&utm_source=stf&utm_medium=email&utm_campaign=ANNO_CLEANUP_ADD&utm_content=001>

>
>
> अनुनाद जी, आपका कोड थोड़ा लंबा लगा, इसलिए मैंने कुछ बदलाव किए। संलग्न
> फ़ाइल देखिए।
>
> 2013/9/27 Anunad Singh <anu...@gmail.com

> <mailto:anu...@gmail.com>>:

> > देवनागरी शाटन का प्रोग्राम संलग्न है। इससे आरोही या अवरोही क्रम में
> > देवनागरी का शाटन कर सकते हैं।
> >
> > --
> > आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह
> "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)"
> समूह की सदस्यता ली है.
> > इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद
> करने के लिए, technical-hin...@googlegroups.com

> <mailto:technical-hindi%2Bunsu...@googlegroups.com> को

> एक ईमेल भेजें.
> > अधिक विकल्‍पों के लिए,
> https://groups.google.com/groups/opt_out पर जाएं.
>
> --
> आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific
> and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की
> सदस्यता ली है.
> इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के
> लिए, technical-hin...@googlegroups.com

> <mailto:technical-hindi%2Bunsu...@googlegroups.com> को

Anunad Singh

unread,

Sep 29, 2013, 12:37:02 AM9/29/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

हिन्दी में शाटन क्रम मानकीकृत नहीं है (जहाँ तक मैं जानता हूँ)। ऐतिहासिक रूप से प्राचीन संस्कृत/पालि/प्राकृत ग्रन्थों में कहीं वर्ण-क्रम का उपयोग करते हुए कुछ सामग्री (शब्दकोश आदि) निर्मित नहीं की गई (शायद)

वामन शिवराम आप्टे जी के संस्कृत कोश में एक विशेष क्रम अपनाया गया है। मेरे खयाल से हिन्दी में भी उसी को अपनाया जाता है। उसमें 'हरित्' पहले आता है, 'हरित' बाद में। 'कंस' पहले आता है 'कस' बाद में (शायद कस शब्द है ही नहीं, केवल बात को स्पष्ट करने के लिए लिखा है)

लेकिन अर्ध अक्षरों से शुरू होने वाले शब्द उसी अक्षर के 'औ' की मात्रा के शब्दों के समाप्त होने के बाद आते हैं। उदाहरण के लिए 'सौरभ' के बाद 'स्वस्थ' रखा गया है।

मान लीजिए कि अर्ध अक्षरों को 'पूर्ण' अक्षर से पहले स्थान देना है तो अपने प्रोग्राम में 'विराम' (हल) को पहली पंक्ति में करके देखें। क्या इतने से ही काम चल पा रहा है?

-- अनुनाद

Hariraam

unread,

Sep 29, 2013, 8:45:07 AM9/29/13

to technic...@googlegroups.com

आदरणीय अनुनाद जी, अनुभव जी एवं रावत जी,

नारायण जी सही कह रहे हैं:

चूँकि युनिकोड में देवनागरी 34 मूल व्यञ्जनों (क् ख् ग् घ् ङ् .... ह् ) की Encoding नहीं हुई
है, इसलिए यह समस्या उपजी है। इसी कारण देवनागरी व भारतीय लिपियाँ Complex
Script के अन्तर्गत रखनी पड़ी हैं। इसी कारण सही सार्टिंग आर्डर पाना अत्यन्त कठिन हो
गया है।

हलन्त का मान "-अ" होता है अर्थात् "माइनस अ"

इसलिए

क् ख्.... से लेकर ह् तक हलन्तयुक्त (अर्थात् आधे) अक्षरों को
क ख... से ह तक पूर्ण व्यञ्जनों से पहले ही आना चाहिए।

किन्तु "क, का...कः" को
"क्क , क्ख, ...क्र... क्ह" आदि संयुक्ताक्षरों के पहले ही आना चाहिए।

इस समस्या के समाधान के लिए यह तर्क (Logic) प्रोग्राम में डाला जाए तो शायद समाधान
मिल सकता है।

क्+अ= क
क्+आ = का = क + ा
.
.
.
क्+औ = कौ = क +ौ

मात्राओं के लिए यह तर्क दिया जा सके तो सही होगा।

्+आ = ा
्+इ =ि
्+ई =ी
्+उ = ु
्+ऊ =ू
्+ऋ = ृ
्+ए = े
्+ऐ = ै
्+ओ = ो
्+औ =ौ

चूँकि लोग मानते हैं कि 'अ' की कोई मात्रा नहीं होती।
जबकि ध्वनिशास्त्र/नादशास्त्र में 'अ' की मात्रा अदृश्य Invisible होती है। जिसके जुड़ने
पर हलन्त हट जाता है।
ISCII Codes का जब 1991 में भारतीय मानक ब्यूरो द्वारा मानकीकरण जारी किया गया
था, उसमें डिसिमल कोड नम्बर 217 में Invisible कोड की Encoding की गई थी। (देखें
अटैच की गई पीडीएफ फाइल)

Unicode में इसके समरूप Dotted circle (Hex 25CC) है जो "खाली मात्रा" टाइप करने
पर उनके पहले प्रकट होता है।

हालांकि हलन्त कोड को सभी मात्राओँ के अन्त में तथा नुक्ता के पहले Encode किया गया है
अतः default sorting में हलन्तयुक्त अक्षर हलन्तरहित अगले अक्षर के पहले आ जाते हैं, किन्तु
जहाँ हलन्त किसी शब्द के अन्त में अर्थात् स्पेस से पहले आता है वहाँ सही क्रम नहीं मिल
पाता, क्योंकि स्पेस का कोड HEX 0020 होता है।
वाक पहले आ जाता है
वाक् बाद में आता है।

शायद उक्त किसी तर्क को प्रोग्राम में फिक्स करने से फिलहाल हमें "येन केन प्रकारेण" सही
sorting order उपलब्ध हो पाए।

-- हरिराम

isciiapril03.pdf

V S Rawat

unread,

Sep 29, 2013, 12:25:05 PM9/29/13

to technic...@googlegroups.com

मैं एक विचार दे रहा था, मुझे किसी भी विधि में कोई ऐतराज़ नहीं है।

अभी तक सॉर्टिंग होती ही नहीं थी, इतने साल हो गए यूनीकोड बने। यूनीकोड के अक्षरों को
ही सॉर्टिंग के क्रम में ही रखा जाना चाहिए था, जैसे अंग्रेजी के अक्षरों के एस्काई कोड ही
उनकी सॉर्टिंग का क्रम तय कर देते हैं।

अब सॉर्टिंग बनाने का एक बढ़िया उपयोगी काम आप लोग कर रहे हैं तो मेरा इस प्रयास में
पूरा समर्थन है, जो भी तय करें, वह बढ़िया और उपयोगी रहेगा।

धन्यवाद।
--
रावत

(Dr.) Kavita Vachaknavee

unread,

Sep 29, 2013, 5:52:28 PM9/29/13

to technic...@googlegroups.com

अनुनाद जी,

इस महत्वपूर्ण संसाधन को विकसित करने के लिए अत्यन्त धन्यवाद।

स्वयंसेवी के रूप में कार्य करने वालों ने हिन्दी को बहुत समृद्ध किया है।

अनुभव जी भी अब इसमें आपके साथ जुड़ कर इसे अधिक सटीक व अद्यतन करने में सहयोग देंगे। पश्चात् इसकी फायनल फाईल की भी प्रतीक्षा रहेगी।

पुनः सद्भाव सहित

सादर शुभेच्छु

- (डॉ.) कविता वाचक्नवी

Anubhav Chattoraj

unread,

Sep 29, 2013, 10:58:47 PM9/29/13

to technical-hindi

अनुनाद जी एवं हरिराम जी,

रावत जी की सलाहानुसार मैंने कुछ हिंदी शब्दकोश देखे। एस॰ चन्द का एक हिंदी-हिंदी शब्दकोश और DSAL (http://dsal.uchicago.edu/dictionaries/) के हिंदी शब्दकोश देखे।

संयुक्ताक्षर संपूर्ण अक्षर के बाद आएँ इस पर सभी कोश सहमत हैं। लेकिन आधे अक्षरों (अर्थात् शब्द के अंत में आने वाले हलंत-युक्त अक्षरों) का क्या किया जाए, इस पर कोई सहमति नहीं हैं। कुछ शब्दकोशों में ये मूल (अ-युक्त) अक्षरों के बाद रखे जाते हैं और कुछ शब्कोशों में इनके पहले।

हरिराम जी, आपने जो लॉजिक दिया है, उससे अर्धाक्षर < पूर्ण अक्षर < संयुक्ताक्षर के क्रम में शाटन किया जा सकता हैं। फ़ुरसत मिलने पर इसे भी इंप्लिमेंट करके समूह के सामने रखूँगा।

Anunad Singh

unread,

Sep 29, 2013, 11:26:04 PM9/29/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

उपरोक्त सभी चर्चाओं को ध्यान में रखते हुए, सारांश रूप में निम्नलिखित बातें कहना चाहूँगा:

(१) सम्स्कृत/हिन्दी के शाटन का कोई मानक नहीं है। (जबकि सिंहल, बर्मी भाषा, तिब्बती, थाई आदि के शाटन से सम्बन्धित दस्तावेज नेट पर उपलब्ध हैं।)

(२) देवनागरी के मानकीकरण पर चर्चा (जिसमें शाटन भी एक मुद्दा था) चली थी (अन्यत्र) जो अधूरी रह गई थी।

(३) यह प्रोग्राम अस्तित्व में आ गया है और काम कर रहा है। अब मुद्दा यह नहीं है कि देवनगारी में 'सही' शाटन हो सकता है या नहीं बल्कि यह है कि शाटन का क्रम क्या हो।

(४) चूँकि इस प्रोग्राम में आसानी से यह सुविधा प्रदान की जा सकती है कि प्रयोक्ता अपने 'इच्छित शाटन क्रम' में शाटन कर सके, अब हमें तीन-चार बहुप्रचलित या ऐतिहासिक रूप से प्रचलित या 'तर्कपूर्ण' शाटन क्रम यहाँ प्रस्तुत करना चाहिए ताकि उनको इस प्रोग्राम में लागू कर सकें।

(५) हरिराम जी के इस कथन से कि देवनागरी का यूनिकोड 'ठीक से' निर्धारित नहीं हुआ है, इसलिए शाटन की समस्या है, मैं सहमत नहीं हूँ। इस विषय पर विद्वानों ने बड़ी स्पष्टता से लिखा है, देखें:

Q: What about collation of Indic language data? Is that just a binary sort?

http://www.unicode.org/faq/indic.html

A: No. Collation order is not the same as code point order. A good treatment of some issues specific to collation in Indic languages can be found in the paper Issues in Indic Language Collation by Cathy Wissink.

Collation in general must proceed at the level of language or language variant, not at the script or codepoint levels. See also UTS #10: Unicode Collation Algortihm. Some Indic-specific issues are also discussed in that report.

इसी बात को बड़े विस्तार से, सोदाहरण यहाँ समझाया गया है:

Indic Languages vs Collation

अन्त में यही निवेदन है कि आप सभी लोग हिन्दी के लिए बहुप्रचलित/ऐतिहासिक/वैज्ञानिक शाटन क्रम प्रदान करें जिन्हें इस प्रोग्राम में लागू किया जा सके।

narayan prasad

unread,

Sep 30, 2013, 6:43:04 AM9/30/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

इस प्रोग्राम को वस्तुतः उपयोगी बनाने के लिए कृपया 'शब्दावली निर्माण' (अर्थात् प्रत्येक शब्द का एक ही बार चयन) हेतु संशोधित संस्करण शीघ्रातिशीघ्र तैयार करें । शब्दों की बारम्बारता (frequency) बाद के संस्करणों में दी जा सकती है ।
--- नारायण प्रसाद

2013/9/28 Anunad Singh <anu...@gmail.com>

Anunad Singh

unread,

Sep 30, 2013, 10:06:24 AM9/30/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

नारायण जी,

मैने पुनरावृत्त शब्दों को हटाने की व्यस्था कर दी है,। कृपया जाँचिए।

2013/9/30 narayan prasad <hin...@gmail.com>

This message is eligible for Automatic Cleanup! (hin...@gmail.com) Add cleanup rule | More info

इस प्रोग्राम को वस्तुतः उपयोगी बनाने के लिए कृपया 'शब्दावली निर्माण' (अर्थात् प्रत्येक शब्द का एक ही बार चयन) हेतु संशोधित संस्करण शीघ्रातिशीघ्र तैयार करें । शब्दों की बारम्बारता (frequency) बाद के संस्करणों में दी जा सकती है ।

--- नारायण प्रसाद

2013/9/28 Anunad Singh <anu...@gmail.com>

--
आपको यह संदेश इसलिए प्राप्त हुआ क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.

इस समूह से अनसब्सक्राइब करने के लिए और इससे ईमेल प्राप्त करना बंद करने के लिए, technical-hin...@googlegroups.com को एक ईमेल भेजें.

अधिक विकल्‍पों के लिए, https://groups.google.com/groups/opt_out पर जाएं.

Devanagari Kramak_15.zip

Hariraam

unread,

Sep 30, 2013, 10:15:23 AM9/30/13

to technic...@googlegroups.com

<हरिराम जी के इस कथन से कि देवनागरी का यूनिकोड 'ठीक से' निर्धारित नहीं हुआ है, इसलिए शाटन की समस्या है>

अनुनाद जी,

मेरा कथन ऐसा नहीं है।

कृपया मेरा सन्देश पुनः देखें। पुनः स्पष्ट करता हूँ।

"चूँकि युनिकोड में देवनागरी व अन्य भारतीय लिपियों में मूल व्यञ्जनों की Encoding नहीं हुई है, अतः यह समस्या है।"

सन्दर्भ : भारत सरकार के सूचना एवं प्रोद्योगिकी मंत्रालय के TDIL द्वारा सन् 2002 से युनिकोड में मूल व्यञ्जनों के लिए स्वतन्त्र कोड निर्धारित करने के लिए काफी प्रयास किया गया था, लेकिन प्रस्ताव स्वीकृत नहीं हो पाया....

हरिराम
प्रगत भारत <http://hariraama.blogspot.com>

2013/9/30 Anunad Singh <anu...@gmail.com>

.....

Hariraam

unread,

Sep 30, 2013, 10:27:39 AM9/30/13

to technic...@googlegroups.com

युनिकोड में देवनागरी का जो शाटन चार्ट निर्धारित है, वह निम्नवत् है। यहाँ देखें।

<http://www.unicode.org/charts/uca/chart_Devanagari.html>

Devanagari

ॐ `0950`
ॲ `0972`
ऄ `0904`
अ `0905`
आ `0906`
ॳ `0973`
ॴ `0974`
ॵ `0975`
ॶ `0976`
ॷ `0977`
इ `0907`
ई `0908`
उ `0909`
ऊ `090A`
ऋ `090B`
ॠ `0960`
ऌ `090C`
ॡ `0961`
ऍ `090D`
ऎ `090E`
ए `090F`
ऐ `0910`
ऑ `0911`
ऒ `0912`
ओ `0913`
औ `0914`
क `0915`	क़ `0958`
ख `0916`	ख़ `0959`
ग `0917`	ग़ `095A`
ॻ `097B`
घ `0918`
ङ `0919`
च `091A`
छ `091B`
ज `091C`	ज़ `095B`
ॹ `0979`
ॼ `097C`
झ `091D`
ञ `091E`
ट `091F`
ठ `0920`
ड `0921`	ड़ `095C`
ॾ `097E`
ढ `0922`	ढ़ `095D`
ण `0923`
त `0924`
थ `0925`
द `0926`
ध `0927`
न `0928`	ऩ `0929`
प `092A`
फ `092B`	फ़ `095E`
ब `092C`
ॿ `097F`
भ `092D`
म `092E`
य `092F`	य़ `095F`
ॺ `097A`
र `0930`	ऱ `0931`
ल `0932`
ळ `0933`	ऴ `0934`
व `0935`
श `0936`
ष `0937`
स `0938`
ह `0939`
ऽ `093D`
ॽ `097D`
ᳩ `1CE9`	ᳪ `1CEA`	ᳫ `1CEB`	ᳬ `1CEC`	ᳮ `1CEE`	ᳯ `1CEF`	ᳰ `1CF0`	ᳱ `1CF1`
ᳵ `1CF5`
ᳶ `1CF6`
ꣲ `A8F2`	ꣳ `A8F3`	ꣴ `A8F4`	ꣵ `A8F5`	ꣶ `A8F6`	ꣷ `A8F7`
ꣻ `A8FB`
◌ा `093E`
◌ऺ `093A`
◌ऻ `093B`
◌ॏ `094F`
◌ॖ `0956`
◌ॗ `0957`
◌ि `093F`
◌ी `0940`
◌ु `0941`
◌ू `0942`
◌ृ `0943`
◌ॄ `0944`
◌ॢ `0962`
◌ॣ `0963`
◌ॅ `0945`
◌ॕ `0955`
◌ॆ `0946`
◌े `0947`
◌ॎ `094E`
◌ै `0948`
◌ॉ `0949`
◌ॊ `094A`
◌ो `094B`
◌ौ `094C`
◌् `094D`

हरिराम
प्रगत भारत <http://hariraama.blogspot.com>

2013/9/30 Anunad Singh <anu...@gmail.com>

उपरोक्त सभी चर्चाओं को ध्यान में रखते हुए, सारांश रूप में निम्नलिखित बातें कहना चाहूँगा:

(१) सम्स्कृत/हिन्दी के शाटन का कोई मानक नहीं है। (जबकि सिंहल, बर्मी भाषा, तिब्बती, थाई आदि के शाटन से सम्बन्धित दस्तावेज नेट पर उपलब्ध हैं।)

(२) देवनागरी के मानकीकरण पर चर्चा (जिसमें शाटन भी एक मुद्दा था) चली थी (अन्यत्र) जो अधूरी रह गई थी।

मानकीकरण हेतु बनी उप-समिति अपने कार्य में संलग्न है। उप-समिति के मसौदे में पहले ही "देवनागरी" लिपि संबंधी हिस्से को अलग करके इसे अगले कार्यक्रम में शामिल करने का निर्णय लिया गया था। क्योंकि देवनागरी केवल हिन्दी की ही नहीं, बल्कि मूलतः संस्कृत, फिर मराठी, नेपाली... इत्यादि कई भाषाओं की लिपि हैं, उन भाषाओं के विद्वानों को शामिल करने का प्रस्ताव दिया गया था।

narayan prasad

unread,

Sep 30, 2013, 11:54:03 AM9/30/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

<<मैने पुनरावृत्त शब्दों को हटाने की व्यस्था कर दी है,। कृपया जाँचिए।>>

जाँच कर ली है । पुनरावृत्ति की समस्या अभी भी है ।

प्रतीत होता है कि punctuation marks को शाटन के पहले ही हटा दिया है । ऐसी परिस्थिति में 'बड़े-बड़े', 'घर-घर', 'खेती-गृहस्थी', 'परिवार-नियोजन' जैसे शब्दों में से योजक चिह्न को हटाने से ये एक शब्द बन जाते हैं ।

narayan prasad

unread,

Sep 30, 2013, 12:48:32 PM9/30/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

ओह, आपने "Remove repeated words" आपने शाटन के बाद निचले बॉक्स के भी नीचे दिया है जो मेरी पीसी के स्क्रीन के छोटा होने से दिखा नहीं । इसे दबाने पर पुनरावृत्त शब्द हट जाते हैं ।
"स्पेस" को भी यह प्रोग्राम एक शब्द के रूप में लेता है । इसे प्रिंट न करें ।

--- नारायण प्रसाद

2013/9/30 narayan prasad <hin...@gmail.com>

Anunad Singh

unread,

Sep 30, 2013, 10:54:52 PM9/30/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

नारायण जी,

अभी इस प्रोग्राम को बहुत सुधारना है। रोमन अक्षर, स्पेस, अर्धविराम, पूर्नविराम, खड़ि पाई, कोलन, प्रशनवाचक चिह्न आदि बहुत सी चीजें मूल टेक्स्ट से हटाने के बाद बचे टेक्स्ट का शाटन किया जा रहा है। अगामी संस्करणों में डैश, स्पेश, आदि को भी पाठ की तुलना में सम्मिलित करेंगे।

Anunad Singh

unread,

Sep 30, 2013, 11:03:22 PM9/30/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

हरिराम जी,

आप जिसे 'देवनागरी का शाटन चार्ट' कह रहे हैं वह 'देवनागरी के यूनिकोड का चार्ट' है। यही बात यूनिकोड कान्सोर्शियम वाले बार-बार दोहराते हैं। किसी भी भाषा के शाटन के क्रम का निर्धारण न उनके अधिकारक्षेत्र में है, न एजेण्डे में।

हाँ, यह अवश्य है कि आप किसी ऐसे प्रोग्राम का उपयोग करके शार्टिंग करेंगे जो सीधे 'यूनिकोड शॉर्टिंग अल्गोरिद्म' का उपयोग करता है तो देवनागरी इसी क्रम में शाटित होगी क्योंकि देवनागरी का यूनिकोड इसी क्रम में कम से अधिक मान की ओर ।बढता हुआ है।

Anunad Singh

unread,

Sep 30, 2013, 11:17:14 PM9/30/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

यूनिकोड कान्सोर्शियम बार-बार स्पष्ट करता है कि किसी भाषा के शाटन का क्रम का निर्धारण उनका काम नहीं है और न ही वे ऐसा करते हैं। हाँ, मोटे तौर पर देवनागरी यूनिकोड या अन्य लिपियों के यूनिकोड इस प्रकार निर्धारित किए गए हैं कि उनसे आभास (भ्रम?) होता है कि यूनिकोड कॉन्सोर्शियम ने ये कोड शाटन के क्रम में निर्धारित किया है किन्तु कुछ-कुछ गलती कर दी है।

अनुनाद जी,

मेरा कथन ऐसा नहीं है।

कृपया मेरा सन्देश पुनः देखें। पुनः स्पष्ट करता हूँ।
"चूँकि युनिकोड में देवनागरी व अन्य भारतीय लिपियों में मूल व्यञ्जनों की Encoding नहीं हुई है, अतः यह समस्या है।"

यूनिकोड कांसोर्शियम का यही कहना है कि कोडिंग और शार्टिंग को अलग-अलग देखा जाय, दोनों को मिश्रित न किया जाय। 'देवनागरी का शाटन कोई समस्या नहीं है'। बल्कि समस्या यह है कि हम ही किसी एक शाटन क्रम पर एकमत नहीं हो पा रहे।

Shree Devi Kumar

unread,

Oct 1, 2013, 6:31:10 AM10/1/13

to technic...@googlegroups.com

Anunadji,

Thanks for the program, I'll download and give it a try.

Since there was a question regarding the sorting order to be used for Hindi, I'm providing links to a recent Hindi Shabdakosh available in Google Books. It gives the order used in the two volumes as well as the logic for the same. You can provide that order also as one option, if you see fit. See pages 13-17 of Volume 1 in preview mode for the same.

Prabhat Brihat Hindi Shabdakosh (vol-2)

books.google.co.in/books?isbn=8173157707

Dr Shyam Bahadur Verma - 2010 - ‎Preview - ‎More editions

Dictionary of Hindi language.

Prabhat Brihat Hindi Shabdakosh

books.google.co.in/books?isbn=8173157693

Dharmendra Varmā - 2010 - ‎Preview - ‎More editions

Dictionary of Hindi language.

Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com

2013/10/1 Anunad Singh <anu...@gmail.com>

--

Hariraam

unread,

Oct 1, 2013, 6:56:47 AM10/1/13

to technic...@googlegroups.com

अनुनाद जी,

आपने सही कहा है। Unicode.org का एक सदस्य होने के नाते मैं यह तथ्य कई वर्ष पहले से भली भाँति जानता हूँ कि Encoding और Collation अलग अलग प्रक्रियाएँ हैं। कृपया यह तथ्य बारम्बार रिपीट नहीं करें।

शायद शीघ्रता में आप मेरे सन्देशों को ठीक-से पढ़ नहीं पाए हैं। मैंने पिछले सन्देश में कोड चार्ट नहीं, बल्कि शाटन-क्रम का चार्ट दिया है।

नए Code निर्धारण की प्रक्रिया सतत् जारी है, किसी लिपि के नए कोड को अन्य वर्णों बीच में बैठाकर अन्य वर्णों के कोड नम्बरों को बदला नहीं जा सकता, अतः नये वर्ण की Encoding अन्य खाली स्थान पर की जाती है। अतः शाटन क्रम के अनुसार Encoding करना सम्भव नहीं हो पाता। आरम्भ में (1988 में) ISCII को युनिकोड में ज्यों का त्यों लिया गया था, तब तक शाटन ISCII के अनुसार ही था। बाद में अन्य वर्णों की कोड नम्बरिंग हुई तो नया क्रम रख पाना संभव नहीं हुआ।

युनिकोड द्वारा Collation निर्धारण के लिए अलग व्यवस्था है।

युनिकोड में देवनागरी के कोड चार्ट निम्न तीन कड़ियों पर दिए गए हैं:

<http://www.unicode.org/charts/PDF/U0900.pdf>

<http://www.unicode.org/charts/PDF/UA8E0.pdf>

<http://www.unicode.org/charts/PDF/U1CD0.pdf>

जबकि

निर्धारित Sorting अर्थात् Collation का चार्ट निम्न कड़ी पर दिया गया है:

<http://www.unicode.org/charts/uca/chart_Devanagari.html>

निम्न कड़ी पर UCA = Unicode Collation Algorithm दिए गए हैं:

<http://www.unicode.org/charts/uca/>

Sorting का प्रोग्राम बनानेवालों को पहले इनका अवलोकन अवश्य कर लेना चाहिए।

कृपया शान्त मन से फुर्सत में देखें।

देवनागरी के शाटन क्रम पर एकमत होने के लिए सभी विद्वानों को कुछ ठोस तथ्य एवं सन्दर्भों का अध्ययन या अवलोकन करना आवश्यक होगा, जिन्हें उपलब्ध कराने का प्रयास जारी है।

सादर।

हरिराम

2013/10/1 Anunad Singh <anu...@gmail.com>

यूनिकोड कान्सोर्शियम बार-बार स्पष्ट करता है कि किसी भाषा के शाटन का क्रम का निर्धारण उनका काम नहीं है और न ही वे ऐसा करते हैं। हाँ, मोटे तौर पर देवनागरी यूनिकोड या अन्य लिपियों के यूनिकोड इस प्रकार निर्धारित किए गए हैं कि उनसे आभास (भ्रम?) होता है कि यूनिकोड कॉन्सोर्शियम ने ये कोड शाटन के क्रम में निर्धारित किया है किन्तु कुछ-कुछ गलती कर दी है।

यूनिकोड कांसोर्शियम का यही कहना है कि कोडिंग और शार्टिंग को अलग-अलग देखा जाय, दोनों को मिश्रित न किया जाय। 'देवनागरी का शाटन कोई समस्या नहीं है'। बल्कि समस्या यह है कि हम ही किसी एक शाटन क्रम पर एकमत नहीं हो पा रहे।

Hariraam

unread,

Oct 1, 2013, 7:18:51 AM10/1/13

to technic...@googlegroups.com

श्री देवी कुमार जी,

इस पुस्तक की कड़ी देने के लिए बहुत धन्यवाद।

इस पुस्तक में अनुक्रमणिका के बाद शब्दारम्भ के पहले पन्ने पर जो स्पष्ट किया गया है, उससे उद्धृत कर रहा हूँ, जो सभी शाटन क्रम निर्धारकों के ध्यान देने के लिए आवश्यक तथ्य है....

हरिराम

2013/10/1 Shree Devi Kumar <shree...@gmail.com>

Anunadji,
Thanks for the program, I'll download and give it a try.

Since there was a question regarding the sorting order to be used for Hindi, I'm providing links to a recent Hindi Shabdakosh available in Google Books. It gives the order used in the two volumes as well as the logic for the same. You can provide that order also as one option, if you see fit. See pages 13-17 of Volume 1 in preview mode for the same.

Prabhat Brihat Hindi Shabdakosh

books.google.co.in/books?isbn=8173157693
Dharmendra Varmā - 2010 - ‎Preview - ‎More editions
Dictionary of Hindi language.

Shree Devi Kumar
____________________________________________________________

SortingOrderProblem in HindiDicPrabhat.JPG

Anunad Singh

unread,

Oct 5, 2013, 9:59:52 AM10/5/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

हरिराम जी,

आपने लिखा था

युनिकोड में देवनागरी का जो शाटन चार्ट निर्धारित है, वह निम्नवत् है। यहाँ देखें।

<http://www.unicode.org/charts/uca/chart_Devanagari.html>

मुझसे गलती हो गई कि मैने इसे ध्यान से नहीं देखा। वस्तुतः यह विशाल 'डिफाल्ट यूनिकोड कोलेशन एलिमेण्ट टेबल' (DUCET) का वह भाग है जो देवनागरी से सम्बन्धित है। इसके बारे में मैं निम्नलिखित बातें कहना चाहता हूँ-

(१) DUCET एक 'डिफाल्ट' टेबल है। 'डिफाल्ट' का अर्थ यह है कि किसी भी वर्ण के क्रम के बारे में शाटन प्रोग्राम में यदि कोई अतिरिक्त जानकारी नहीं दी जाएगी तो इसमें दिया गया क्रम लागू होगा। यदि सम्पूर्ण DUCET को ध्यान से देखा जाय तो प्रत्येक वर्ण के आगे तीन/चार भार (weight) दिए हैं। इन भारों को घटाबढ़ाकर उस वर्ण का दूसरे वर्णों के सापेक्ष क्रम बदला जा सकता है। ICU ने अपने प्रोग्राम में यह व्यवस्था दी है।

(२) ुपरोक्त सारणी में तुलना के कई स्तर (तीन-चार) दिए गए हैं। हिन्दी सहित सभी भारतीय कई भाषाओं के लिए केवल एक ही स्तर पर्याप्त है। किन्तु कुछ भाषाएँ (जैसे लाओ आदि) हैं जिनका समानुक्रमण केवल क्रम निर्धारण से नहीं होता बल्कि उनमें कुछ अन्य बातों को भी समानुक्रमण के लिए शामिल करना पड़ता है।

(३) 'देवनागरी का समानुक्रमण' और 'हिन्दी का समानुक्रण' जरूरी नहीं एक ही हो। हिन्दी, मराठी, संस्कृत, सिन्धी, नेपाली आदि की लिपि देवनागरी होते हुए भी समानुक्रमण अलग-अलग हो सकता है।

-- अनुनाद

Anubhav Chattoraj

unread,

Oct 5, 2013, 10:36:42 AM10/5/13

to technical-hindi

अनुनाद जी,

>हिन्दी सहित सभी भारतीय कई भाषाओं के लिए केवल एक ही स्तर पर्याप्त है।

जहाँ तक मेरी समझ में आया, देवनागरी के लिए दो स्तरों की ज़रूरत है। बृहत् हिंदी शब्दकोश के क्रम में आम तौर पर नुक्ते को नज़रअंदाज़ कर दिया जाता है, लेकिन अगर दो शब्दों में सिर्फ़ नुक्ते का अंतर हो तो नुक्ते वाले शब्द को बाद में रखा जाता है।

इस क्रम में शाटन करना हो तो दो स्तर इस्तेमाल करने पड़ेंगे। प्राइमरी लेवल पे नुक्ते को शून्य का भार दिया जाएगा। सेकंडरी लेवल पर इसे कोई पॉसिटिव (धनात्मक) भार दिया जाएगा लेकिन अन्य सभी अक्षरों/चिह्नों को शून्य का भार मिलेगा।

आपके बाकी बिंदुओं से पूर्णतया सहमत हूँ।

Anunad Singh

unread,

Oct 5, 2013, 12:15:20 PM10/5/13

to technic...@googlegroups.com

अनुभव जी,
देवनागरी यूनिकोड में नुक्ते वाले वर्णों, यथा क़, ग़, ज़ आदि को लिखने
के दो तरीके सम्भव हैं-
१) उनके लिए निर्धारित यूनिकोड का प्रयोग किया जाय। ( 'क' तथा 'क़' दोनों
के लिए अलग यूनिकोड निर्धारित हैं।

२) इनको 'मूल वर्ण + नुक्ता वर्ण' के रूप में लिखा जाय।

दोनों दशाओं में देखने पर वे समान ही दिखते हैं किन्तु उनके यूनोकोड में
अन्तर होता है।

उपरोक्त बात को ध्यान में रखते हुए यदि तुलना के पहले ही सभी 'मूल वर्ण +
नुक्ता' (=दो बाइट) को बदलकर एक बाइट वाले संगत यूनिकोड में बदल दिया जाय
और वर्णों का क्रम बताने वाली सारणी में मूल वर्नों के ठीक बाद
नुक्तायुक्त एक-बाइट वाले वर्ण रख दिए जाँय (जैसे क, क़, ख आदि) तो यह
समस्या यहीं समाप्त हो जाती है , अर्थात् दूसरे स्तर की आवश्यकता ही नहीं

है।

-- अनुनाद

2013/10/5, Anubhav Chattoraj <anubhav....@gmail.com>:

> This message is eligible for Automatic Cleanup!
> (anubhav....@gmail.com)

> Add cleanup rule:
> https://www.boxbe.com/popup?url=https%3A%2F%2Fwww.boxbe.com%2Fcleanup%3Ftoken%3D5Z9VM5umNKQhxMUEQ9K6idwtIslkFrn33b9doHh2rOsOVfjb4FMjtnnbbKY7xgV61n%252F8pLHqk5MVaDc9OoqJvh1jFePw8Cf9MwGwK%252FTUwUtA7k2lvMszMaRUiK2tijQ6%252FfgFcvfbjmG85OH%252FQerijQ%253D%253D%26key%3D5HHzZ2m0ZRrtDW7SKHbXmxpO%252BITNSKCOEzLH3v4Ldfc%253D&tc_serial=15324341637&tc_rand=1566308390&utm_source=stf&utm_medium=email&utm_campaign=ANNO_CLEANUP_ADD&utm_content=001
> More info:
> http://blog.boxbe.com/general/boxbe-automatic-cleanup?tc_serial=15324341637&tc_rand=1566308390&utm_source=stf&utm_medium=email&utm_campaign=ANNO_CLEANUP_ADD&utm_content=001

narayan prasad

unread,

Oct 5, 2013, 12:28:13 PM10/5/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

<<उपरोक्त बात को ध्यान में रखते हुए यदि तुलना के पहले ही सभी 'मूल वर्ण +
नुक्ता' (=दो बाइट) को बदलकर एक बाइट वाले संगत यूनिकोड में बदल दिया जाय
और वर्णों का क्रम बताने वाली सारणी में मूल वर्नों के ठीक बाद
नुक्तायुक्त एक-बाइट वाले वर्ण रख दिए जाँय (जैसे क, क़, ख आदि) तो यह
समस्या यहीं समाप्त हो जाती है , अर्थात् दूसरे स्तर की आवश्यकता ही नहीं
है।>>

ड़ और ढ़ के बारे में आपका क्या विचार है ?

--- नारायण प्रसाद

2013/10/5 Anunad Singh <anu...@gmail.com>

Anubhav Chattoraj

unread,

Oct 5, 2013, 12:51:39 PM10/5/13

to technical-hindi

अनुनाद जी,

आपसे अनुरोध करता हूँ की जवाब भेजने से पहले ईमेल को ठीक से पढ़ लिया करें।

आपने कहा,

>नुक्तायुक्त एक-बाइट वाले वर्ण रख दिए जाँय (जैसे क, क़, ख आदि) तो यह समस्या यहीं समाप्त हो जाती है , अर्थात् दूसरे स्तर की आवश्यकता ही नहीं है।

मैंने बृहत् हिंदी कोश के शाटन-क्रम का जो वर्णन दिया था, कृपया उसे दोबारा पढ़ लें।

आपके लॉजिक के अनुसार "क़" वर्ण हमेशा "क" के बाद रखा जाएगा। "क़स्बा" शब्द "कह" के बाद रखा जाएगा। लेकिन बृहत् हिंदी कोश का क्रम अलग है। कोश के अनुसार नुक्ते का असर शाटन पर नहीं पड़ना चाहिए, "क़स्बा" पहले आना चाहिए।

पर नुक्ते को पूरी तरह से नज़रअंदाज़ भी नहीं कर सकते, क्योंकि एक स्थिति में (और सिर्फ़ उसी स्थिति में) नुक्ते का असर पड़ता है: जब दो शब्दों में सिर्फ़ नुक्ते का ही अंतर हो। ऐसी स्थिति में नुक्ता-युक्त शब्द बाद में रखा जाता है। उदाहरण के रूप में, "ख़ाना" शब्द "खाना" के बाद रखा जाएगा।

प्रीकंपोज़्ड (नुक्ता-युक्त) कैरेक्टर इस्तेमाल करें या डीकंपोज़्ड, ऐसे क्रम में शाटन करने के लिए दो स्तर लगेंगे ही।

V S Rawat

unread,

Oct 5, 2013, 3:24:58 PM10/5/13

to technic...@googlegroups.com

कोश वाले कैसे कर रहे हैं पता नहीं, लेकिन कम्प्यूटर से सॉर्टिंग करने में यह संभव नहीं हो
सकता है कि नुक्ते वाला क़ और बग़ैर नुक्ते वाला क एक साथ मिश्रित आते रहें, जब जिसका कोई
मान्य शब्द मिल जाए, तब वो आ जाए।

कम्प्यूटर से सॉर्टिंग करने में या तो सारे बिना नुक्ते वाले क शब्द पहले आएँगे, और फिर नुक्ते
वाले क़ शब्द आएँगे, या फिर इसका विपरीत होगा। लेकिन वो दोनों शब्द अलग-अलग, एक के
बाद एक ही आ पाएँगे, मिश्रित नहीं आ सकते हैं। कौन से शब्द पहले आएँगे यह हमारे दिए गए
ऑर्डर पर निर्भर करेगा।

यदि इसमें कोई असंभव संभव वाली बात हो तो कृपया स्पष्ट करें।

रावत

V S Rawat

unread,

Oct 5, 2013, 3:42:59 PM10/5/13

to technic...@googlegroups.com

मेरा मानना है कि सॉर्टिंग प्रोग्राम को सिर्फ़ दिए गए पाठ को क्रम से लगाना चाहिए।
मेरा मानना है कि सॉर्टिंग प्रोग्राम को मूल पाठ में कोई भी, किसी भी तरह का भी, छोटे
से छोटा भी परिवर्तन नहीं करना चाहिए।
मेरा मानना है कि मूल पाठ और परिणामी पाठ में क्रम के अलावा कोई और अन्तर नहीं होना
चाहिए।

इसलिए मुझे यह वर्ण प्लस नुक्ता को ऩुक्ते वाले वर्ण में बदलना अनावश्यक ही नहीं, वास्तव में
त्रुटिपूर्ण लगता है।

यह प्रयोक्ता पर निर्भर करता है कि वो किस कारण से किसी विशिष्ठ प्रकार के पाठ की
सॉर्टिंग कर रहा है। हो सकता है कि उसकी कोई दरकार हो कि वो नुक्ते को अलग ही रखना
चाहता है। ऐसी स्थिति में अगर आपने पाठ में कोई बदलाव कर दिए तो उसका पाठ बेकार हो
जाएगा।

अगर परिणामी पाठ देखकर उसे लगता है कि नुक्ता युक्त वर्ण ग़लत स्थान पर आ गए, तो वह
मूल पाठ को वर्ड आदि में खोलकर इन वर्णों को हाथ से बदल सकता है, जिससे परिणामी पाठ
में वो ख़ुद ब ख़ुद ठीक हो जाएँगे।

लेकिन अगर आपने प्रोग्राम के भीतर कुछ बदलाव किया, तो वह अपने पाठ को वापस नहीं पा
पाएगा या आपके प्रोग्राम का उपयोग नहीं कर पाएगा।

सवाल है कि ऐसी क्या दरकार हो सकती है तो एक कच्चा सा उदाहरण देता हूँ कि आपकी
सॉर्टिंग सिर्फ़ हिन्दी के लिए है। बाकी भाषाओं के लिए नहीं है, कम से कम अभी नहीं है। अब
मान लीजिए कि किसी को तमिल यूनीकोड की सॉर्टिंग करनी है तो वो तमिल पाठ को
सॉफ़्टवेयर से हिन्दी यूनीकोड में बदलेगा, फिर इस हिन्दी यूनीकोड की आपका प्रोग्राम का
इस्तेमाल करके सॉर्टिंग करेगा, और फिर परिणामी पाठ को सॉफ़्टवेयर से वापस हिन्दी
यूनीकोड से तमिल यूनीकोड में बदल लेगा। उसका काम शत प्रतिशत हो जाएगा।

लेकिन इस बीच में अगर प्रोग्राम ने भीतर ही भीतर पाठ में कोई परिवर्तन कर दिए तो वह
वापस तमिल में परिवर्तित करने पर मूल पाठ को पा ही नहीं पाएगा। उसका मूल पाठ गड़बड़
हो चुका होगा।

बात तमिल या किसी भाषा में नुक्ते की नहीं है। इस तरह के एक के बाद दूसरा फिर तीसरा
परिवर्तन मैं बहुत करता हूँ, आप सबने ही किए होंगे क्योंकि कोई सॉफ़्टवेयर एक काम करता है
कोई दूसरा काम करता है, कोई तीसरा चौथा काम करता है, पहले से चौथे काम को सीधा एक
ही वार में करने वाला सॉफ़्टवेयर नहीं होता है। जैसे फ़ॉन्ट परिवर्तनों में है कि अगर क फ़ॉन्ट
से घ फ़ॉन्ट में सीधे परिवर्तित करने का सॉफ़्टवेयर नहीं है, लेकिन क से ख में, और फिर ख से ग
में और फिर ग से घ फ़ॉन्ट में परिवर्तन करने के सॉफ़्टवेयर हैं, तो हम इस क्रम का इस्तेमाल
करके परिवर्तन कर ही लेंगे। आप सबने किया होगा।

इसलिए मूल पाठ में किसी भी तरह का कोई परिवर्तन सॉफ़्टवेयर के द्वारा किया जाना
प्रोग्राम के स्कोप को सीमित कर देगा।

सारे सॉर्टिंग प्रोग्राम ऐसे ही करते हैं। मैंने आजतक कोई भी अंग्रेजी सॉर्टिंग का प्रोग्राम
नहीं देखा जो पाठ में कोई परिवर्तन कर रहा हो।

इसलिए मेरा निवेदन है कि प्रोग्राम के भीतर किसी भी तरह का परिवर्तन न करें। प्रोग्राम
सिर्फ़ क्रमबद्ध करे।

आप दोनों प्रावधान रखें, नुक्ता युक्त और अलग से नुक्ता लगे वर्ण, दोनों की सॉर्टिंग का क्रम
निर्धारित कर दें और उसके अनुसार सॉर्टिंग कर दें। इनपुट पाठ में जो होगा उसके हिसाब से
परिणामी पाठ मिल जाएगा। बस, यही होना चाहिए।

रावत

V S Rawat

unread,

Oct 5, 2013, 3:47:00 PM10/5/13

to technic...@googlegroups.com

अगर चाहते ही हैं नुक्ते के लिए प्रावधान करना तो एक प्रीप्रॉसेसिंग प्रोग्राम अलग से दे
सकते हैं, जो अलग से नुक्ता लगाए वर्णों को नुक्ते वाले वर्णों में बदल दे।

ऐसे प्रीप्रॉसेसिंग प्रोग्राम का ख़ुद भी बहुत उपयोग रहेगा, बिना सॉर्टिग किए भी। यह
पाठ को सही यूनीकोड में कर रहा है, जो बहुत अच्छी बात होगी। जिन्हें सॉर्टिंग करवानी
भी नहीं होगी, वो भी इस प्रोग्राम का उपयोग कर सकेंगे अपने पाठों को ठीक करने के लिए।

लेकिन पाठ का परिवर्तन प्रोग्राम के भीतर न करवाएँ।

धन्यवाद
रावत

Anubhav Chattoraj

unread,

Oct 5, 2013, 10:48:36 PM10/5/13

to technical-hindi

रावत जी,

कंप्यूटर में इस प्रकार से सॉर्ट करना बिलकुल संभव है। प्रोग्राम में दो शब्दों की तुलना करते समय पहले तो नुक्ते को नज़रअंदाज़ करके तुलना करेंगे। अगर इस पहली तुलना में दोनों शब्द बराबर मिले, तो दोनों शब्दों की तुलना फ़िर से करेंगे, और इस बार सिर्फ़ नुक्ते पर ही ध्यान देंगे।

Anunad Singh

unread,

Oct 6, 2013, 2:02:24 AM10/6/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

मुझे लगता है कि हम लोग एक साथ बहुत सारे विषयों पर चर्चा कर रहे हैं। इस कारण चर्चा सिकुड़ने के बजाय फैलती जा रही है।

निम्नलिखित विषय अलग-अलग विषय हैं जिनपर अलग से चर्चा हो तो फलप्रद चर्चा हो सकेगी-

(१) हिन्दी शाटन के क्रम का मानकीकरण : यदि एक क्रम को मानकीकृत नहीं किया जा सकता तो दो-तीन क्रम प्रस्तुत किए जाँय।

(२) शाटन प्रोग्राम में कौन-कौन सी सुविधाएँ और विकल्प हों (इस पर विशेषकर रावत जी लिख रहे हैं)

(३) किसी दिए हुए क्रम में शाटन के लिए प्रोग्राम इम्प्लिमेण्टेशन कैसे होगा (एक-स्तरीय तुलना से काम चल जाएगा या द्विस्तरीय लगेगा; 'यूनिकोड कोलेशन अल्गोरिद्म' के पीछे चला जाय या अपना स्वतंत्र अल्गोरिद्म बनाना ठीक रहेगा आदि)

नारायण जी ने इसी को ध्यान में रखकर देवनागरी शाटन क्रम पर चर्चा के लिए अलग से विषय दिया है।

--अनुनाद

V S Rawat

unread,

Oct 6, 2013, 7:19:41 AM10/6/13

to technic...@googlegroups.com

On 10/6/2013 11:32 AM, Anunad Singh wrote:
> मुझे लगता है कि हम लोग एक साथ बहुत सारे विषयों पर चर्चा कर रहे हैं। इस कारण चर्चा
> सिकुड़ने के बजाय फैलती जा रही है।

> (२) शाटन प्रोग्राम में कौन-कौन सी सुविधाएँ और विकल्प हों (इस पर विशेषकर रावत जी
> लिख रहे हैं)
>

ना जी, मैं किसी भी सुविधा और विकल्प की बात बिल्कुल नहीं कर रहा हूँ।

मैं सिर्फ़ इतना कह रहा हूँ कि सॉर्टिंग प्रोग्राम को सिर्फ़ सॉर्टिंग करनी चाहिए, मूल पाठ
में कोई भी बदलाव नहीं करना चाहिए।

बस इतना ही।
--
रावत

V S Rawat

unread,

Oct 6, 2013, 7:23:05 AM10/6/13

to technic...@googlegroups.com

अनुभव जी,

यह इंतज़ाम विशेष रूप से नुक्ते की विशेष प्रोसेसिंग करने के लिए विशेष कोड लिखकर किया
जाएगा। वरना तो मूल प्रोग्राम इस अतिरिक्त कोड के बिना भी बढ़िया सॉर्टिंग करेगा।

ख़ैर, मेरा मानना है कि इस अतिरिक्त कोड की कोई आवश्यकता नहीं है।

Hariraam

unread,

Oct 6, 2013, 9:58:21 AM10/6/13

to technic...@googlegroups.com

अनुनाद जी,

आपने सही कहा है। देवनागरी लिपि के अलग अलग भाषाओं में प्रयोग के समानुक्रमण अलग होने से अलग अलग शाटन प्रोग्राम बनाने होंगे।
यथा--
देवनागरी-हिन्दी शाटन
देवनागरी-मराठी शाटन
देवनागरी-नेपाली शाटन
देवनागरी-... शाटन
देवनागरी-... शाटन

क्योंकि अलग अलग भाषा के विद्वान अपनी भाषाओं में देवनागरी के वर्णों का क्रम भिन्न मानते हैं। यथा - मराठी व ओड़िआ व बंगला व दक्षिण भारतीय लिपियों में ळ को पहले और ल को बाद में रखा जाता है, जबकि देवनागरी-हिन्दी में ल को पहले व ळ को बाद में रखा जाता है।

देवनागरी-हिन्दी शाटन में फिलहाल हमें अन्य लिपियों से लिप्यन्तरण की सुविधा के लिए लिए अन्य वर्णों को ignore करके शाटन करना होगा।
पुनश्चः
देवनागरी-परिवर्द्धित शाटन में सभी Encoded वर्णों को शामिल कर शाटन प्रोग्राम बनाना होगा।
किन्तु
देवनागरी-हिन्दी-मूल(Basic) शाटन प्रोग्राम
में केवल हिन्दी में बहुतायत से प्रयुक्त होनेवाले मूल वर्णों को लेकर ही शाटन प्रोग्राम बनाना होगा।

देवनागरी-Extended एवं देवनागरी-Vedic का शाटन क्रम निर्धारित करना हमारे ज्ञान की सीमा से बाहर की बात है, इसके लिए वैदिक व्याकरण-कार विद्वानों की मदद लेनी होगी।

विभिन्न हिन्दी शब्दकोशों का शाटन क्रम सही नहीं है। विभिन्न कोशकार स्वयं भ्रमित रहे हैं। अतः हिन्दी आदि शब्दकोशों का अन्धानुकरण न करके आधुनिक डैटाबेस प्रयोग के लिए सर्वाधिक उपयुक्त व वैज्ञानिक आधार पर सही माने जाने वाले शाटन क्रम को ही मानक निर्धारित करना होगा, ताकि फिलहाल, भूमि पट्टों (Land records), आधार कार्ड, Voter's ID Card, जनगणना कार्य आदि अत्यन्त आवश्यक डैटाबेस अनुप्रयोगों के लिए एक उचित शाटन-क्रम उपलब्ध हो सके।

इसके लिए कुछ सन्दर्भ साहित्य मैं शीघ्र ही उपलब्ध कराने का प्रयास कर रहा हूँ।

सादर।

-- हरिराम

On 05-10-2013 19:29, Anunad Singh wrote:

हरिराम जी,

आपने लिखा था

युनिकोड में देवनागरी का जो शाटन चार्ट निर्धारित है, वह निम्नवत् है। यहाँ देखें।

<http://www.unicode.org/charts/uca/chart_Devanagari.html>

मुझसे गलती हो गई कि मैने इसे ध्यान से नहीं देखा। वस्तुतः यह विशाल 'डिफाल्ट यूनिकोड कोलेशन एलिमेण्ट टेबल' (DUCET) का वह भाग है जो देवनागरी से सम्बन्धित है। इसके बारे में मैं निम्नलिखित बातें कहना चाहता हूँ-

.....

Anubhav Chattoraj

unread,

Oct 6, 2013, 11:26:46 AM10/6/13

to technical-hindi

हरिराम जी,

आपकी एक छोटी-सी गलती को सुधारना चाहता हूँ। आपने लिखा

>मराठी व ओड़िआ व बंगला व दक्षिण भारतीय लिपियों में ळ को पहले और ल को बाद में रखा जाता है,

ओड़िआ व दक्षिण भारती लिपियों के बारे में नहीं जानता, पर बंगला में ळ के लिए अक्षर ही नहीं है और मराठी में इसे ह के बाद रखा जाता है।

ख़ैर, क्रम निर्धारण के प्रयासों के बारे में कृपया हमें अपडेटेड रखें। अगर हमसे कोई सहायता संभव हो, तो माँगने में संकोच न करें।

narayan prasad

unread,

Oct 6, 2013, 1:23:04 PM10/6/13

to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

<< >>मराठी व ओड़िआ व बंगला व दक्षिण भारतीय लिपियों में ळ को पहले और ल को बाद में रखा जाता है,
>ओड़िआ व दक्षिण भारती लिपियों के बारे में नहीं जानता, पर बंगला में ळ के >लिए अक्षर ही नहीं है और मराठी में इसे ह के बाद रखा जाता है। >>

सभी में ल (ல) पहले आता है, ळ (ள) बाद में । यदि ऴ (ழ) भी हो तो ऴ (ழ) के बाद ळ (ள) आता है ।

उड़िया में - ल ळ ( ଲ ଳ )

तमिल में - ल ऴ ळ ( ல ழ ள )

तेलुगु में - ल ळ ( ల ళ )

कन्नड में - ल ऴ ळ ( ಲ ೞ ಳ )

मलयालम में - ल ऴ ळ ( ല ഴ ള )

--- नारायण प्रसाद

2013/10/6 Anubhav Chattoraj <anubhav....@gmail.com>

--

Hariraam

unread,

Oct 23, 2013, 3:54:54 AM10/23/13

to technic...@googlegroups.com

भारतीय लिपियों के वर्ण-अनुक्रम पर दो आलेख यहाँ मिले हैं-

http://bhashaindia.com/Developers/IndianLang/indicscript/pages/langvscoll.aspx

<http://www.google.co.in/url?sa=t&rct=j&q=&esrc=s&frm=1&source=web&cd=4&cad=rja&ved=0CEIQFjAD&url=http%3A%2F%2Fdownload.microsoft.com%2Fdownload%2F2%2Fd%2Fa%2F2daed6fd-9876-4894-92c2-4ffc51ce5c1a%2Fcollationintro-current.ppt&ei=wHhnUrqyN4qyrAeK1YG4Bw&usg=AFQjCNHSdMGkEwgmFlpCqncBf2whl6Wzrg>

जिसमें निम्न प्रचिलत तथ्य प्रायोगिक रूप से तथा वैज्ञानिक रूप से सही नहीं लगते--

पुनश्च तमिल वर्ण-क्रम का यह नियम देवनागरी तथा सभी भारतीय लिपियों पर ध्वनि विज्ञान की दृष्टि से लागू होना चाहिए--

देवनागरी वर्ण-क्रम को व्यावहारिक रूप से निर्धारण करने हेतु विद्वानों के मत अपेक्षित हैं।

हरिराम

Dv-SortingHalCharsFirst.JPG

Dv-SortingNasalsFirst.JPG

Shree Devi Kumar

unread,

Oct 23, 2013, 10:08:57 PM10/23/13

to technic...@googlegroups.com

Two other Unicode reports which may be relevant:

http://www.unicode.org/notes/tn1/
Issues in Indic Language Collation
- 2002

http://www.unicode.org/reports/tr10/
UNICODE COLLATION ALGORITHM

- 2013

Also of interest will be

http://www.unicode.org/Public/UCA/latest/allkeys.txt

#
# This file defines the Default Unicode Collation Element Table

# (DUCET) for the Unicode Collation Algorithm

Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com

2013/10/23 Hariraam <hari...@gmail.com>

>
> भारतीय लिपियों के वर्ण-अनुक्रम पर दो आलेख यहाँ मिले हैं-
>
> http://bhashaindia.com/Developers/IndianLang/indicscript/pages/langvscoll.aspx
>
> <http://www.google.co.in/url?sa=t&rct=j&q=&esrc=s&frm=1&source=web&cd=4&cad=rja&ved=0CEIQFjAD&url=http%3A%2F%2Fdownload.microsoft.com%2Fdownload%2F2%2Fd%2Fa%2F2daed6fd-9876-4894-92c2-4ffc51ce5c1a%2Fcollationintro-current.ppt&ei=wHhnUrqyN4qyrAeK1YG4Bw&usg=AFQjCNHSdMGkEwgmFlpCqncBf2whl6Wzrg>
>
>
> जिसमें निम्न प्रचिलत तथ्य प्रायोगिक रूप से तथा वैज्ञानिक रूप से सही नहीं लगते--
>
>

> पुनश्च तमिल वर्ण-क्रम का यह नियम देवनागरी तथा सभी भारतीय लिपियों पर ध्वनि विज्ञान की दृष्टि से लागू होना चाहिए--
>
>

> देवनागरी वर्ण-क्रम को व्यावहारिक रूप से निर्धारण करने हेतु विद्वानों के मत अपेक्षित हैं।
>
> हरिराम
>
>

Shree Devi Kumar

unread,

Oct 24, 2013, 8:11:43 AM10/24/13

to technic...@googlegroups.com

Please see http://demo.icu-project.org/icu-bin/locexp?_=hi_IN&d_=en&x=col

ICU > Demonstrations > Locale Explorer > Root > Hindi > Hindi (India)

I just tried a small test on it by defining custom rules . Please scroll towards bottom of page and in custom rules area, past the following:

[reorder Deva Beng Guru Gujr Orya Taml Telu Knda Mlym Sinh]

&ॐ<ा<ि<ी<ु<ू<ृ<ॅ<े<ै<ॉ<ो<ौ<ं<ँ<ः

&[before 1]

क<क्

Then sort the following text by pasting in the SOURCE box on top, and click on SORT button

क्
क्‍
क्‌
क़
क्ळ
क़्‍
कृ
कॉ
कॅ
कं
कँ
क
कः
का
कि
की
कु
कू
के
को
कै
कौ
कृ

I have defined the half-letter before full letter only for ka, it can be expanded to the whole alphabet.

Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com

2013/10/24 Shree Devi Kumar <shree...@gmail.com>

Shree Devi Kumar

unread,

Oct 24, 2013, 8:32:16 AM10/24/13

to technic...@googlegroups.com

Also see, http://userguide.icu-project.org/collation/customization

Maybe the rule needs << instead of < in the first line with maatraas

Hariraam

unread,

Oct 25, 2013, 2:20:08 AM10/25/13

to technic...@googlegroups.com

Whether icu, UCA rules, specially for Indic, is uniersally followed by all major OSs, Office packs, DBMS apps, etc. as default?

हरिराम

2013/10/24 Shree Devi Kumar <shree...@gmail.com>

Also see, http://userguide.icu-project.org/collation/customization

Maybe the rule needs << instead of < in the first line with maatraas

Shree Devi Kumar

Shree Devi Kumar

unread,

Oct 25, 2013, 2:48:04 AM10/25/13

to technic...@googlegroups.com

ICU seems to be implementing Unicode only.
http://site.icu-project.org/design/collation/icu-4-6-changes

Also see:
http://www.unicode.org/reports/tr10/Sample/

If there is consensus in the group regarding what the 'correct' sort order(s) for Hindi should be, we can try writing to Unicode. Quan had some good advice regarding that:

Quan Nguyen

4:20 AM (7 hours ago)

Reply

to me

Yes, since it is critical information that many OS, programs, and applications depend on, one would need official documents, national standards to back up your requests for corrections. It requires strong persuasion, convincing data for Unicode consortium to approve changes.

Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com

2013/10/25 Hariraam <hari...@gmail.com>

Shree Devi Kumar

unread,

Oct 25, 2013, 5:52:24 AM10/25/13

to technic...@googlegroups.com

Please see http://www.sanskrit-lexicon.uni-koeln.de/CDSL.pdf

Based on Monier Williams Sanskrit dictionary

This could be used as a basis for marking differences required for Hindi

1.6 Alphabetical order and sorting of Sanskrit

Although standard alphabetical ordering of Sanskrit is clear, if not always adhered to
{Cf. the ordering of words in Mylius 1992, see esp. pp. 497ff.} it may be useful to give

here the sorting sequences, especially as the sequence is not quite straightforward. For
computer searching sorting is less imoprtant as processor power increases, but for

merging different word lists as well as for checking/correcting of entries it is quite
useful.

The sorting sequence is:

Vowels:
a A i I u U R RR lR lRR e ai o au

AnusvAra + [yrlvzSs]:
My Mr Ml Mv Mz MS Ms

Visarga:
H

AnusvAra in final position:
M

Consonants:
k kh g gh G j jh J T Th D(L) Dh(Lh) N t th d dh n p ph b bh m y r l v z S s h

AnusvAra before the following consonants have to be converted to homorganic nasals
before sorting:
Mk=Gk Mg=Gg Mc=Jc Mj=Jj MT=NT MD=ND Mt=nt Mn=nn Mp=mp Mb=mb
Mm=mm

AnunAsika is equivalent to AnusvAra.

Avagraha is equivalent to a or is ignored(?).

Combinations of primary vowels a-i, a-u, A-i, A-u are sorted as single primary vowels

(thus MW {prau0ga} (p. 652,3) before {prauga} (p. 714,2) {prakaGkata} and
{mAu0tha} before {mAkanda}).

Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com

Shree Devi Kumar

unread,

Oct 25, 2013, 7:29:48 AM10/25/13

to technic...@googlegroups.com

TDIL Hindi Script Grammar says:
http://tdil-dc.in/tdildcMain/articles/534028Devanagari%20Script%20Behaviour%20for%20Hindi%20%20ver%201.4.7.pdf

In the case of Hindithe following is the traditional sort order as determined by the
expertsand used in dictionaries
.
अ
आ
इ
ई
उ
ऊ
ऋ
ए
ऍ

ऐ
ओ
ऑ
औ
क
ख
ग
घ
ङ
च
छ
ज
झ
ञ
ट
ठ
ड
ढ
ण
त
थ
द
ध
न
प
फ
ब
भ
म
य
र
ल
व
श
ष
स
ह

The order as given below is pertinent to sorting by a computer program and is compliant

with CLDR as laid down by Unicode and W3C.

It adds before अ

ँ
ंं ं
ः

and after ह

ा
ि
ी
ु
ू

ृ
े

ॅ

ै
ो
ॉ
ौ
्
़

In the above the order of 'e E ai' and 'o O au' seems wrong to me.

I think the order should be:

ॅ े ै
एंड
ॉॉॉॉॉ ॉ ो ौ

ऍ ए ऐ
एंड
ऑ ओ औ

So, if people follow the order as given in TDIL document, they will sort incorrectly - at least for these.

Also see (sanskrit related discussion - anusvar and anunasika)

http://list.indology.info/pipermail/indology_list.indology.info/1999-March/016231.html

http://repository.dl.itc.u-tokyo.ac.jp/dspace/bitstream/2261/53466/1/ggr033003.pdf

Shree Devi Kumar
____________________________________________________________
भजन - कीर्तन - आरती @ http://bhajans.ramparivar.com

Reply all

Reply to author

Forward