शब्द सूचि के लिए सलाह दें

4 views
Skip to first unread message

sanjay | जोग लिखी

unread,
Dec 4, 2009, 3:09:23 AM12/4/09
to Chithakar | चिट्ठाकार
एक वृहद वर्तनी जाँचक के निर्माण के लिए शब्दों का संग्रहण चल रहा है.
यहाँ एक संशय बना है कि किस "फॉर्मेट" में शब्दों को इक्कठा किया जाय.
अभी सरल टेक्स फाइल में डाले हैं, क्या बहुत अधिक शब्द यह झेल पाएगा. इन
शब्दों का उपयोग अन्य जगहों व अनुप्रयोगों में हो इस लिए मुक्तस्त्रोत के
रूप में रखा जाना है, अतः विस्तृत संदर्भ में सोच कर मार्गदर्शन करें.

Ravishankar Shrivastava

unread,
Dec 4, 2009, 4:01:35 AM12/4/09
to chit...@googlegroups.com
सादा टैक्स्ट फ़ाइल में ही संग्रह करना होगा. डिक्शनरी फ़ाइलें आमतौर पर सादा टैक्स्ट फ़ाइलें
ही होती हैं - प्रत्येक लाइन में एक एंट्री युक्त. कहीं कहीं हर शब्द के लिए एक स्पेस भी चलता है.
मेरे पास कुछ वर्तनी-जांची गई टैक्स्ट फ़ाइलें हैं. चाहें तो उन्हें भेजूं? उन्हें भी संग्रह में जोड़ सकते हैं.
सादर,
रवि

ई-स्वामी

unread,
Dec 4, 2009, 1:35:45 PM12/4/09
to chit...@googlegroups.com
Sanjay,

शब्दों का शुरुआती संग्रहण आप चाहे जैसे करें  उनकी क्रास-रेफ़रंसिंग से जुडी जरूरतों को ध्यान मे रखते हुए दूसरे चरण में xml को जरूर कंसीडर करें. ताकी आप x-path/x-query जैसी तरकीबों को अपने आधारभूत संग्रह पर भी लगा सकें. 

चूंकि Dictionaries का स्वरूप बदल रहा है -
जैसे कि http://www.a2zdefinitions.com/dictionary/
यहां "dog" डाल कर देखें. अन्यथा पाई जाने वाली डिक्शनरी से भिन्नता देखने को मिलेगी!

अब डिक्शनरियों के  लिये नेटवर्क डाटा-स्ट्रक्चर्स [xml आधारित फ़ोर्मेट] का प्रयोग होता है.
जिनमे एक प्रमुख उदाहरण है - Lexical Markup Framework [LMF] - यह ISO standard पर आधारित है जैसे स्टेन्डर्ड्स.
अधिक व मिलती जुलती जानकारी पर पहले हाथ साफ़ कर लें.
http://en.wikipedia.org/wiki/ISO/TC37
http://www.lexicalmarkupframework.org/
http://en.wikipedia.org/wiki/Lexical_Markup_Framework

अलग अलग कंपनियों ने अपनी अपनी तरह से अधिकाधिक जानकारी सहेजने के लिये अपने अपने फ़ार्मेट बनाए हैं

xml एक तकनीक के रूप में इस के लिये प्राकृतिक रूप से मुफ़ीद है - सूची बनाते वक्त ही नही, प्रदर्शन के समय भी microsoft aur apple इसी का प्रयोग करते हैं.  [http://en.wikipedia.org/wiki/Dictionary_%28software%29]
SAP का http://www.olif.net - यहां डिक्शनरी की लेक्सिकॉनिक व केनॉनिकल सूचना को सहेजने पर बहुत जबरदस्त जानकारी उपलब्ध है!
Google ने तो अगल अलग स्टेन्डर्डस के इन्टरचेन्ज पर भी कुछ काम किया था  http://code.google.com/p/lift-standard/

ई-स्वामी




2009/12/4 Ravishankar Shrivastava <ravir...@gmail.com>

--
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.

If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.



--
http://hindini.com
http://hindini.com/eswami

sanjay | जोग लिखी

unread,
Dec 5, 2009, 12:05:29 AM12/5/09
to Chithakar | चिट्ठाकार
@ स्वामीजी. इस तरह तो काम और पैचिदा हो गया है :) मेरी मनसा सबसे बड़ा
डिजिटल हिन्दी शब्द संग्रह करने का था, जिसका कोई भी अपने अनुप्रयोगों
में उपयोग में ले सके. हेतु है मानक शुद्ध हिन्दी में नेट पर सामग्री
इक्कठी हो सके. फिलहाल सादे पाठ के रूप में ही चलने देता हूँ, आशा है बाद
में तकनीकी सहायता मिल जाएगी.

On Dec 4, 11:35 pm, ई-स्वामी <esw...@gmail.com> wrote:
> Sanjay,
>
> शब्दों का शुरुआती संग्रहण आप चाहे जैसे करें  उनकी क्रास-रेफ़रंसिंग से जुडी
> जरूरतों को ध्यान मे रखते हुए दूसरे चरण में xml को जरूर कंसीडर करें. ताकी आप
> x-path/x-query जैसी तरकीबों को अपने आधारभूत संग्रह पर भी लगा सकें.
>
> चूंकि Dictionaries का स्वरूप बदल रहा है -
> जैसे किhttp://www.a2zdefinitions.com/dictionary/
> यहां "dog" डाल कर देखें. अन्यथा पाई जाने वाली डिक्शनरी से भिन्नता देखने को
> मिलेगी!
>

> अब डिक्शनरियों के  लिये नेटवर्क डाटा-स्ट्रक्चर्स [xml *आधारित* फ़ोर्मेट] का


> प्रयोग होता है.
> जिनमे एक प्रमुख उदाहरण है - Lexical Markup Framework [LMF] - यह ISO standard
> पर आधारित है जैसे स्टेन्डर्ड्स.

> अधिक व मिलती जुलती जानकारी पर पहले हाथ साफ़ कर लें.http://en.wikipedia.org/wiki/ISO/TC37http://www.lexicalmarkupframework.org/http://en.wikipedia.org/wiki/Lexical_Markup_Framework


>
> अलग अलग कंपनियों ने अपनी अपनी तरह से अधिकाधिक जानकारी सहेजने के लिये अपने
> अपने फ़ार्मेट बनाए हैं
>
> xml एक तकनीक के रूप में इस के लिये प्राकृतिक रूप से मुफ़ीद है - सूची बनाते
> वक्त ही नही, प्रदर्शन के समय भी microsoft aur apple इसी का प्रयोग करते हैं.
> [http://en.wikipedia.org/wiki/Dictionary_%28software%29]

> SAP का *http://www.olif.net- यहां डिक्शनरी की लेक्सिकॉनिक व केनॉनिकल सूचना
> को सहेजने पर बहुत जबरदस्त जानकारी उपलब्ध है! *


> Google ने तो अगल अलग स्टेन्डर्डस के इन्टरचेन्ज पर भी कुछ काम किया थाhttp://code.google.com/p/lift-standard/
>
> ई-स्वामी
>

> 2009/12/4 Ravishankar Shrivastava <raviratl...@gmail.com>


>
> > On 12/4/2009 1:39 PM, sanjay | जोग लिखी wrote:
> > > एक वृहद वर्तनी जाँचक के निर्माण के लिए शब्दों का संग्रहण चल रहा है.
> > > यहाँ एक संशय बना है कि किस "फॉर्मेट" में शब्दों को इक्कठा किया जाय.
> > > अभी सरल टेक्स फाइल में डाले हैं, क्या बहुत अधिक शब्द यह झेल पाएगा. इन
> > > शब्दों का उपयोग अन्य जगहों व अनुप्रयोगों में हो इस लिए मुक्तस्त्रोत के
> > > रूप में रखा जाना है, अतः विस्तृत संदर्भ में सोच कर मार्गदर्शन करें.
>
> > सादा टैक्स्ट फ़ाइल में ही संग्रह करना होगा. डिक्शनरी फ़ाइलें आमतौर पर सादा
> > टैक्स्ट फ़ाइलें
> > ही होती हैं - प्रत्येक लाइन में एक एंट्री युक्त. कहीं कहीं हर शब्द के लिए
> > एक स्पेस भी चलता है.
> > मेरे पास कुछ वर्तनी-जांची गई टैक्स्ट फ़ाइलें हैं. चाहें तो उन्हें भेजूं?
> > उन्हें भी संग्रह में जोड़ सकते हैं.
> > सादर,
> > रवि
>
> > --
> > You received this message because you are subscribed to the Google Groups
> > "Chithakar" group. To post to this group, send email to
> > Chit...@googlegroups.com. To unsubscribe from this group, send email to
> > Chithakar-...@googlegroups.com. For more options, visit this group

> > athttp://groups.google.com/group/Chithakar.

ई-स्वामी

unread,
Dec 5, 2009, 1:45:58 AM12/5/09
to chit...@googlegroups.com
हां भई, अगर hindi-English लेक्सिकॉन्स को ध्यान मे रख सोचें तो ये सचमुच काफ़ी पेचीदा काम है!

2009/12/4 sanjay | जोग लिखी <sanjay...@gmail.com>
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.

If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.

sanjay | जोग लिखी

unread,
Dec 5, 2009, 2:54:17 AM12/5/09
to Chithakar | चिट्ठाकार
@ swami विकि लिंक देकर अच्छा किया :)

On Dec 5, 11:45 am, ई-स्वामी <esw...@gmail.com> wrote:
> हां भई, अगर hindi-English लेक्सिकॉन्स

> <http://en.wikipedia.org/wiki/Lexicon>को ध्यान मे रख सोचें तो ये सचमुच


> काफ़ी पेचीदा काम है!
>

> 2009/12/4 sanjay | जोग लिखी <sanjaybeng...@gmail.com>


>
>
>
> > @ स्वामीजी. इस तरह तो काम और पैचिदा हो गया है :) मेरी मनसा सबसे बड़ा
> > डिजिटल हिन्दी शब्द संग्रह करने का था, जिसका कोई भी अपने अनुप्रयोगों
> > में उपयोग में ले सके. हेतु है मानक शुद्ध हिन्दी में नेट पर सामग्री
> > इक्कठी हो सके. फिलहाल सादे पाठ के रूप में ही चलने देता हूँ, आशा है बाद
> > में तकनीकी सहायता मिल जाएगी.
>
> > On Dec 4, 11:35 pm, ई-स्वामी  <esw...@gmail.com> wrote:
> > > Sanjay,
>
> > > शब्दों का शुरुआती संग्रहण आप चाहे जैसे करें  उनकी क्रास-रेफ़रंसिंग से जुडी
> > > जरूरतों को ध्यान मे रखते हुए दूसरे चरण में xml को जरूर कंसीडर करें. ताकी
> > आप
> > > x-path/x-query जैसी तरकीबों को अपने आधारभूत संग्रह पर भी लगा सकें.
>
> > > चूंकि Dictionaries का स्वरूप बदल रहा है -
> > > जैसे किhttp://www.a2zdefinitions.com/dictionary/
> > > यहां "dog" डाल कर देखें. अन्यथा पाई जाने वाली डिक्शनरी से भिन्नता देखने
> > को
> > > मिलेगी!
>
> > > अब डिक्शनरियों के  लिये नेटवर्क डाटा-स्ट्रक्चर्स [xml *आधारित* फ़ोर्मेट]
> > का
> > > प्रयोग होता है.
> > > जिनमे एक प्रमुख उदाहरण है - Lexical Markup Framework [LMF] - यह ISO
> > standard
> > > पर आधारित है जैसे स्टेन्डर्ड्स.
> > > अधिक व मिलती जुलती जानकारी पर पहले हाथ साफ़ कर लें.

> >http://en.wikipedia.org/wiki/ISO/TC37http://www.lexicalmarkupframewor...


>
> > > अलग अलग कंपनियों ने अपनी अपनी तरह से अधिकाधिक जानकारी सहेजने के लिये अपने
> > > अपने फ़ार्मेट बनाए हैं
>
> > > xml एक तकनीक के रूप में इस के लिये प्राकृतिक रूप से मुफ़ीद है - सूची बनाते
> > > वक्त ही नही, प्रदर्शन के समय भी microsoft aur apple इसी का प्रयोग करते
> > हैं.
> > > [http://en.wikipedia.org/wiki/Dictionary_%28software%29]

> > > SAP का *http://www.olif.net-यहां डिक्शनरी की लेक्सिकॉनिक व केनॉनिकल

Anunad Singh

unread,
Dec 5, 2009, 3:17:39 AM12/5/09
to chit...@googlegroups.com
सबसे पहले तो भाई संजय को यह अतिमहत्वपूर्न काम आरम्भ करने के लिये  धन्यवाद एवं शुभकामनाएँ।

इस विषय में मेरा विचार है कि  यदि अपने पास  क्वालिटी सामग्री (शुद्ध, समग्र, समुचित, पर्याप्त मात्रा में)  एकत्र हो जाय तो  उसे किसी फार्मट विषेष में बदलना बहुत कठिन कार्य नहीं होना चाहिये  वशर्ते  टेक्स्ट फार्मट में भी कुछ  पूर्वनिर्धारित  फार्मट का अनुसरण किया गया हो।

किन्तु इस विषय में मेरी जानकारी बहुत अल्प है।

ई-स्वामी

unread,
Dec 5, 2009, 11:26:44 AM12/5/09
to chit...@googlegroups.com
इस विषय में मेरा विचार है कि  यदि अपने पास  क्वालिटी सामग्री (शुद्ध, समग्र, समुचित, पर्याप्त मात्रा में)  एकत्र हो जाय तो  उसे किसी फार्मट विषेष में बदलना बहुत कठिन कार्य नहीं होना चाहिये  वशर्ते  टेक्स्ट फार्मट में भी कुछ  पूर्वनिर्धारित  फार्मट का अनुसरण किया गया हो।

सर जी, विचार किताबी रूप से शाकाहारी है लेकिन व्यव्हारिक रूप से मांसाहारी! या तो मानव की बली चढेगी या सूचना की!

१)चूंकि उस पूर्वनिर्धारित फ़ार्मेट का टूटना उतना ही तयशुदा है जितना कल का सूरज निकलना! डिक्शनरी की जमावट में हर शब्द से जुडी सूचना के टुकडों की लंबाई और संख्या भिन्न ही होनी है! ऐसे डाटा का जो csv to xml करेगा उसकी ऐस्सी-तैसी फ़िर जाएगी, वो अपने बाल नोच कर गंजा हो जाएगा, खून के आंसू रोएगा और उसकी पड-नानी  दोबारा जिंदा हो के मर जाएगी! पूरी प्रक्रिया बहुत मानवीय होगी और जो ये करेगा वो भूत बन जाएगा.
या फ़िर
२) आप जानबूझ कर फ़ार्मेट की सीमितता के चलते काम की जानकारी जोडने से वंचित रहोगे - तो सूचना की बली चढी.. और वो कोई फ़ायदे का सौदा नही है -
या फ़िर
३) आप किसी एक फ़ार्मेट पर कभी रुक नही पाओगे! - जैसे की चलती कार से उतर उतर कर सडक बनाते फ़िर रहे हों वैसे होगा काम!

जब तक फ़ाईल में सूचना की जमावट उसके भौतिक स्थान से जुडी है समस्या रहेगी ही! जैसे ही आप parent-child और item-value वाला लचीलापन अपनाओगे जीवन आसान हो जाएगा! शुरु मे इसकी कीमत अधिक अदा होगी - (शुरु मे कम ऐसी-तैसी नही फ़िरनी... ) लेकिन लंबे समय मे वो वसूल हो जाएगी!  जितना जल्दी अपनाओगे उतना अच्छा!

"चतुर आदमी समस्या हल करता है, समझदार उससे बचाव" - अल्बर्ट आईंस्टाईन
"मरना ही है तो अभिमन्यू से घटोत्कच्छ की मौत अच्छी! (कम से कम पता तो है क्या कर रिया है)" - ई-स्वामी


2009/12/5 Anunad Singh <anu...@gmail.com>
सबसे पहले तो भाई संजय को यह अतिमहत्वपूर्न काम आरम्भ करने के लिये  धन्यवाद एवं शुभकामनाएँ।

इस विषय में मेरा विचार है कि  यदि अपने पास  क्वालिटी सामग्री (शुद्ध, समग्र, समुचित, पर्याप्त मात्रा में)  एकत्र हो जाय तो  उसे किसी फार्मट विषेष में बदलना बहुत कठिन कार्य नहीं होना चाहिये  वशर्ते  टेक्स्ट फार्मट में भी कुछ  पूर्वनिर्धारित  फार्मट का अनुसरण किया गया हो।

किन्तु इस विषय में मेरी जानकारी बहुत अल्प है।

--
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.
 
If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.

sanjay | जोग लिखी

unread,
Dec 7, 2009, 2:24:31 AM12/7/09
to Chithakar | चिट्ठाकार
समझ में नहीं आ रहा सहायता मिली है या संशय को और बढ़ा दिया गया है :) खैर
कुछ सामग्री के साथ फिर से प्रस्तुत होऊँगा. सहयोग बनाए रखें.

On Dec 5, 9:26 pm, ई-स्वामी <esw...@gmail.com> wrote:
> > इस विषय में मेरा *विचार* है कि  यदि अपने पास  क्वालिटी सामग्री (शुद्ध,


> > समग्र, समुचित, पर्याप्त मात्रा में)  एकत्र हो जाय तो  उसे किसी फार्मट विषेष
> > में बदलना बहुत कठिन कार्य नहीं होना चाहिये  वशर्ते  टेक्स्ट फार्मट में भी
> > कुछ  पूर्वनिर्धारित  फार्मट का अनुसरण किया गया हो।
>

> सर जी,* विचार* किताबी रूप से शाकाहारी है लेकिन व्यव्हारिक रूप से मांसाहारी!


> या तो मानव की बली चढेगी या सूचना की!
>
> १)चूंकि उस पूर्वनिर्धारित फ़ार्मेट का टूटना उतना ही तयशुदा है जितना कल का
> सूरज निकलना! डिक्शनरी की जमावट में हर शब्द से जुडी सूचना के टुकडों की लंबाई
> और संख्या भिन्न ही होनी है! ऐसे डाटा का जो csv to xml करेगा उसकी ऐस्सी-तैसी
> फ़िर जाएगी, वो अपने बाल नोच कर गंजा हो जाएगा, खून के आंसू रोएगा और उसकी
> पड-नानी  दोबारा जिंदा हो के मर जाएगी! पूरी प्रक्रिया बहुत मानवीय होगी और जो
> ये करेगा वो भूत बन जाएगा.

> *या फ़िर*


> २) आप जानबूझ कर फ़ार्मेट की सीमितता के चलते काम की जानकारी जोडने से वंचित
> रहोगे - तो सूचना की बली चढी.. और वो कोई फ़ायदे का सौदा नही है -

> *या फ़िर *


> ३) आप किसी एक फ़ार्मेट पर कभी रुक नही पाओगे! - जैसे की चलती कार से उतर उतर कर
> सडक बनाते फ़िर रहे हों वैसे होगा काम!
>

> जब तक फ़ाईल में सूचना की जमावट उसके भौतिक स्थान से जुडी है *समस्या रहेगी* *
> ही!* जैसे ही आप parent-child और item-value वाला लचीलापन अपनाओगे जीवन आसान हो


> जाएगा! शुरु मे इसकी कीमत अधिक अदा होगी - (शुरु मे कम ऐसी-तैसी नही फ़िरनी... )
> लेकिन लंबे समय मे वो वसूल हो जाएगी!  जितना जल्दी अपनाओगे उतना अच्छा!
>

> *"चतुर आदमी समस्या हल करता है, समझदार उससे बचाव" - अल्बर्ट आईंस्टाईन*
> *"मरना ही है तो अभिमन्यू से घटोत्कच्छ की मौत अच्छी! (कम से कम पता तो है क्या
> कर रिया है)" - ई-स्वामी *


>
> 2009/12/5 Anunad Singh <anu...@gmail.com>
>
>
>
> > सबसे पहले तो भाई संजय को यह अतिमहत्वपूर्न काम आरम्भ करने के लिये  धन्यवाद
> > एवं शुभकामनाएँ।
>
> > इस विषय में मेरा विचार है कि  यदि अपने पास  क्वालिटी सामग्री (शुद्ध, समग्र,
> > समुचित, पर्याप्त मात्रा में)  एकत्र हो जाय तो  उसे किसी फार्मट विषेष में
> > बदलना बहुत कठिन कार्य नहीं होना चाहिये  वशर्ते  टेक्स्ट फार्मट में भी कुछ
> > पूर्वनिर्धारित  फार्मट का अनुसरण किया गया हो।
>
> > किन्तु इस विषय में मेरी जानकारी बहुत अल्प है।
>
> > --
> > You received this message because you are subscribed to the Google Groups
> > "Chithakar" group. To post to this group, send email to
> > Chit...@googlegroups.com. To unsubscribe from this group, send email to
> > Chithakar-...@googlegroups.com. For more options, visit this group

> > athttp://groups.google.com/group/Chithakar.

Ravishankar Shrivastava

unread,
Dec 7, 2009, 3:00:44 AM12/7/09
to chit...@googlegroups.com
On 12/7/2009 12:54 PM, sanjay | जोग लिखी wrote:
> समझ में नहीं आ रहा सहायता मिली है या संशय को और बढ़ा दिया गया है :) खैर
> कुछ सामग्री के साथ फिर से प्रस्तुत होऊँगा. सहयोग बनाए रखें.
>
>
चूंकि वर्तमान उद्देश्य एक अच्छे हिन्दी वर्तनी जाँचक के लिए शब्द संग्रह का है, तो मेरे
विचार में आप एक शब्द प्रति लाइन वाले फ़ॉर्मेट में (यह फ़ॉर्मेट आस्पैल स्पैल चेकर प्रयोग
करता है, फ़ॉयरफ़ॉक्स वर्तनी जांचक प्लगइन में भी यही प्रयोग में आता है, तथा हंसपैल
वर्तनीजांचक फ़ॉरमेट में आसानी से परिवर्तित किया जा सकता है) टैक्स्ट फ़ाइल में शब्द संग्रह
प्रारंभ करें. पर्याप्त मात्रा में हिन्दी के शुद्ध शब्द एकत्र हो जाएँ तो बाद में इन्हें
आवश्यकतानुसार विस्तार देकर अन्य फ़ॉर्मेटों में कन्वर्ट किया जा सकता है.
रवि

Ashish Shrivastava

unread,
Dec 7, 2009, 3:32:17 AM12/7/09
to chit...@googlegroups.com
पहले शब्द संग्रह बना लिया जाये जो की text के रूप में हो. उसे उसके बाद किसी भी अन्य फार्मेट में बदला जा सकता है.
ASPELL आधारित स्पेल चेक्कर के लिए एक लाइन में एक शब्द चाहिए. 
उदाहरण 
कमल
कमला
कमलनयन

कुछ अन्य स्पेल चेकर के लिए उन्हें हर लाइन में एक जैसे उच्चारण वाले शब्द चाहिए ! 
उदाहरण : कमल,कमला ,कमलनयन 
हिंदी जैसे बोली जाती है वैसे लिखी जाती है (उच्चारण आधारित), लेकिन स्पेल चेकर के जितने भी अल्गोरिथम है वह अद्याक्षरो के अनुक्रम (Alphabetical)  आधारित है| मेरे कहने का तात्पर्य है कि हिंदी के शब्दों को समूह में कैसे रखा जाए  स्पेल चेकर  के अल्गोरिथम पर निर्भर करेगा| 

मैंने Aspell के साथ कुछ अन्य अल्गोरिथम का प्रयोग कर के देखा है ये हिन्दी के लिए प्रभावी नहीं है| शब्दों में वर्तनी की गलतीया बता देते है लेकिन पर्याय ज्यादा प्रभावी नहीं बता पाते है ! हिन्दी के लिए एक नया अल्गोरिथम चाहीये !
उदाहरण के लिए यदि मैंने एक शब्द टंकित किया है "उदहरण", स्पेल चेकर ने इसके सही पर्याय के लिए "अपहरण,उदाहरण,उदार,उद्धरण,उपकरण " जैसे शब्दों की सूची देनी चाहिये | 

७ दिसम्बर २००९ १:३० PM को, Ravishankar Shrivastava <ravir...@gmail.com> ने लिखा:
On 12/7/2009 12:54 PM, sanjay | जोग लिखी wrote:
> समझ में नहीं आ रहा सहायता मिली है या संशय को और बढ़ा दिया गया है :) खैर

> कुछ सामग्री के साथ फिर से प्रस्तुत होऊँगा. सहयोग बनाए रखें.
>
>
चूंकि वर्तमान उद्देश्य एक अच्छे हिन्दी  वर्तनी जाँचक के लिए शब्द संग्रह का है, तो मेरे
विचार में आप एक शब्द प्रति लाइन वाले फ़ॉर्मेट में (यह फ़ॉर्मेट आस्पैल स्पैल चेकर प्रयोग
करता है, फ़ॉयरफ़ॉक्स वर्तनी जांचक प्लगइन में भी यही प्रयोग में आता है, तथा हंसपैल
वर्तनीजांचक फ़ॉरमेट में आसानी से परिवर्तित किया जा सकता है) टैक्स्ट फ़ाइल में शब्द संग्रह
प्रारंभ करें. पर्याप्त मात्रा में हिन्दी के शुद्ध शब्द एकत्र हो जाएँ तो बाद में इन्हें
आवश्यकतानुसार विस्तार देकर अन्य फ़ॉर्मेटों में कन्वर्ट किया जा सकता है.
रवि

--
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.

If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.



--
आपका
आशीष

Ravishankar Shrivastava

unread,
Dec 7, 2009, 4:22:00 AM12/7/09
to chit...@googlegroups.com
On 12/7/2009 2:02 PM, Ashish Shrivastava wrote:
>
> मैंने Aspell के साथ कुछ अन्य अल्गोरिथम का प्रयोग कर के देखा है ये हिन्दी के लिए
> प्रभावी नहीं है| शब्दों में वर्तनी की गलतीया बता देते है लेकिन पर्याय ज्यादा प्रभावी
> नहीं बता पाते है ! हिन्दी के लिए एक नया अल्गोरिथम चाहीये !

इसी कारण से हिन्दी के लिए तो माइक्रोसॉफ़्ट ऑफ़िस 2003/2007 का भारीभरकम (सुना है
कि इसमें अरविंद कुमार का थिसॉरस डाटाबेस शामिल है) स्पैल चेकर भी पर्यायवाची / सुझाव
देने में प्रभावी नहीं है! बस, उनके डाटाबेस में जो शब्द हैं उनकी वर्तनी सही-गलत बताता है
और गलत शब्दों को ठीक करने के विकल्प देने में कई मर्तबा मार खा जाता है.
सादर,
रवि

ई-स्वामी

unread,
Dec 7, 2009, 10:48:44 AM12/7/09
to chit...@googlegroups.com
Sanjay,
समझ में नहीं आ रहा सहायता मिली है या संशय को और बढ़ा दिया गया है :) खैर

कुछ सामग्री के साथ फिर से प्रस्तुत होऊँगा. सहयोग बनाए रखें.

आपको कन्फ़्यूज करना उद्देश्य नही था मित्र!

चलिए एक उदाहरण की बात करें -
एक शब्द लेते हैं - "कुत्ता" - अगर किसी ने कूत्त/कत्ता/कित्ता/लुत्ता/फ़ुत्ता आदि शब्द डाले तो कुत्ता एक सुझाव के रूप मे मिलना चाहिए. ये हुई वर्तनी जांच की बात
अब अगर किसी ने "कुत्ता" सही टाईप किया है तो श्‍वान/कुकुर/ आदि पर्यायवाची भी मिलना चाहिए.
लेकिन "कुत्ता" उतना सीमित भी नही है - अगर मैने कहीं पढा "वो बहुत कुत्ता आदमी है" तो कुत्ते के सामान्य प्रयोगों के उदाहरण मे ये भी मिलना चाहिए कि "कुत्ता आदमी" वाले केस मे कुत्ता विशेषण हो गया है - जो आदमी की हवस/वासना/मूल्यहीनता की ओर इशारा है. तो कुत्ता पर एक विशेषण वाली एन्ट्री भी बन सकती है.
फ़िर कुत्तापन/कुत्तों/कुत्ते का बच्चा/कुत्ता खांसी/पिल्ला/कुत्ती/ आदी शब्द कुत्ते से जुडे हैं.

अब एक क्रिया की बात करें - जैसे "देखना" - अन्य चीजों के अलावा "घूरना/निहारना/झांकना/अवलोकन/दृष्टीपात/निगाह डालना" आदी सब देखने के प्रकार हैं - पर्यायवाची नही हैं लेकिन जब एक व्यक्ति "देखना" पर पर्यायवाची सहायता चाहता है तो उसे ये मिलने चाहिए, देखने के प्रकार के रूप में! ये हुई लेक्सिकॉन्स की बात.  तो किसी संज्ञा [जैसे कुत्ता] और किसी क्रिया [जैसे देखना] से जुडी सूचनाएं अलग अलग किस्म की होंगी.


अब अगर "कुत्ता" शब्द पर एक लाईन बनाई आपने डिक्शनरी में तो वो एक लाईन नही है - अपने आप में कुत्ता को केन्द्र मे रख कर उस से जुडी अलग अलग सूचनाएं हैं. तो लाईन  या टेक्स्ट स्वरूप इस कार्यक्रम को सीमित करता है. हमें इसे एक नेटवर्क के रूप में सजाना होगा - मूलशब्द केन्द्र में/ उसकी धातू/अर्थ/पर्यायवाची/रूप आदी एक-एक शाखा से जुडी अलग अलग सूचनाएं होंगी..  और अंतत: पूरी डिक्शनरी ऐसी लाखों सूचनाओं का एक पूरा नेटवर्क है. और ये सूचनाएं आपको अलग अलग सेक्शन्स/फ़ीचर्स/हॉट कीज़ से दिखानी होंगी. पीछे डाटाबेस में जमानी भी होंगी.

इसको अप्रोच करने के कई तरीके हो सकते हैं लेकिन उनके स्टेंडर्डाईजेशन पर काम चल रहा है. 

जब आप एक-एक लाईन मे उपलब्ध सूचना को ऐसे नेटवर्क रूप मे सजाओगे तो वो एक बहुत मानवीय प्रक्रिया होगी. इसलिये हां, ये कहना आसान है कि उसे दूसरे रूप में बदला जा सकेगा - हां बदला जा सकेगा लेकिन वो अपने आप में एक चुनौती भरा काम होगा चूंकि ये मात्र कमल/कमला/कमलनयन आदी सुझाने वाला मामला नही है! इसी समस्या के समाधान सुझाए गए हैं अलग अलग xml आधारित फ़्रेमवर्क्स के रूप में.

बस अब मैं थक गया! ...बूढा हो रहा हूं ना ... सांस चढ जाती है! [खौं..खौं..]
सादर,
ई-स्वामी



2009/12/7 Ravishankar Shrivastava <ravir...@gmail.com>
रवि

--
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.

If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.



--
http://hindini.com
http://hindini.com/eswami

Ashish Shrivastava

unread,
Dec 7, 2009, 10:56:11 PM12/7/09
to chit...@googlegroups.com

ई-स्वामी जी से सहमत
मेरी राय में इस कार्य के लिए चरणों में कार्य करना होगा 
१. शब्द संग्रह txt फॉर्मेट में जमा कर ले.  ( ये एक मूलभूत जरूरत है, एक व्यापक हिन्दी शब्द्संन्ग्रह उपलब्ध नहीं है अभी). डिक्शनरी फार्मेट में बदलने समय लगेगा, मेहनत लगेगी, लेकिन शब्द संग्रह तो चाहिये ही जो कि नहीं है  अभी हमारे पास |
२. डिक्शनरी फाइल फॉर्मेट का स्वरूप तय करना , ये कठीण कार्य है, समय और मेहनत लगेगी| इसके लिए तकनीकी पनेल बनाकर काम किया जाए तो बेहतर होगा |
३. इस स्पेल चेकर में कितनी सुविधाए देना चाहते है , पहले से तय कर लिया जाए!  सबा कुछ एक साथ नहीं दे सकते| सुविधाए बाद में अगले संस्करणों में बढाई जा सकती है|

७ दिसम्बर २००९ ९:१८ PM को, ई-स्वामी <esw...@gmail.com> ने लिखा:
Sanjay,
समझ में नहीं आ रहा सहायता मिली है या संशय को और बढ़ा दिया गया है :) खैर

कुछ सामग्री के साथ फिर से प्रस्तुत होऊँगा. सहयोग बनाए रखें.

आपको कन्फ़्यूज करना उद्देश्य नही था मित्र!

चलिए एक उदाहरण की बात करें -
एक शब्द लेते हैं - "कुत्ता" - अगर किसी ने कूत्त/कत्ता/कित्ता/लुत्ता/फ़ुत्ता आदि शब्द डाले तो कुत्ता एक सुझाव के रूप मे मिलना चाहिए. ये हुई वर्तनी जांच की बात

अब अगर किसी ने "कुत्ता" सही टाईप किया है तो श्‍वान/कुकुर/ आदि पर्यायवाची भी मिलना चाहिए.
लेकिन "कुत्ता" उतना सीमित भी नही है - अगर मैने कहीं पढा "वो बहुत कुत्ता आदमी है" तो कुत्ते के सामान्य प्रयोगों के उदाहरण मे ये भी मिलना चाहिए कि "कुत्ता आदमी" वाले केस मे कुत्ता विशेषण हो गया है - जो आदमी की हवस/वासना/मूल्यहीनता की ओर इशारा है. तो कुत्ता पर एक विशेषण वाली एन्ट्री भी बन सकती है.
फ़िर कुत्तापन/कुत्तों/कुत्ते का बच्चा/कुत्ता खांसी/पिल्ला/कुत्ती/ आदी शब्द कुत्ते से जुडे हैं.

अब एक क्रिया की बात करें - जैसे "देखना" - अन्य चीजों के अलावा "घूरना/निहारना/झांकना/अवलोकन/दृष्टीपात/निगाह डालना" आदी सब देखने के प्रकार हैं - पर्यायवाची नही हैं लेकिन जब एक व्यक्ति "देखना" पर पर्यायवाची सहायता चाहता है तो उसे ये मिलने चाहिए, देखने के प्रकार के रूप में! ये हुई लेक्सिकॉन्स की बात.  तो किसी संज्ञा [जैसे कुत्ता] और किसी क्रिया [जैसे देखना] से जुडी सूचनाएं अलग अलग किस्म की होंगी.


अब अगर "कुत्ता" शब्द पर एक लाईन बनाई आपने डिक्शनरी में तो वो एक लाईन नही है - अपने आप में कुत्ता को केन्द्र मे रख कर उस से जुडी अलग अलग सूचनाएं हैं. तो लाईन  या टेक्स्ट स्वरूप इस कार्यक्रम को सीमित करता है. हमें इसे एक नेटवर्क के रूप में सजाना होगा - मूलशब्द केन्द्र में/ उसकी धातू/अर्थ/पर्यायवाची/रूप आदी एक-एक शाखा से जुडी अलग अलग सूचनाएं होंगी..  और अंतत: पूरी डिक्शनरी ऐसी लाखों सूचनाओं का एक पूरा नेटवर्क है. और ये सूचनाएं आपको अलग अलग सेक्शन्स/फ़ीचर्स/हॉट कीज़ से दिखानी होंगी. पीछे डाटाबेस में जमानी भी होंगी.


इसको अप्रोच करने के कई तरीके हो सकते हैं लेकिन उनके स्टेंडर्डाईजेशन पर काम चल रहा है. 

जब आप एक-एक लाईन मे उपलब्ध सूचना को ऐसे नेटवर्क रूप मे सजाओगे तो वो एक बहुत मानवीय प्रक्रिया होगी. इसलिये हां, ये कहना आसान है कि उसे दूसरे रूप में बदला जा सकेगा - हां बदला जा सकेगा लेकिन वो अपने आप में एक चुनौती भरा काम होगा चूंकि ये मात्र कमल/कमला/कमलनयन आदी सुझाने वाला मामला नही है! इसी समस्या के समाधान सुझाए गए हैं अलग अलग xml आधारित फ़्रेमवर्क्स के रूप में.

बस अब मैं थक गया! ...बूढा हो रहा हूं ना ... सांस चढ जाती है! [खौं..खौं..]
सादर,
ई-स्वामी



2009/12/7 Ravishankar Shrivastava <ravir...@gmail.com>

On 12/7/2009 2:02 PM, Ashish Shrivastava wrote:
>
> मैंने Aspell के साथ कुछ अन्य अल्गोरिथम का प्रयोग कर के देखा है ये हिन्दी के लिए
> प्रभावी नहीं है| शब्दों में वर्तनी की गलतीया बता देते है लेकिन पर्याय ज्यादा प्रभावी
> नहीं बता पाते है ! हिन्दी के लिए एक नया अल्गोरिथम चाहीये !

इसी कारण से हिन्दी के लिए तो माइक्रोसॉफ़्ट ऑफ़िस 2003/2007 का भारीभरकम (सुना है
कि इसमें अरविंद कुमार का थिसॉरस डाटाबेस शामिल है) स्पैल चेकर भी पर्यायवाची / सुझाव
देने में प्रभावी नहीं है! बस, उनके डाटाबेस में जो शब्द हैं उनकी वर्तनी सही-गलत बताता है
और गलत शब्दों को ठीक करने के विकल्प देने में कई मर्तबा मार खा जाता है.
सादर,
रवि

--
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.

If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.


You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.
 
If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.



--
आपका
आशीष
Reply all
Reply to author
Forward
0 new messages