--
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.
If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.
On Dec 4, 11:35 pm, ई-स्वामी <esw...@gmail.com> wrote:
> Sanjay,
>
> शब्दों का शुरुआती संग्रहण आप चाहे जैसे करें उनकी क्रास-रेफ़रंसिंग से जुडी
> जरूरतों को ध्यान मे रखते हुए दूसरे चरण में xml को जरूर कंसीडर करें. ताकी आप
> x-path/x-query जैसी तरकीबों को अपने आधारभूत संग्रह पर भी लगा सकें.
>
> चूंकि Dictionaries का स्वरूप बदल रहा है -
> जैसे किhttp://www.a2zdefinitions.com/dictionary/
> यहां "dog" डाल कर देखें. अन्यथा पाई जाने वाली डिक्शनरी से भिन्नता देखने को
> मिलेगी!
>
> अब डिक्शनरियों के लिये नेटवर्क डाटा-स्ट्रक्चर्स [xml *आधारित* फ़ोर्मेट] का
> प्रयोग होता है.
> जिनमे एक प्रमुख उदाहरण है - Lexical Markup Framework [LMF] - यह ISO standard
> पर आधारित है जैसे स्टेन्डर्ड्स.
> अधिक व मिलती जुलती जानकारी पर पहले हाथ साफ़ कर लें.http://en.wikipedia.org/wiki/ISO/TC37http://www.lexicalmarkupframework.org/http://en.wikipedia.org/wiki/Lexical_Markup_Framework
>
> अलग अलग कंपनियों ने अपनी अपनी तरह से अधिकाधिक जानकारी सहेजने के लिये अपने
> अपने फ़ार्मेट बनाए हैं
>
> xml एक तकनीक के रूप में इस के लिये प्राकृतिक रूप से मुफ़ीद है - सूची बनाते
> वक्त ही नही, प्रदर्शन के समय भी microsoft aur apple इसी का प्रयोग करते हैं.
> [http://en.wikipedia.org/wiki/Dictionary_%28software%29]
> SAP का *http://www.olif.net- यहां डिक्शनरी की लेक्सिकॉनिक व केनॉनिकल सूचना
> को सहेजने पर बहुत जबरदस्त जानकारी उपलब्ध है! *
> Google ने तो अगल अलग स्टेन्डर्डस के इन्टरचेन्ज पर भी कुछ काम किया थाhttp://code.google.com/p/lift-standard/
>
> ई-स्वामी
>
> 2009/12/4 Ravishankar Shrivastava <raviratl...@gmail.com>
>
> > On 12/4/2009 1:39 PM, sanjay | जोग लिखी wrote:
> > > एक वृहद वर्तनी जाँचक के निर्माण के लिए शब्दों का संग्रहण चल रहा है.
> > > यहाँ एक संशय बना है कि किस "फॉर्मेट" में शब्दों को इक्कठा किया जाय.
> > > अभी सरल टेक्स फाइल में डाले हैं, क्या बहुत अधिक शब्द यह झेल पाएगा. इन
> > > शब्दों का उपयोग अन्य जगहों व अनुप्रयोगों में हो इस लिए मुक्तस्त्रोत के
> > > रूप में रखा जाना है, अतः विस्तृत संदर्भ में सोच कर मार्गदर्शन करें.
>
> > सादा टैक्स्ट फ़ाइल में ही संग्रह करना होगा. डिक्शनरी फ़ाइलें आमतौर पर सादा
> > टैक्स्ट फ़ाइलें
> > ही होती हैं - प्रत्येक लाइन में एक एंट्री युक्त. कहीं कहीं हर शब्द के लिए
> > एक स्पेस भी चलता है.
> > मेरे पास कुछ वर्तनी-जांची गई टैक्स्ट फ़ाइलें हैं. चाहें तो उन्हें भेजूं?
> > उन्हें भी संग्रह में जोड़ सकते हैं.
> > सादर,
> > रवि
>
> > --
> > You received this message because you are subscribed to the Google Groups
> > "Chithakar" group. To post to this group, send email to
> > Chit...@googlegroups.com. To unsubscribe from this group, send email to
> > Chithakar-...@googlegroups.com. For more options, visit this group
> > athttp://groups.google.com/group/Chithakar.
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.
If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.
On Dec 5, 11:45 am, ई-स्वामी <esw...@gmail.com> wrote:
> हां भई, अगर hindi-English लेक्सिकॉन्स
> <http://en.wikipedia.org/wiki/Lexicon>को ध्यान मे रख सोचें तो ये सचमुच
> काफ़ी पेचीदा काम है!
>
> 2009/12/4 sanjay | जोग लिखी <sanjaybeng...@gmail.com>
>
>
>
> > @ स्वामीजी. इस तरह तो काम और पैचिदा हो गया है :) मेरी मनसा सबसे बड़ा
> > डिजिटल हिन्दी शब्द संग्रह करने का था, जिसका कोई भी अपने अनुप्रयोगों
> > में उपयोग में ले सके. हेतु है मानक शुद्ध हिन्दी में नेट पर सामग्री
> > इक्कठी हो सके. फिलहाल सादे पाठ के रूप में ही चलने देता हूँ, आशा है बाद
> > में तकनीकी सहायता मिल जाएगी.
>
> > On Dec 4, 11:35 pm, ई-स्वामी <esw...@gmail.com> wrote:
> > > Sanjay,
>
> > > शब्दों का शुरुआती संग्रहण आप चाहे जैसे करें उनकी क्रास-रेफ़रंसिंग से जुडी
> > > जरूरतों को ध्यान मे रखते हुए दूसरे चरण में xml को जरूर कंसीडर करें. ताकी
> > आप
> > > x-path/x-query जैसी तरकीबों को अपने आधारभूत संग्रह पर भी लगा सकें.
>
> > > चूंकि Dictionaries का स्वरूप बदल रहा है -
> > > जैसे किhttp://www.a2zdefinitions.com/dictionary/
> > > यहां "dog" डाल कर देखें. अन्यथा पाई जाने वाली डिक्शनरी से भिन्नता देखने
> > को
> > > मिलेगी!
>
> > > अब डिक्शनरियों के लिये नेटवर्क डाटा-स्ट्रक्चर्स [xml *आधारित* फ़ोर्मेट]
> > का
> > > प्रयोग होता है.
> > > जिनमे एक प्रमुख उदाहरण है - Lexical Markup Framework [LMF] - यह ISO
> > standard
> > > पर आधारित है जैसे स्टेन्डर्ड्स.
> > > अधिक व मिलती जुलती जानकारी पर पहले हाथ साफ़ कर लें.
> >http://en.wikipedia.org/wiki/ISO/TC37http://www.lexicalmarkupframewor...
>
> > > अलग अलग कंपनियों ने अपनी अपनी तरह से अधिकाधिक जानकारी सहेजने के लिये अपने
> > > अपने फ़ार्मेट बनाए हैं
>
> > > xml एक तकनीक के रूप में इस के लिये प्राकृतिक रूप से मुफ़ीद है - सूची बनाते
> > > वक्त ही नही, प्रदर्शन के समय भी microsoft aur apple इसी का प्रयोग करते
> > हैं.
> > > [http://en.wikipedia.org/wiki/Dictionary_%28software%29]
> > > SAP का *http://www.olif.net-यहां डिक्शनरी की लेक्सिकॉनिक व केनॉनिकल
इस विषय में मेरा विचार है कि यदि अपने पास क्वालिटी सामग्री (शुद्ध, समग्र, समुचित, पर्याप्त मात्रा में) एकत्र हो जाय तो उसे किसी फार्मट विषेष में बदलना बहुत कठिन कार्य नहीं होना चाहिये वशर्ते टेक्स्ट फार्मट में भी कुछ पूर्वनिर्धारित फार्मट का अनुसरण किया गया हो।
सबसे पहले तो भाई संजय को यह अतिमहत्वपूर्न काम आरम्भ करने के लिये धन्यवाद एवं शुभकामनाएँ।
इस विषय में मेरा विचार है कि यदि अपने पास क्वालिटी सामग्री (शुद्ध, समग्र, समुचित, पर्याप्त मात्रा में) एकत्र हो जाय तो उसे किसी फार्मट विषेष में बदलना बहुत कठिन कार्य नहीं होना चाहिये वशर्ते टेक्स्ट फार्मट में भी कुछ पूर्वनिर्धारित फार्मट का अनुसरण किया गया हो।
किन्तु इस विषय में मेरी जानकारी बहुत अल्प है।
--
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.
If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.
On Dec 5, 9:26 pm, ई-स्वामी <esw...@gmail.com> wrote:
> > इस विषय में मेरा *विचार* है कि यदि अपने पास क्वालिटी सामग्री (शुद्ध,
> > समग्र, समुचित, पर्याप्त मात्रा में) एकत्र हो जाय तो उसे किसी फार्मट विषेष
> > में बदलना बहुत कठिन कार्य नहीं होना चाहिये वशर्ते टेक्स्ट फार्मट में भी
> > कुछ पूर्वनिर्धारित फार्मट का अनुसरण किया गया हो।
>
> सर जी,* विचार* किताबी रूप से शाकाहारी है लेकिन व्यव्हारिक रूप से मांसाहारी!
> या तो मानव की बली चढेगी या सूचना की!
>
> १)चूंकि उस पूर्वनिर्धारित फ़ार्मेट का टूटना उतना ही तयशुदा है जितना कल का
> सूरज निकलना! डिक्शनरी की जमावट में हर शब्द से जुडी सूचना के टुकडों की लंबाई
> और संख्या भिन्न ही होनी है! ऐसे डाटा का जो csv to xml करेगा उसकी ऐस्सी-तैसी
> फ़िर जाएगी, वो अपने बाल नोच कर गंजा हो जाएगा, खून के आंसू रोएगा और उसकी
> पड-नानी दोबारा जिंदा हो के मर जाएगी! पूरी प्रक्रिया बहुत मानवीय होगी और जो
> ये करेगा वो भूत बन जाएगा.
> *या फ़िर*
> २) आप जानबूझ कर फ़ार्मेट की सीमितता के चलते काम की जानकारी जोडने से वंचित
> रहोगे - तो सूचना की बली चढी.. और वो कोई फ़ायदे का सौदा नही है -
> *या फ़िर *
> ३) आप किसी एक फ़ार्मेट पर कभी रुक नही पाओगे! - जैसे की चलती कार से उतर उतर कर
> सडक बनाते फ़िर रहे हों वैसे होगा काम!
>
> जब तक फ़ाईल में सूचना की जमावट उसके भौतिक स्थान से जुडी है *समस्या रहेगी* *
> ही!* जैसे ही आप parent-child और item-value वाला लचीलापन अपनाओगे जीवन आसान हो
> जाएगा! शुरु मे इसकी कीमत अधिक अदा होगी - (शुरु मे कम ऐसी-तैसी नही फ़िरनी... )
> लेकिन लंबे समय मे वो वसूल हो जाएगी! जितना जल्दी अपनाओगे उतना अच्छा!
>
> *"चतुर आदमी समस्या हल करता है, समझदार उससे बचाव" - अल्बर्ट आईंस्टाईन*
> *"मरना ही है तो अभिमन्यू से घटोत्कच्छ की मौत अच्छी! (कम से कम पता तो है क्या
> कर रिया है)" - ई-स्वामी *
>
> 2009/12/5 Anunad Singh <anu...@gmail.com>
>
>
>
> > सबसे पहले तो भाई संजय को यह अतिमहत्वपूर्न काम आरम्भ करने के लिये धन्यवाद
> > एवं शुभकामनाएँ।
>
> > इस विषय में मेरा विचार है कि यदि अपने पास क्वालिटी सामग्री (शुद्ध, समग्र,
> > समुचित, पर्याप्त मात्रा में) एकत्र हो जाय तो उसे किसी फार्मट विषेष में
> > बदलना बहुत कठिन कार्य नहीं होना चाहिये वशर्ते टेक्स्ट फार्मट में भी कुछ
> > पूर्वनिर्धारित फार्मट का अनुसरण किया गया हो।
>
> > किन्तु इस विषय में मेरी जानकारी बहुत अल्प है।
>
> > --
> > You received this message because you are subscribed to the Google Groups
> > "Chithakar" group. To post to this group, send email to
> > Chit...@googlegroups.com. To unsubscribe from this group, send email to
> > Chithakar-...@googlegroups.com. For more options, visit this group
> > athttp://groups.google.com/group/Chithakar.
On 12/7/2009 12:54 PM, sanjay | जोग लिखी wrote:
> समझ में नहीं आ रहा सहायता मिली है या संशय को और बढ़ा दिया गया है :) खैर
> कुछ सामग्री के साथ फिर से प्रस्तुत होऊँगा. सहयोग बनाए रखें.
>
>
चूंकि वर्तमान उद्देश्य एक अच्छे हिन्दी वर्तनी जाँचक के लिए शब्द संग्रह का है, तो मेरे
विचार में आप एक शब्द प्रति लाइन वाले फ़ॉर्मेट में (यह फ़ॉर्मेट आस्पैल स्पैल चेकर प्रयोग
करता है, फ़ॉयरफ़ॉक्स वर्तनी जांचक प्लगइन में भी यही प्रयोग में आता है, तथा हंसपैल
वर्तनीजांचक फ़ॉरमेट में आसानी से परिवर्तित किया जा सकता है) टैक्स्ट फ़ाइल में शब्द संग्रह
प्रारंभ करें. पर्याप्त मात्रा में हिन्दी के शुद्ध शब्द एकत्र हो जाएँ तो बाद में इन्हें
आवश्यकतानुसार विस्तार देकर अन्य फ़ॉर्मेटों में कन्वर्ट किया जा सकता है.
रवि
--
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.
If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.
समझ में नहीं आ रहा सहायता मिली है या संशय को और बढ़ा दिया गया है :) खैर
कुछ सामग्री के साथ फिर से प्रस्तुत होऊँगा. सहयोग बनाए रखें.
रवि
--
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.
If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.
Sanjay,समझ में नहीं आ रहा सहायता मिली है या संशय को और बढ़ा दिया गया है :) खैर
कुछ सामग्री के साथ फिर से प्रस्तुत होऊँगा. सहयोग बनाए रखें.
आपको कन्फ़्यूज करना उद्देश्य नही था मित्र!
चलिए एक उदाहरण की बात करें -
एक शब्द लेते हैं - "कुत्ता" - अगर किसी ने कूत्त/कत्ता/कित्ता/लुत्ता/फ़ुत्ता आदि शब्द डाले तो कुत्ता एक सुझाव के रूप मे मिलना चाहिए. ये हुई वर्तनी जांच की बात
अब अगर किसी ने "कुत्ता" सही टाईप किया है तो श्वान/कुकुर/ आदि पर्यायवाची भी मिलना चाहिए.
लेकिन "कुत्ता" उतना सीमित भी नही है - अगर मैने कहीं पढा "वो बहुत कुत्ता आदमी है" तो कुत्ते के सामान्य प्रयोगों के उदाहरण मे ये भी मिलना चाहिए कि "कुत्ता आदमी" वाले केस मे कुत्ता विशेषण हो गया है - जो आदमी की हवस/वासना/मूल्यहीनता की ओर इशारा है. तो कुत्ता पर एक विशेषण वाली एन्ट्री भी बन सकती है.
फ़िर कुत्तापन/कुत्तों/कुत्ते का बच्चा/कुत्ता खांसी/पिल्ला/कुत्ती/ आदी शब्द कुत्ते से जुडे हैं.
अब एक क्रिया की बात करें - जैसे "देखना" - अन्य चीजों के अलावा "घूरना/निहारना/झांकना/अवलोकन/दृष्टीपात/निगाह डालना" आदी सब देखने के प्रकार हैं - पर्यायवाची नही हैं लेकिन जब एक व्यक्ति "देखना" पर पर्यायवाची सहायता चाहता है तो उसे ये मिलने चाहिए, देखने के प्रकार के रूप में! ये हुई लेक्सिकॉन्स की बात. तो किसी संज्ञा [जैसे कुत्ता] और किसी क्रिया [जैसे देखना] से जुडी सूचनाएं अलग अलग किस्म की होंगी.
अब अगर "कुत्ता" शब्द पर एक लाईन बनाई आपने डिक्शनरी में तो वो एक लाईन नही है - अपने आप में कुत्ता को केन्द्र मे रख कर उस से जुडी अलग अलग सूचनाएं हैं. तो लाईन या टेक्स्ट स्वरूप इस कार्यक्रम को सीमित करता है. हमें इसे एक नेटवर्क के रूप में सजाना होगा - मूलशब्द केन्द्र में/ उसकी धातू/अर्थ/पर्यायवाची/रूप आदी एक-एक शाखा से जुडी अलग अलग सूचनाएं होंगी.. और अंतत: पूरी डिक्शनरी ऐसी लाखों सूचनाओं का एक पूरा नेटवर्क है. और ये सूचनाएं आपको अलग अलग सेक्शन्स/फ़ीचर्स/हॉट कीज़ से दिखानी होंगी. पीछे डाटाबेस में जमानी भी होंगी.
इसको अप्रोच करने के कई तरीके हो सकते हैं लेकिन उनके स्टेंडर्डाईजेशन पर काम चल रहा है.
जब आप एक-एक लाईन मे उपलब्ध सूचना को ऐसे नेटवर्क रूप मे सजाओगे तो वो एक बहुत मानवीय प्रक्रिया होगी. इसलिये हां, ये कहना आसान है कि उसे दूसरे रूप में बदला जा सकेगा - हां बदला जा सकेगा लेकिन वो अपने आप में एक चुनौती भरा काम होगा चूंकि ये मात्र कमल/कमला/कमलनयन आदी सुझाने वाला मामला नही है! इसी समस्या के समाधान सुझाए गए हैं अलग अलग xml आधारित फ़्रेमवर्क्स के रूप में.
बस अब मैं थक गया! ...बूढा हो रहा हूं ना ... सांस चढ जाती है! [खौं..खौं..]
सादर,
ई-स्वामी2009/12/7 Ravishankar Shrivastava <ravir...@gmail.com>
On 12/7/2009 2:02 PM, Ashish Shrivastava wrote:इसी कारण से हिन्दी के लिए तो माइक्रोसॉफ़्ट ऑफ़िस 2003/2007 का भारीभरकम (सुना है
>
> मैंने Aspell के साथ कुछ अन्य अल्गोरिथम का प्रयोग कर के देखा है ये हिन्दी के लिए
> प्रभावी नहीं है| शब्दों में वर्तनी की गलतीया बता देते है लेकिन पर्याय ज्यादा प्रभावी
> नहीं बता पाते है ! हिन्दी के लिए एक नया अल्गोरिथम चाहीये !
कि इसमें अरविंद कुमार का थिसॉरस डाटाबेस शामिल है) स्पैल चेकर भी पर्यायवाची / सुझाव
देने में प्रभावी नहीं है! बस, उनके डाटाबेस में जो शब्द हैं उनकी वर्तनी सही-गलत बताता है
और गलत शब्दों को ठीक करने के विकल्प देने में कई मर्तबा मार खा जाता है.
सादर,
रवि
--
You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.
If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.You received this message because you are subscribed to the Google Groups "Chithakar" group. To post to this group, send email to Chit...@googlegroups.com. To unsubscribe from this group, send email to Chithakar-...@googlegroups.com. For more options, visit this group at http://groups.google.com/group/Chithakar.
If the message violates this group’s charter (http://groups.google.com/group/Chithakar/web/group-charter) member is liable to be removed from the group without warning.