भारतीय भाषाओं में अंतर्निहित समानताओं के आधार पर
भाषा-शिक्षण, परस्पर अनुवाद और लिप्यंतरण की संभावनाएँ
………….
डॉ. विजय कुमार मल्होत्रा
पूर्व निदेशक (राजभाषा),रेल मंत्रालय, भारत सरकार
और
पूर्व सलाहकार (हिंदी), माइक्रोसॉफ्ट इंडिया और सीडैक, AAI ग्रुप, पुणे
<
malho...@gmal.com<mailto:
malho...@gmal.com>>
1. भाषिक विविधता
1.1 संविधान की आठवीं अनुसूची
‘विविधता में एकता’ भारतीय संस्कृति की अन्यतम विशेषता है और यह विशेषता भारतीय भाषाओं और भारतीय लिपियों में भी परिलक्षित होती है. 1961 की जनगणना के अनुसार भारत में 1,652 मातृभाषाएँ हैं और संविधान की आठवीं अनुसूची में 22 भाषाएँ शामिल की गई हैं. ये भाषाएँ हैं: कश्मीरी,<
https://hi.wikipedia.org/wiki/%E0%A4%95%E0%A4%B6%E0%A5%8D%E0%A4%AE%E0%A5%80%E0%A4%B0%E0%A5%80_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE> सिंधी, हिंदी, बंगला, पंजाबी, असमिया, ओड़िया <
https://hi.wikipedia.org/wiki/%E0%A4%93%E0%A4%A1%E0%A4%BC%E0%A4%BF%E0%A4%AF%E0%A4%BE_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE> ,गुजराती<
https://hi.wikipedia.org/wiki/%E0%A4%97%E0%A5%81%E0%A4%9C%E0%A4%B0%E0%A4%BE%E0%A4%A4%E0%A5%80_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE>, मराठी, कन्नड़, तेलुगु, <
https://hi.wikipedia.org/wiki/%E0%A4%A4%E0%A5%87%E0%A4%B2%E0%A5%81%E0%A4%97%E0%A5%82_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE> तमिल, मलयालम,<
https://hi.wikipedia.org/wiki/%E0%A4%AE%E0%A4%B2%E0%A4%AF%E0%A4%BE%E0%A4%B2%E0%A4%AE_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE> उर्दू, <
https://hi.wikipedia.org/wiki/%E0%A4%89%E0%A4%B0%E0%A5%8D%E0%A4%A6%E0%A5%82_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE> संस्कृत<
https://hi.wikipedia.org/wiki/%E0%A4%B8%E0%A4%82%E0%A4%B8%E0%A5%8D%E0%A4%95%E0%A5%83%E0%A4%A4_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE>, नेपाली, <
https://hi.wikipedia.org/wiki/%E0%A4%A8%E0%A5%87%E0%A4%AA%E0%A4%BE%E0%A4%B2%E0%A5%80_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE> मणिपुरी. <
https://hi.wikipedia.org/wiki/%E0%A4%AE%E0%A4%A3%E0%A4%BF%E0%A4%AA%E0%A5%81%E0%A4%B0%E0%A5%80_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE> कोंकणी, <
https://hi.wikipedia.org/wiki/%E0%A4%95%E0%A5%8B%E0%A4%82%E0%A4%95%E0%A4%A3%E0%A5%80_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE> संथाली, <
https://hi.wikipedia.org/wiki/%E0%A4%B8%E0%A4%82%E0%A4%A5%E0%A4%BE%E0%A4%B2%E0%A5%80_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE> बोडो, डोंगरी और मैथिली. <
https://hi.wikipedia.org/wiki/%E0%A4%AE%E0%A5%88%E0%A4%A5%E0%A4%BF%E0%A4%B2%E0%A5%80_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE> भारत सरकार का कर्तव्य है कि देश की शैक्षणिक एवं सांस्कृतिक उन्नति के लिए इन भाषाओं के पूर्ण विकास हेतु सामूहिक उपाय करे. भाषाओं की यह विविधता प्रथमदृष्ट्या हमें भयभीत भी कर सकती है, लेकिन यदि हम भारतीय भाषाओं में अंतर्निहित समानताओं का विश्लेषण करके उनके आधार पर भारतीय भाषाओं के परस्पर शिक्षण, अनुवाद और लिप्यंतरण के पैटर्न विकसित करने में सफल हो जाएँ तो यही विविधता भारत में सामासिक एकता स्थापित करने का मार्ग प्रशस्त कर सकती है.
1.2 शास्त्रीय भाषाएँ (Classical languages)
इसके अलावा, जिन भाषाओं की विरासत 1500-2000 वर्ष पुरानी है, उन्हें संविधान में शास्त्रीय भाषा (Classical language) का दर्जा प्रदान किया गया है. ये भाषाएँ हैं, तमिल, तेलुगु, संस्कृत, कन्नड़, मलयालम और ओडिया. एक बार जब किसी भाषा को शास्त्रीय भाषा घोषित कर दिया जाता है, तो उस भाषा के अध्ययन के लिए उत्कृष्टता केंद्र (Centre of Excellence) स्थापित करने के लिए वित्तीय सहायता प्रदान की जाती है.
1.3 संविधान के अनुच्छेद 343 के अनुसार भारत की राजभाषा हिंदी
भारतीय संविधान के अनुच्छेद 343 के अनुसार भारतीय संघ की प्रमुख राजभाषा हिंदी और लिपि<
https://hi.wikipedia.org/wiki/%E0%A4%B2%E0%A4%BF%E0%A4%AA%E0%A4%BF> देवनागरी<
https://hi.wikipedia.org/wiki/%E0%A4%A6%E0%A5%87%E0%A4%B5%E0%A4%A8%E0%A4%BE%E0%A4%97%E0%A4%B0%E0%A5%80> है, परंतु राजभाषा अधिनियम के अंतर्गत हिंदी के अतिरिक्त गौण राजभाषा के रूप में अंग्रेज़ी भाषा का प्रयोग भी सरकारी कामकाज में किया जा सकता है.
1.4 सामासिक संस्कृति (Composite culture)
भारतीय संविधान के अनुच्छेद 351 के अनुसार संघ का यह कर्तव्य होगा कि वह हिंदी भाषा का प्रसार बढ़ाए, उसका विकास करे ताकि वह भारत की सामासिक संस्कृति (Composite culture) के सभी तत्वों की अभिव्यक्ति का माध्यम बन सके और उसके शब्द-भंडार के लिए मुख्यतः संस्कृत से और गौणतः अन्य भाषाओं से शब्द ग्रहण करते हुए उसकी समृद्धि सुनिश्चित करे.
1.5 त्रिभाषा सूत्र (Three-language formula)
त्रिभाषा फ़ॉर्मूला भारत<
https://hi.wikipedia.org/wiki/%E0%A4%AD%E0%A4%BE%E0%A4%B0%E0%A4%A4> में भाषा-<
https://hi.wikipedia.org/wiki/%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE>शिक्षण<
https://hi.wikipedia.org/wiki/%E0%A4%B6%E0%A4%BF%E0%A4%95%E0%A5%8D%E0%A4%B7%E0%A4%BE> से संबंधित नीति है जो भारत सरकार द्वारा राज्यों से विचार-विमर्श करके बनायी गयी है. इस फ़ॉर्मूले को देश की शैक्षणिक एवं सांस्कृतिक उन्नति के लिए सन् 1968 में स्वीकार किया गया था. त्रिभाषा सूत्र के अनुसार हिंदी भाषी क्षेत्रों में हिंदी तथा अंग्रेज़ी के अतिरिक्त एक आधुनिक भारतीय भाषा में से, दक्षिण भारत की भाषाओं में से किसी एक को तरजीह देते हुए और अहिंदी भाषी क्षेत्रों में प्रादेशिक भाषाओं एवं अंग्रेज़ी के साथ-साथ हिंदी के अध्ययन के लिए इस सूत्र के अनुसार व्यवस्था की जानी चाहिए. तमिलनाडु ने इसके स्थान पर तमिल-अंग्रेज़ी का द्विभाषी सूत्र अपनाया है.
1.6 संघ लोकसेवा आयोग (UPSC) की परीक्षाओं में वैकल्पिक माध्यम
इसके अलावा, राजभाषा संकल्प,1968 में यह व्यवस्था की गई है कि संघ लोकसेवा आयोग (UPSC) की परीक्षाओं में संविधान की आठवीं अनुसूची में सम्मिलित सभी भाषाओं तथा अंग्रेज़ी को वैकल्पिक माध्यम के रूप में रखने की अनुमति होगी.
1.7 भारत एक बहुलतावादी समाज (pluralistic society) है.
संसार में कुल 12 भाषा-परिवार हैं. इनमें से चार भाषा-परिवारों की अनेक भाषाएँ भारत में बोली जाती हैं. इनमें प्रमुख भाषा-परिवार हैं. भारतीय आर्य भाषा परिवार और द्रविड़ भाषा परिवार. उत्तर,मध्य और पश्चिम भारत की अधिकांश भाषाएँ (हिंदी, पंजाबी, बंगला, गुजराती, मराठी, ओडिया<
https://bh.wikipedia.org/wiki/%E0%A4%93%E0%A4%A1%E0%A4%BF%E0%A4%AF%E0%A4%BE_%E0%A4%AD%E0%A4%BE%E0%A4%B7%E0%A4%BE>, असमिया, आदि) आर्य परिवार की भाषाएँ मानी जाती हैं. इस परिवार की भाषाओं को बोलने वाले भारतीयों की संख्या 78.05 प्रतिशत है. द्रविड़ परिवार की भाषाएँ दक्षिण भारत अर्थात् तमिलनाडु, पुडुचेरी, केरल, आंध्र प्रदेश, तेलंगाना और कर्नाटक में बोली जाती हैं. इनके बोलने वाले भारतीयों की संख्या 19.64% है. इन भाषाओं में प्रमुख हैं, तमिल, मलयालम, कन्नड़ और तेलुगु.
निश्चय ही भारत एक बहुलतावादी समाज (pluralistic society) अर्थात् बहुभाषी, बहुजातीय, बहुसांस्कृतिक और बहु-धार्मिक देश है, लेकिन इनके बीच अनेक प्रकार की अंतर्निहित समानताएँ हैं. ये समानताएँ केवल भारतीय भाषाओं में ही नहीं, दक्षिण पूर्वेशिया की अनेक भाषाओं में भी पायी जाती हैं. यही कारण है कि अनेक भाषावैज्ञानिक भारत सहित दक्षिण पूर्वेशिया के संपूर्ण क्षेत्र को एकभाषिक क्षेत्र (Linguistic Zone) कहते हैं.
1. भारत की सांस्कृतिक एकता के विकास में अखिल भारतीय शब्दावली की भूमिका
बहुत प्राचीन समय से हमारा भारत मूलभूत विज्ञान के क्षेत्र में अग्रणी रहा है और उसकी सफलता निश्चय ही वैज्ञानिक तंत्र पर आधारित रही है. इसके फलस्वरूप हमारे यहाँ अनेक विषयों में पारिभाषिक शब्दावली विकसित हुई है, जिसका आयुर्वेद, योग, ज्योतिष और गणितीय गवेषणा से लेकर भौतिक विज्ञान तक सफलतापूर्वक प्रयोग होता था. संस्कृत भाषा ने भारतीय उपमहाद्वीप को जिस एकता के सूत्र में बाँधा था, कालांतर में उसका स्थान अनेक भाषाओं में ले लिया. फिर ऐसा समय आया जब इसमें से प्रत्येक भाषा का एक विशिष्ट व्यक्तित्व तथा अपनी संचार प्रणाली विकसित हो गई. वैसे भाषाओं की बहुलता के दौर में भी एक अखिल भारतीय शब्दावली का अस्तित्व था जिससे विनिमय और संचार प्रक्रिया सुगमता पूर्वक चलती थी. इससे स्पष्ट है कि भारत की सांस्कृतिक एकता के विकास में संस्कृत की तत्सम शब्दावली पर आधारित अखिल भारतीय शब्दावली का विशेष योगदान रहा है. इसी क्रम में सन् 1950 में स्थापित वैज्ञानिक व तकनीकी शब्दावली आयोग ने शुरू से ही ऐसी शब्दावली के निर्माण पर बल दिया, जो थोड़े-बहुत संशोधन के बाद हमारी विभिन्न भाषाओं की प्रकृति के अनुरूप ढाली जा सके और इस प्रकार अखिल भारतीय स्तर पर उसका इस्तेमाल किया जा सके. अब तक वैज्ञानिक व तकनीकी शब्दावली आयोग द्वारा कृषि एवं पशु-चिकित्सा, इंजीनियरिंग एवं टैक्नोलॉजी, मानविकी एवं समाज विज्ञान, चिकित्सा विज्ञान और भाषा विज्ञान से संबंधित अखिल भारतीय शब्दावली का प्रकाशन किया जा चुका है. आशा है क्षेत्रीय भाषाओं में प्रकाशित उक्त विषयों से संबंधित पुस्तकों में इस शब्दावली का व्यापक उपयोग किया जा सकेगा.
प्रो.B. S. रामकृष्ण मानते हैं कि भारतीय भाषाओं में 40 से 48 स्वनिम (phonemes) ऐसे हैं जो सभी भारतीय भाषाओं में समान हैं. इनका उपयोग भारतीय भाषाओं में परस्पर शिक्षण और अनुवाद के लिए किया जा सकता है. उस्मानिया विश्वविद्यालय की भाषाविज्ञान विभाग की प्रोफेसर नागम्मा रेड्डी यह मानती हैं कि हज़ारों सालों के संपर्क के कारण यह आदान-प्रदान केवल शब्दावली तक ही सीमित नहीं रहा. यह इस बात का संकेत है कि विभिन्न भाषाओं में अंतर्निहित सामाजिक और सांस्कृतिक संदर्भ का प्रभाव तीन स्तरों पर अर्थात् उनकी ध्वनि व्यवस्था, वाक्य विन्यास और आर्थी संरचना पर भी परिलक्षित होता है.
लेकिन अखिल भारतीय शब्दावली (Pan Indian Terminology) के प्रयोग के लिए बहुत सावधानीपूर्वक भाषा-नियोजन की आवश्यकता है. डॉ. भीमसेन निर्मल यह मानते हैं कि सभी भारतीय भाषाओं ने संस्कृत से शब्दावली ग्रहण तो की है, लेकिन अखिल भारतीय शब्दावली का संकलन करते समय हमें यह भी ध्यान रखना होगा कि संस्कृत के अनेक शब्द ऐसे भी हैं, जिनका अर्थ भिन्न हो सकता है. उदाहरण के लिए, ‘अनर्गल’ शब्द का तेलुगु में अर्थ है...धाराप्रवाह, जबकि हिंदी में इसका अर्थ है निरर्थक बकवास. डॉ. निर्मल ने तेलुगु और हिंदी में प्रयुक्त ऐसे 300 शब्दों की सूची तैयार की है, जिनके अर्थ दोनों भाषाओं में भिन्न-भिन्न हैं.
आज से लगभग 70 वर्ष पूर्व सीता नाम की एक फ्रांसीसी महिला ने 10 भारतीय भाषाओं में समान शब्दावली का संकलन करके उसे प्रकाशित करवाया था.
इसी प्रकार अखिल भारतीय स्तर पर विदेशी आगत शब्दावली के रूप में मुस्लिम शासन के दौरान प्रशासनिक और न्यायिक प्रणाली के अनेक फ़ारसी शब्द भी विभिन्न भारतीय भाषाओं में घुल-मिल गए हैं. आधुनिक युग के दौरान विश्वव्यापी प्रयोग के अंग्रेज़ी के अनेक शब्द भी भारतीय भाषाओं में समाहित हो गए हैं. इन शब्दों को वैज्ञानिक व तकनीकी शब्दावली आयोग ने अपने शब्दकोश में सम्मिलित कर लिया है.
विभिन्न भारतीय भाषाओं के शिक्षण में अखिल भारतीय शब्दावली की व्यापक भूमिका हो सकती है. इसी लक्ष्य को ध्यान में रखते केंद्रीय हिंदी संस्थान, आगरा द्वारा हिंदी-असमीया, हिंदी- ओडिया, हिंदी-तेलुगु, हिंदी – मलयालम, हिंदी-तमिल, हिंदी-मराठी और हिंदी-बंगला की समान स्रोतीय शब्दावली के तुलनात्मक अध्ययन पर निम्नलिखित पुस्तकें प्रकाशित की गईं. इनकी मदद से हिंदीतरभाषी छात्रों को सरलता से हिंदी का अध्यापन भी किया जा सकता है.
* हिंदी और तमिल की समान स्रोतीय भिन्नार्थी शब्दावली
- वी. रा. जगन्नाथन
समान स्रोत और भिन्न वर्तनी की शब्दावली
असमीया -हिंदी और हिंदी -असमीया (1976)
-विजय राघव रेड्डी
समान स्रोत और भिन्न वर्तनी की शब्दावली:
-ओडिया-हिंदी और हिंदी -ओडिया (1980)
-विजय राघव रेड्डी
* तेलुगु और हिंदी ध्वनियों का तुलनात्मक अध्ययन (1981)
-जे. विश्वमित्र
हिंदी पंजाबी क्रिया पदबंध: व्यतिरेकी विश्लेषण (1984)
- भारत भूषण
हिंदी एवं मलयालम में आगत संस्कृत शब्दावली: व्यतिरेकी अध्ययन (1984)
-टी. के. नारायण पिल्लै
हिंदी मराठी : क्रिया पदबंध (1986)
- म. मा. बासुतकर
हिंदी असमीया: व्याकरणिक कोटियाँ (1986)
-रामलाल वर्मा
* हिंदी बंगला: संयुक्त क्रिया (1986)
-ललित मोहन बहुगुणा
हिंदी तेलुगु: संज्ञा पदबंध (1987)
-विजय राघव रेड्डी
हिंदी तेलुगु: व्याकरणिक संरचना (1987)
-शकुन्तला रेड्डी
इसके अलावा केंद्रीय भारतीय भाषा संस्थान (CIIL), मैसूर द्वारा भी विभिन्न भारतीय भाषाओं में समान शब्दावली के आधार पर निम्नलिखित त्रिभाषी शब्दावलियों का प्रकाशन किया गया है.
* Malayalam – English – Tamil Trilingual Bidirectional Dictionary
Malayalam – English – Telugu Trilingual Bidirectional Dictionary
Malayalam – English – Kannada Trilingual l Bidirectional Dictionary
Malayalam – English – Tamil Trilingual Bidirectional
Tamil- English – Malayalam Trilingual Bidirectional Dictionary
* Telugu – English – Malayalam Trilingual Bidirectional Dictionary
सरकारी संस्थानों के अलावा निजी प्रकाशकों ने भी भारतीय भाषाओं के बीच समानरूपी शब्दावली पर आधारित पुस्तकों का प्रकाशन आरंभ कर दिया है. इन प्रकाशनों में प्रमुख है... प्रो. जी.सुंदर रेड्डी द्वारा लिखित और राजपाल एंड संज़ द्वारा प्रकाशित “हिंदी तथा द्रविड भाषाओं के समानरूपी शब्द.”
यह विडंबना है कि भारतीय भाषाओं में अंतर्निहित समानताओं के बावजूद आज भी अनेक विश्वविद्यालयों में भारतीय भाषाओं का अध्यापन अंग्रेज़ी माध्यम से किया जा रहा है. यही कारण है कि विद्यार्थियों को न केवल भारतीय भाषाएँ सीखने में अधिक समय लगता है, बल्कि उनमें अरुचि भी पैदा हो जाती है. इसी लक्ष्य को ध्यान में रखते हुए अंतर्राष्ट्रीय तेलुगु संस्थान, हैदराबाद ने सन् 1984 में Common Core Vocabulary of Indian Languages विषय पर एक संगोष्ठी का आयोजन किया था, जिसमें देश-भर के भाषावैज्ञानिकों और भाषाविदों ने भाग लिया था और भारतीय भाषाओं में परस्पर समानता के आधार पर द्विभाषी या बहुभाषी शब्दकोश और अल्पकालिक पाठ्यक्रम निर्मित करने की योजना तैयार की थी.
आज का युग विज्ञान और प्रौद्योगिकी का है. इसलिए आवश्यकता इस बात की है कि इस बृहत् कार्य के लिए अधुनातन टैक्नोलॉजी का गहन उपयोग किया जाए. भारतीय भाषाओं और लिपियों के शिक्षण के लिए सभी भारतीय भाषाओं और लिपियों के लिए विकसित समान कुंजीपटल (INSCRIPT (अर्थात् Indian scripts) कुंजीपटल का उपयोग किया जा सकता है.
1. भारतीय भाषाओं के बीच अंतर्निहित वाक्य विन्यास (Syntax) की समानता
भारतीय भाषाओं के बीच अंतर्निहित समानता का और आयाम है, वाक्य विन्यास (Syntax). अगर हम अंग्रेज़ी के वाक्य विन्यास को देखें तो उसका आधार है.. Subject–Verb–Object<
https://en.wikipedia.org/wiki/Subject%E2%80%93verb%E2%80%93object> (SVO) अर्थात् Ram(S) killed (V) Ravan (O). इसके विपरीत, हिंदी का वाक्य विन्यास है...Subject–Object–Verb (SOV) अर्थात् राम ने( S) रावण को(O) मारा(V). यही वाक्य विन्यास सभी भारतीय भाषाओं का भी है. सभी भारतीय भाषाएँ क्रियांतक हैं अर्थात् सभी भारतीय भाषाओं के वाक्यों में क्रिया अंत में आती है, जबकि अंग्रेज़ी सहित पश्चिम की अनेक भाषाओं में ‘क्रिया’ वाक्य के बीच में आती है.
मैंने सन् 1992 में IIT, कानपुर द्वारा आयोजित CPAL-2 के अवसर पर प्रस्तुत अपने आलेख में हिंदी और अन्य भारतीय भाषाओं के संदर्भ में यही स्पष्ट किया था कि जब तक भाषाविशेष के विशिष्ट पक्षों का सम्यक् अध्ययन नहीं कर लिया जाता, तब तक उस भाषा का संसाधन कंप्यूटर के माध्यम से नहीं हो पाएगा. जैसे हिंदी और अंग्रेज़ी के निम्नलिखित वाक्य देखें:
(1) राम को बुखार है.
(2) राम श्याम से मिलता है.
(3) Ram has a fever.
(4) Ram meets Shyam.
वाक्य (1) में ‘को’ का प्रयोग हिंदी और अन्य भारतीय भाषाओं की भाषाविशिष्ट प्रवृत्ति है. यह दिलचस्प तथ्य है कि वाक्य (3) के अंग्रेज़ी वाक्य में ‘को’ परसर्ग (postposition) के समकक्ष कोई पूर्वसर्ग (Preposition) नहीं है, लेकिन सभी भारतीय भाषाओं में ‘को’ के समकक्ष परसर्ग का नियमित प्रयोग मिलता है:
(5) रामला ताप आहे. (मराठी)
(6) रामक्कु ज्वरम् (तमिल)
(7) रामन्नु पनियानु (मलयालम)
(8) रामनिगे ज्वर दिगे (कन्नड़)
(9) रामेर ताप आछे (बँगला)
यह प्रवृत्ति दक्षिण पूर्वेशिया की अन्य भाषाओं में भी मिलती है. इन्हीं समान भाषिक प्रवृत्तियों के कारण ही यह निष्कर्ष निकाला गया है कि सिर्फ भारत ही नहीं, बल्कि संपूर्ण दक्षिण पूर्वेशिया, एकभाषिक क्षेत्र (Linguistic Zone) है.
1. प्राकृतिक भाषा संसाधन (NLP) या कृत्रिम मेधा (AI) की मदद से शाब्दिक संबंधों के जालक्रम (Network) का निर्माण
इस प्रकार की भाषिक प्रवृत्तियों और अभिलक्षणों के विश्लेषण का कार्य प्राकृतिक भाषा संसाधन या Natural Language Processing (NLP) या कृत्रिम मेधा (AI) के अंतर्गत किया जा सकता है.
NLP का मुख्य आधार स्तंभ है, शब्दवृत्त (Lexicon)
अर्थपरक क्षेत्रों (Semantic Fields) के आधार पर शब्दों का वर्गीकरण इस प्रकार किया जा सकता है.
यदि माँ-बाप और बच्चे के संबंध को लें तो ये संबंध इस प्रकार हो सकते हैं.
पिल्ला > बच्चा > कुत्ता
बछड़ा > बच्चा > गाय
इसीप्रकार अंग-अंगी संबंधों को भी रखा जा सकता है :
पैर <>अंग-अंगी संबंध <>शरीर
चोंच <>अंग-अंगी संबंध <>चिड़िया
पर्यायवाची शब्द भी (जैसे, पवन, समीर, वायु, हवा) भी इसी के अंतर्गत आते हैं.
शब्दवृत्त (Lexicon) के अंतर्गत इसप्रकार के अनेक संबंधों को एक जालक्रम (Network) के रूप में इस प्रकार रखा जा सकता है :
ठंडा <>पर्याय<> शीतल
ठंडा<> विलोम<> गरम
चीता <>वर्ग स्तनपायी<> पशु
खाना> प्रेरणा > खिलाना
बछड़ा >शिशु >गाय
हाथ >अंग> शरीर
सोमवार>अनुक्रम> मंगलवार
1. समांतर कॉर्पोरा पर आधारित लिप्यंतरण प्रणाली
इसी आधार पर IIIT हैदराबाद के कुछ अनुसंधानकर्ताओं ने समांतर कॉर्पोरा का उपयोग करते हुए 7 भारतीय भाषाओं में परस्पर लिप्यंतरण (Transliteration) की सुविधा को विकसित किया है, जिसकी मदद से मात्र लिप्यंतरण के माध्यम से परस्पर अनुवाद भी किया जा सकता है. इस लिप्यंतरण प्रणाली के अंतर्गत आरंभ में निम्नलिखित भारतीय आर्यभाषाओं (पंजाबी,गुजराती, उर्दू और बंगाली) और द्रविड़ भाषाओं (तेलुगु, तमिल और मलयालम) में यह व्यवस्था की गई है. यह सामग्री पर्यटन और स्वास्थ्य के ILCI corpora (Jha, 2010) नामक ऑनलाइन कॉर्पोरा से ली गई थी, जिसमें 11 भाषाओं के 30,000 समांतर वाक्य संकलित किये गए थे. इसके अंतर्गत सभी भारतीय भाषाओं में पाठ को इनपुट करने और बाद उसके आउटपुट के लिए युनिकोड का प्रयोग किया जाता है. यह सर्वविदित ही है कि आज विश्व की सभी लिखित भाषाओं के लिए युनिकोड नामक विश्वव्यापी कोड का उपयोग, माइक्रोसॉफ़्ट, आई.बी.एम.,लाइनेक्स, ओरेकल जैसी विश्व की लगभग सभी कंप्यूटर कंपनियों द्वारा किया जा रहा है. यह कोडिंग सिस्टम फ़ॉन्ट्समुक्त , प्लेटफ़ॉर्ममुक्त और ब्राउज़रमुक्त है. युनिकोड के उपयोग से कंप्यूटर पर उपलब्ध अधुनातन साधनों का उपयोग किया जा सकता है. हिंदी और अन्य भारतीय भाषाओं में कॉर्पस के आधार पर अनुवाद प्रणाली के विकास के लिए और प्राकृतिक भाषा संसाधन (NLP) के लिए भी इसका व्यापक उपयोग किया जाने लगा है.
1. भारतीय भाषाओं के बीच समरूपी (Cognate) शब्दों की खोज के लिए शब्दजालों (Wordnets ) का उपयोग
IIT,बंबई द्वारा भारतीय भाषाओं के बीच समरूपी (Cognate) शब्दों की खोज के लिए शब्दजालों (Wordnets ) का उपयोग करने के लिए पुष्पक भट्टाचार्य के निर्देशन में Automatic Cognate Detection (ACD) नाम से एक परियोजना आरंभ की गई थी, जिसकी मदद से मशीनी अनुवाद, Information Retrieval (IR) और द्विभाषी या त्रिभाषी शब्दावलियों के संकलन जैसी चुनौतीपूर्ण NLP applications के कार्य को स्वतः ही सुगमता से किया जा सकता है. इस परियोजना के अंतर्गत शब्दजालों (Wordnets ) के माध्यम से समरूपी (Cognate) शब्दयुग्मों (wordpairs) का पता लगाने के लिए 10 भारतीय भाषाओं (मराठी ,गुजराती, बंगला, पंजाबी, मलयालम ,तमिल, तेलुगु ,नेपाली, उर्दू और हिंदी) को आधार बनाया गया था. भले ही हिंदी और तेलुगु समान भाषा-परिवार की भाषाएँ नहीं हैं, फिर भी उनके बीच समानता और शुद्धता का स्तर बहुत ऊँचा होता है. समरूपी (Cognate) वे शब्द होते हैं जिनका व्युत्पत्तिपरक स्रोत (etymological origin) समान होता है. (Crystal, 2008). भारतीय भाषाओं में बहुत बड़ी संख्या में शब्द और संकल्पनाएँ या तो संस्कृत के मूल स्रोत से ली गई हैं या फिर संस्कृत से उधार ली गई हैं. इसके लिए दो तरह के datasets निर्मित किये जाते हैं <sourcelang> और <targetlang>. इनमें स्रोत भाषा हमेशा हिंदी ही रहती है. इस नैटवर्क में एक शब्द को वर्णक्रम (sequence of characters) माना जाता है. यह तथ्य भी सर्वस्वीकृत ही है कि भारतीय भाषाएँ जैसी बोली जाती हैं, वैसी ही लिखी जाती हैं. इसके विपरीत पश्चिम की भाषाओं में उच्चारण और लिपि में बहुत भेद होता है. अधिकांश भारतीय भाषाओं में संस्कृत से लिये गए शब्द दो रूपों में होते हैं...तत्सम और तद्भव. तत्सम शब्दों में संस्कृत की वर्तनी ज्यों की त्यों रहती है, जबकि तद्भव शब्दों में कमोबेश अंतर भी हो सकता है और वे शब्द पूरी तरह बदले हुए भी हो सकते हैं.
1. भारतीय भाषाओं में परस्पर अनुवाद के लिए IIIT हैदराबाद द्वारा विकसित ‘अनुसारक’
IIIT हैदराबाद द्वारा विकसित ‘अनुसारक’ एक ऐसा कंप्यूटर सॉफ़्टवेयर है, जिसकी मदद से भारतीय भाषाओं में परस्पर अनुवाद किया जा सकता है. हो सकता है कि यह अनुवाद व्याकरण की दृष्टि से पूरी तरह शुद्ध न हो तो भी पाठक इसे आसानी से समझ लेता है. उदाहरण के लिए, तेलुगु-हिंदी ‘अनुसारक’ तेलुगु में मुद्रित पाठ को हिंदी पाठक को हिंदी में उपलब्ध करा देता है. आम तौर पर यह माना जाता है कि मशीनी अनुवाद प्रणाली को विकसित करना बहुत जटिल होता है, क्योंकि इसके लिए विश्वज्ञान (encyclopaedic knowledge) को कंप्यूटर में समाहित करना होता है. इसके बावजूद लक्ष्य भाषा में बहुत कुछ छूट जाता है. इसलिए मानव और मशीन पर काफ़ी बोझ पड़ता है.
‘अनुसारक’ में विश्वज्ञान (encyclopaedic knowledge) को कंप्यूटर में समाहित करने की आवश्यकता नहीं होती. ‘अनुसारक’ किसी स्रोत भाषा के पाठ का विश्लेषण करता है और ज्यों का त्यों इसे लक्ष्यभाषा में अंतरित कर देता है. यह संदर्भ या स्रोत भाषा में निहित विश्वज्ञान के आधार पर अंदाज़ा लगाने की कोशिश भी नहीं करता. ‘अनुसारक’ स्रोत भाषा के पाठ के रूपिम (morpheme) को उठाता है और लक्ष्यभाषा के रूपिम में अंतरित कर देता है. इसकी सफलता का मुख्य कारण यही है कि भारतीय भाषाओं में शब्दों का क्रम समान ही होता है अर्थात् सभी भारतीय भाषाएँ SOV होती हैं, इसलिए अनुवाद की गुणवत्ता भी कमोबेश ठीक ही रहती है. इसकी मदद से कोई भी पाठक किसी भी वैबसाइट के भारतीय भाषाओं के पाठ को भी अपनी भाषा में अंतरित करके पढ़ सकता है. किसी भी भारतीय भाषा की पत्रिका का संपादक बिना अनुवादक की सहायता से भारतीय भाषाओं की पत्रिकाओं में प्रकाशित सामग्री को तुरंत अपनी भाषा में अंतरित करके उसका उपयोग कर सकता है. बाद में उस पाठ को किसी संपादक की सहायता से व्याकरणिक दृष्टि से संशोधित भी कर सकता है.
फिलहाल ‘अनुसारक’ का अल्फ़ा वर्शन तेलुगु, कन्नड़, बंगाली और पंजाबी से हिंदी में अनुवाद के लिए सुलभ है बीटा वर्शन जल्द ही जारी किया जाएगा. यह ‘अनुसारक’ प्रो. राजीव संगल, पूर्व निदेशक IIIT,हैदराबाद के नेतृत्व में अक्षर भारती ग्रुप द्वारा विकसित किया गया है.
1. ब्राह्मी लिपि से भारतीय लिपियों का ऐतिहासिक विकास-क्रम
ब्राह्मी लिपि भारत की अधिकांश लिपियों की जननी है तथा उर्दू को छोड़कर सभी भारतीय लिपियाँ (Indic scripts) ब्राह्मी लिपि के मूल स्रोत से विकसित हुई हैं. सम्राट अशोक ने तीसरी शती ईस्वी पूर्व में अपने अधिकांश शिलालेखों में इसी ब्राह्मी लिपि का प्रयोग किया था. वस्तुतः ब्राह्मी लिपि का विकास-क्रम नदी के प्रवाह जैसा है. 5वीं सदी ईसा पूर्व से 350 ईसा पूर्व तक इसका एक ही रूप मिलता है, लेकिन बाद में इसके दो विभाजन मिलते हैं- उत्तरी धारा व दक्षिणी धारा. हिंदी, पंजाबी, गुजराती, मराठी, ओड़िया, बंगाली, असमिया आदि भारतीय आर्य भाषाओं की लिपियों का विकास इसी ब्राह्मी लिपि की उत्तरी धारा से हुआ है. दक्षिण भारत में इसी लिपि को नंदिनागरी कहा जाता था और तमिल,कन्नड़,तेलुगु और मलयालम आदि द्रविड़ भाषाओं की लिपियों का विकास नंदिनागरी से ही हुआ है. उत्तर भारत की इस लिपि को हम देवनागरी के नाम से जानते हैं.
[Diagram Description automatically generated with medium confidence]
मूल स्रोत लिपि ब्राह्मी होने के कारण सभी भारतीय लिपियों में निम्नलिखित अंतर्निहित समानताएँ परिलक्षित होती हैं.
* सभी लिपियाँ अक्षरात्मक (syllabic) हैं और उनमें मात्राएँ अंतर्निहित हैं.
प्रत्येक व्यंजन (consonant) में स्वर (vowel) निहित है.
सभी भारतीय लिपियों की वर्णमाला (alphabet) के क्रम में कुछ अपवादों को छोड़कर समानता है.
ये सभी लिपियाँ बाएँ-से-दाएँ लिखी जाती हैं.
इसी अंतर्निहित समानता के आधार पर ही ब्राह्मी-आधारित 10 प्रमुख भारतीय लिपियों (Indic scripts) के लिए ISCII नामक समान कोडिंग प्रणाली विकसित की गई. इसके अलावा, IIT, कानपुर के वैज्ञानिकों ने सभी भारतीय भाषाओं और लिपियों के लिए समान कुंजीपटल (INSCRIPT (अर्थात् Indian scripts) कुंजीपटल का भी विकास किया.
1. भारतीय लिपियों (Indic scripts) में लिप्यंतरण की सुविधा
यह तो सर्वविदित ही है कि संस्कृत, हिंदी, मराठी, कोंकणी, सिंधी और नेपाली की लिपि देवनागरी है, लेकिन इसी इंस्क्रिप्ट कीबोर्ड से हम अन्य भारतीय लिपियों में भी संबंधित लिपियों में लिप्यंतरण की मदद से टाइप कर सकते हैं. इसके लिए निम्नलिखित लिंक का उपयोग किया जा सकता है.
https://www.google.co.in/inputtools/try/
नमस्कार (हिंदी) / নমস্কার (बंगला)/નમસ્કાર (गुजराती)/ನಮಸ್ಕಾರ (कन्नड़)/ନମସ୍କାର (ओडिया)/ਨਮਸ੍ਕਾਰ (पंजाबी)/நமஸ்கார (तमिल)/నమస్కార (तेलुगु)/നമസ്കാര (मलयालम)
निष्कर्ष
इससे स्पष्ट है कि भारतीय भाषाओं और लिपियों में परस्पर भिन्नता के बावजूद हज़ारों वर्षों से इनके बीच सांस्कृतिक, दार्शनिक और धार्मिक स्तर पर आदान-प्रदान की अविच्छिन्न परंपरा रही है. भारतीय भाषाओं और लिपियों में अतंर्निहित इन्हीं समानताओं के कारण ही ‘विविधता में एकता’ हमारी संस्कृति की अन्यतम विशेषता बन गई है. यह विशेषता खानपान, वेशभूषा, सोच-विचार और सांस्कृतिक मूल्यों तक ही सीमित नहीं रही, बल्कि भारतीय भाषाओं और उनकी लिपियों के बीच भी जो अंतर्निहित समानता परिलक्षित होती है, उससे भावी संभावनाओं के द्वार भी खुलते हैं. आज का युग विज्ञान और प्रौद्योगिकी का युग है और कदाचित् यही कारण है कि फ़िजी में आयोजित विश्व हिंदी सम्मेलन का थीम ही यही रखा गया है...हिंदीः पारंपरिक ज्ञान से कृत्रिम मेधा तक.. मुझे विश्वास है कि सम्मेलन के दौरान अन्य विषयों के साथ-साथ भारतीय भाषाओं में अंतर्निहित समानताओं के आधार पर भाषा-शिक्षण, परस्पर अनुवाद और लिप्यंतरण के उपकरण और सॉफ्टवेयर विकसित करने के लिए रोडमैप तैयार किया जाएगा और उसे चरणबद्ध रूप में कार्यान्वित भी किया जाएगा.
....................................