यांत्रिक अनुवाद प्रौद्योगिकी की वर्तमान दशा और दिशा

328 views
Skip to first unread message

Anunad Singh

unread,
Dec 2, 2020, 10:25:44 PM12/2/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
यांत्रिक अनुवाद प्रौद्योगिकी की वर्तमान दशा और दिशा

यांत्रिक अनुवाद (कम्प्यूटर की सहायता से अनुवाद) पर कार्य कम्प्यूटरों के विकास के आरम्भिक चरण में ही शुरू हो गया था और अब तक इसने बहुत प्रगति कर ली है। इस समय सौ से अधिक भाषाओं से/के  अनुवादक उपलब्ध हैं जिनकी गुणवत्ता 'अच्छी' कही जा सकती है। एक-दो नहीं, सैकड़ों नामी कम्पनियाँ और  विशेषज्ञ-समूह इस पर काम कर रहे हैं।

मशीनी अनुवाद की मुख्यतः तीन विधियाँ हैं- (१) नियम आधारित अनुवाद,  (२) सांख्यिकी आधारित अनुवाद, और (३) न्यूरल नेटवर्क या कृत्रिम बुद्धि पर आधारित  अनुवाद। ऐतिहासिक रूप से मशीनी अनुवाद का आरम्भ नियम आधारित अनुवाद से हुआ, फिर सांख्यिकी आधारित अनुवाद की तकनीक ने मशीनी अनुवाद को नयी उंचाई प्रदान की। गूगल ट्रान्सलेट सन २०१६ के पहले इसी तकनीक पर काम करता था और उसी से उसने इतनी ख्याति पायी।  किन्तु न्यूरल नेटवर्क में निहित क्षमताओं की पहचान करके  गूगल ने इसे २०१६ में न्यूरल नेटवर्क पर आधारित बना दिया।

आज कृत्रिम बुद्धि, न्यूरल नेटवर्क और मशीन लर्निंग/डीप लर्निंग का चारों तरफ बोलबाला है। मशीनी अनुवाद पर भी इनका ही राज चल रहा है। इसी तरह मुक्तस्रोत (ओपेन सोर्स) सॉफ्टवेयर के क्षेत्र में भी क्रांति आ गयी है।  मशीनी अनुवाद के क्षेत्र की एक अग्रणी कम्पनी ने तो OpenNMT नामक न्यूरल मशीन अनुवादक सॉफ्टवेयर को सबके लिए निःशुल्क ही नहीं मुक्तस्रोत उपलब्ध करा दिया है।

आज मशीनी अनुवाद की स्थिति यह है कि कुछ विशेषज्ञ कह रहे हैं कि आप भी अपना अनुवादक 'मिनटों में' (अर्थात एक घण्टे से कम समय में) बना सकते हैं।
Building a Translation System In Minutes  
  https://towardsdatascience.com/building-a-translation-system-in-minutes-d82a154f603e

ज्ञातव्य है कि ओपेन-एनएमटी या किसी अन्य 'लर्निंग सॉफ्टवेयर' को पहले 'सिखाना' या प्रशिक्षित करना पड़ता है। फिर जैसा इसका शिक्षण किया गया होगा,  वैस यह काम करेगा।  सिखाने के लिए मुख्यतः दो चीजें चाहिए- (१) डेटा-सेट , और (२) कम्प्यूटर ।  न्यूरल नेटवर्क पर आधारित मशीनी अनुवादकों को अनुवाद सिखाने के लिए भारी मात्रा में द्विभाषी वाक्य-युग्म  चाहिए। उदाहरण के लिए यदि हिन्दी से अंग्रेजी में अनुवाद करना सिखाना है तो
दस हजार से लेकर लाखों छोटे-बड़े हिन्दी-अंग्रेजी वाक्य-युग्म चाहिए।  जिस कम्प्यूटर (हार्डवेयर) पर प्रशिक्षण कराया जाएगा, वह भी शक्तिशाली हो तो प्रशिक्षण का काम कुछ घण्टों से लेकर कुछ दिनों में पूरा हो सकता है।  और फिर आपका 'अनुवादक' अनुवाद करना शुरू कर देता है। 'यथा अन्नं तथा बुद्धिः' के अनुसार जितना गुणवत्ता-सम्पन्न और जितना बड़ा प्रशिक्षण डेटा होगा, आपका अनुवादक भी उतना ही 'ज्ञानी' होगा।

खुशी की बात है कि डेटा-सेट और कम्प्यूटर (शक्तिशाली) -- ये दोनों ही मुफ्त में और आसानी से उपलब्ध हैं। यूरोपीय भाषाओं तथा अरबी, चीनी, जापानी, हिब्रू आदि के लिए तो बहुत सारा डेटा-सेट उपलब्ध है। हिन्दी के लिए  बहुत नहीं तो भी पर्याप्त  डेटासेट उपलब्ध है।  देखिए-

http://www.cfilt.iitb.ac.in/iitb_parallel/

http://www.cfilt.iitb.ac.in/iitb_parallel/resource.php

https://www.kaggle.com/vaibhavkumar11/hindi-english-parallel-corpus

12 Best Hindi Language Datasets for Machine Learning  
https://lionbridge.ai/datasets/12-best-hindi-language-datasets-for-machine-learning/

और भी बहुत से इधर-उधर बिखरे हुए हिन्दी-अंग्रेजी डेटासेट नेट पर उपलब्ध हैं। हिन्दी विकिकोश (wiktionary) पर मैने कुछ 'अनुवाद-युग्म' इकट्ठा करके डाले हैं-


आपको यह जानकर सुखद आश्चर्य होगा कि यदि आपके पास अनुवाद प्रशिक्षण के लिए शक्तिशाली कम्प्यूटर नहीं है तो आपको दुखी होने की जरूरत नहीं है। गूगल के कोलैब (https://colab.research.google.com/) का प्रयोग कर लीजिए।  आपको सॉफ्टवेयर (पाइथन , पाइटॉर्च आदि) इन्स्टाल करने की झंझट भी नहीं रहेगा। खोजने पर और भी कुछ  मुफ्त 'क्लाउड' प्लेटफॉर्म मिल जाएंगे।

सारांश यह है कि यदि कोई कमर कस ले और थोड़ी मेहनत करे और थोड़ी बुद्धि लगाए तो  अपने वांछित भाषा-युग्म का अनुवादक स्वयं बना सकता है।  और तो और, ये सीखने वाले अनुवादक बार-बार सिखाये जा सकते हैं।  किसी ने थोड़ा सिखा दिया है, उसे लेकर दूसरा व्यक्ति उसको आगे और सिखा सकत है, तीसरा उसे कुछ हजार और वाक्य सिखा सकता है। इस तरह वह निरन्तर सीखते हुए अधिक बुद्धिमान बनता चला जाएगा।


हरिराम पंसारी

unread,
Dec 3, 2020, 1:57:43 AM12/3/20
to technic...@googlegroups.com
बहुत उपयोग शोधकार्य। आभार!

हरिराम
प्रगत भारत <http://hariraama.blogspot.in>


--
आपको यह संदश इसलिए मिला है क्योंकि आपने Google समूह के "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह की सदस्यता खत्म करने और इससे ईमेल पाना बंद करने के लिए, technical-hin...@googlegroups.com को ईमेल भेजें.
वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/CACa%2Bt%3DOSYyNsJ_G%3Dhne%2Bw%2BE49w1nZ97LsaG2JTRdJtkYGit8mQ%40mail.gmail.com पर जाएं.

Vineet Chaitanya

unread,
Dec 3, 2020, 2:37:41 AM12/3/20
to technic...@googlegroups.com
नमस्कार,

                 श्री "Bedapudi Praneeth" ने अंग्रेजी से हिन्दी के लिये भी GPL licence में एक अनुवाद नामक NMT system उपलब्ध कराया है.
          (https://github.com/notAI-tech/Anuvaad)
          इसी तरह IIIT-Hyderabad के Prof. C. V. Jawahar के समूह ने भी एक NMT system हिन्दी तथा सभी मुख्य भारतीय भाषाओं के लिये
          state of art system बनाये हैंं.

          Bedapudi Praneeth का system चलाने के लिये GPU वाले संगणक की आवश्यकता होती है.
          यह IIIT-Hyderabad की एक मशिन पर चल रहा है.
           यदि आप अपना कुछ गद्य देना चाहें तो मुझे भेज सकते हैं.

           हाँ यदि हम सब मिल कर जुट जायें तो बहुत कुछ किया जा सकता है.

सादर
विनीत चैतन्य

वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/CAFz0FBoWWBLgPZYwRd-3UQg7foQ%2BjKpZY0R9j%2BWT_ay9VzVFXQ%40mail.gmail.com पर जाएं.

Anunad Singh

unread,
Dec 3, 2020, 3:49:59 AM12/3/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
धन्यवाद हरिराम जी, और विनीत जी। मेरे सन्देश में भारतीय परिप्रेक्ष्य में मशीनी अनुवाद सम्बन्धी जो कमी रह गयी थी उसे आप के सन्देश ने पूरा कर दिया है। अच्छी जानकारी मिली।

आपने बिलकुल सही कहा है कि "यदि हम सब मिल कर जुट जायें तो बहुत कुछ किया जा सकता है" ।  आपके इस कथन पर मुझे हितोपदेश के 'मित्रलाभ' की कथा और उसका शिक्षा-श्लोक याद आ रहा है जिसमें कबूतर मिलकर जाल को लेकर उड़ गये और हिरण्यक नाम चूहे के पास जाकर जाल को कटवाकर मुक्त हुए। कथा की असली शिक्षा यही है कि 'यानि कानि च मित्राणि कृतानि शतानि च' (कैसे भी हों किन्तु सैकड़ों मित्र बनाने चाहिए। यहाँ 'यानि-कानि' भी बहुत सटीक है। मिलकर काम करने (collaboration) के लिए छोटे-से-छोटे योगदाता का भी बहुत महत्व है। उसी में यह भी कहा है कि 'तृणैः गुणत्वमापनैः बध्यन्ते मत्तदन्तिनः'  (जब तिनके-तिनके मिलकर रस्सी का रूप धारण करते हैं तो उनमें इतनी शक्ति आ जाती है कि मतवाले हाथी भी उससे बांध लिये जाते हैं। )
  -- अनुनाद

वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/CAK5aoVk-A3%3DvN1OBrTBVnF%3DVZ3Bws-XNQA2-yynsrWtCKbi3rw%40mail.gmail.com पर जाएं.

Vishal Goyal(विशाल गोयल)

unread,
Dec 3, 2020, 11:30:54 AM12/3/20
to technical-hindi
Punjabi University Developed Software for Announcements at Public Places in Indian Sign Language for Hearing Impaired.


--
Regards,
Dr. Vishal Goyal,
Professor,
Department of Computer Science,
State Awardee (Two Times)
Deputy Director, Centre for E-Learning and Teaching Excellence
Coordinator, Research Centre for Technologies Development for Differently Abled Persons
Coordinator, Centre for Research in Artificial Intelligence and Data Science
Coordinator, iHRMS implementation team
Nodal officer, GeM Operations
Nodal Officer, NPTEL Local Chapter
Punjabi University Patiala-147002.

ken

unread,
Dec 3, 2020, 7:38:44 PM12/3/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)

चोपड़ा

unread,
Dec 3, 2020, 9:00:17 PM12/3/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
 इस उपयोगी और ज्ञानवर्धक जानकारी के लिए हार्दिक धन्यवाद। 

क्या ये वाक्य tmx या तालिकाबद्ध रूप में उपलब्ध हैं जिससे इनका अनुवाद मैमोरी के रूप में उपयोग किया जा सके?

सादर,

चोपड़ा

Anunad Singh

unread,
Dec 4, 2020, 12:31:21 AM12/4/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
चोपड़ा जी,

इन वाक्यों को ५-१० मिनट में टीएमएक्स  में बदला जा सकता है।  विकिपीडिया से कॉपी करके किसी सम्पादित्र में ले जाइये।  आप देख सकते हैं की अंग्रेजी के वाक्यों के आरम्भ में स्पेस नहीं है जबकि हिंदी वाक्यों के आरम्भ में स्पेस है।  इसी विशेषता का दोहन करके खोजना-पाना का उपयोग करते हुए इसको टीएमएक्स में बदल सकते हैं।  टीएमएक्स फ़ाइल के प्रारूप का एक सरल उदाहरण यह है-

<tmx version="1.4">
  <header
    creationtool="XYZTool" creationtoolversion="1.01-023"
    datatype="PlainText" segtype="sentence"
    adminlang="en-us" srclang="en"
    o-tmf="ABCTransMem"/>
  <body>
    <tu>
      <tuv xml:lang="en">
        <seg>Hello world!</seg>
      </tuv>
      <tuv xml:lang="fr">
        <seg>Bonjour tout le monde!</seg>
      </tuv>
    </tu>
  </body>
</tmx>

यदि खोजने-बदलने की प्रक्रिया कठिन लगती है तो यह लिब्रेऑफिस के कैल्क या एमएस ऑफिस के एक्सेल की सहायता से भी बदला जा सकता है।  विकिपीडिया से कॉपी की गयी फ़ाइल में जहाँ न्यू लाइन के बाद स्पेस आ रहा है (अर्थात \n\s) उन्हें टैब मे बदल दें। फिर इसे कैल्क में ले जाँय . 
पूरा टेक्स्ट दो कॉलम के रूप बदल जाएगा. इसके बाद दोनों कालमों  के बाएं और दूसरे कालम के दाएं, कुल तीन कॉलम घुसाइये. इन तीनो कालमों में क्या डालना है, यह आप उपरोक्त टीएमएक्स प्रारूप से देख सकते हैं.  इसको टैब सेपरेटेड टेक्स्ट फ़ाइल के रूप में सहेजिए.
इस टेक्स्ट फ़ाइल से टैब को हटा दीजिए और फ़ाइल के प्रारम्भ में हेडर जोड़ दीजिए. हो गया.
-- अनुनाद

--
आपको यह संदश इसलिए मिला है क्योंकि आपने Google समूह के "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह की सदस्यता खत्म करने और इससे ईमेल पाना बंद करने के लिए, technical-hin...@googlegroups.com को ईमेल भेजें.
वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/0c76a636-231a-4970-94e0-a838de677b34n%40googlegroups.com पर जाएं.

Anunad Singh

unread,
Dec 4, 2020, 12:51:00 AM12/4/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
धन्यवाद विशाल जी, विशेष रूप से इसलिए कि आप लोगों ने उन लोगों को याद रखा जिन्हें लोग अक्सर भूल जाते हैं।

--
आपको यह संदश इसलिए मिला है क्योंकि आपने Google समूह के "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह की सदस्यता खत्म करने और इससे ईमेल पाना बंद करने के लिए, technical-hin...@googlegroups.com को ईमेल भेजें.
वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/CADAAq5yYg%3DXWO2Q1tZHk3Xzaf3ZfC%2BS5B5ZbCdkLe9yR-LR4qw%40mail.gmail.com पर जाएं.

Anunad Singh

unread,
Dec 4, 2020, 1:13:59 AM12/4/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
.xls को TMX  में बदलने के अनेक उपाय नेट पर उपलब्ध हैं-

Convert Excel files (xls, xlsx) and tab delimited txt to TMX

6 Steps to create TMX file from Excel or other formats

Creating a TM from an .xls file without splitting cell content 

Vineet Chaitanya

unread,
Dec 4, 2020, 2:00:01 AM12/4/20
to technic...@googlegroups.com
जो अनुवादक इस प्रकार के कार्य में सहयोग देना चाहते हैं वे अपने TMX उपलब्ध करा दें तो भी काफी मदद मिल सकती है.
"परस्परम् भावयन्तः श्रेयः परमवाप्स्यथ" ||3.11|| (Bhagvadgeeta)

वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/CACa%2Bt%3DPtOxvyBRSXof9p6PbTNF6quYZvHiNFkvmOvDYiTc7dBw%40mail.gmail.com पर जाएं.

Anunad Singh

unread,
Dec 4, 2020, 9:06:52 AM12/4/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
विनीत जी की बात को मैं भी दोहराना चाहता हूँ।  इसी के साथ यह भी निवेदन है की यदि किसी के पास 'सरल प्रशासनिक शब्दावली' (https://rajbhasha.gov.in/sites/default/files/saralshabdavali.pdf) की DOC फ़ाइल हो तो कृपया साझा करें।  कारण यह है कि पीडीएफ रूप में जो फ़ाइल उपलब्ध है उससे कॉपी करने  के बाद जो टेक्स्ट मिलता है  उसमें बहुत सी त्रुटियां आ जातीं हैं।  और वे ऐसी त्रुटियाँ हैं  जिन्हे किसी भी खोजना-बदलना से ठीक नहीं किया जा सकता।  यदि कोई इसे यूनिकोड टेक्स्ट के रूप में बदल सकें तो भी काम बन जाय। केंद्रीय अनुवाद ब्यूरो द्वारा यह  निर्मित हुई है और उनके पास डॉक फ़ाइल भी होगी।


वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/CAK5aoV%3Dnwd7gP5OjPKwKZRY%2Bd04btvO7Wmn%3DUWN_rD6eSMZ4SA%40mail.gmail.com पर जाएं.

डॉ.राजीव कुमार रावत Dr. Rajeev Kumar Rawat

unread,
Dec 4, 2020, 11:27:33 PM12/4/20
to technic...@googlegroups.com
नमस्कार
मैं निदेशक, सीएसटीटी से बात करके बताता हूँ कि क्या उनके पास डॉक फाइल है और क्या वे भेज सकते हैं।
सादर

डॉ. राजीव कुमार रावत,
वरिष्ठ हिंदी अधिकारी
भारतीय प्रौद्योगिकी संस्थान खड़गपुर-721302
09641049944,09564156315


वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/CACa%2Bt%3DO-w1Xa8xdrVvZvB%3Duwd72oSr-2%3DU7k1qmc8dNxB5PCzw%40mail.gmail.com पर जाएं.

Anunad Singh

unread,
Dec 5, 2020, 2:22:10 AM12/5/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
धन्यवाद राजीव जी.  परंतु यह फाइल केंद्रीय अनुवाद ब्यूरो द्वारा तैयार की गयी है. मुझे  कि   केंद्रीय अनुवाद ब्यूरो और वैज्ञानिक  शब्दावली आयोग (सी एस टी टी )  में  है. 

वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/CAN%2B%2Bbe7DBFU1BOw_SPbnTYjhED%3DUz5s3Z5AsQgB%3Dz9Ez0NsUuQ%40mail.gmail.com पर जाएं.

डॉ.राजीव कुमार रावत Dr. Rajeev Kumar Rawat

unread,
Dec 5, 2020, 2:37:41 AM12/5/20
to technic...@googlegroups.com
जी सर मैं दोनों सेही पूछता हूँ.. प्रकाशित तो सीएसटीटी ने की है..
सीटीबी ने बनाया होगा भी तो काफी समय हो गया .. 
डॉ विचार दास जी के समय में हुआ था शायद..

मैं सोमवार मंगल तक पता करता हूं..

सादर


डॉ. राजीव कुमार रावत,
वरिष्ठ हिंदी अधिकारी
भारतीय प्रौद्योगिकी संस्थान खड़गपुर-721302
09641049944,09564156315

वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/CACa%2Bt%3DN-e6Fo%2BGPfi1B%3D2Yyc6sEghpD%3DQi9%2BwSxOqG4n39YL2w%40mail.gmail.com पर जाएं.

Vishal Goyal(विशाल गोयल)

unread,
Dec 5, 2020, 4:25:44 AM12/5/20
to technical-hindi
Thank you very much sir. Thanks for encouraging words. We used to work in NLP and Technology Development for Differently Abled People research domain.


वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/CACa%2Bt%3DPMx_2JCXqbGMkTHFcF853HZCsVYTcW2RJx_sme78amHw%40mail.gmail.com पर जाएं.

चोपड़ा

unread,
Dec 9, 2020, 4:00:40 AM12/9/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
अनुनाद जी,

टीएमएक्स बनाने का तरीका सुझाने के लिए धन्यवाद लेकिन मैं layman हूँ और आप जैसे तकनीकी विषयों की गहन जानकारी रखने वाले विद्वान द्वारा संक्षेप में उल्लेख की गई प्रक्रिया को समझने में असमर्थ हूँ। 

मैं एमएस वर्ड की फाइल में एक तालिका बनाता हूँ और इसके बाएं कॉलम में अंग्रेज़ी वाक्य रखता हूँ और दूसरे कॉलम में हिंदी वाक्य रखता हूँ। इसके बाद पहले वाले कॉलम में सबसे ऊपर en-US और दूसरे कॉलम में hi लिखता हूँ और तत्पश्चात Heartsome नामक सॉफ्टवेयर की सहायता से इस वर्ड फाइल को टीएमएक्स में बदल लेता हूँ और अपने अनुवाद कार्य में अनुवाद मैमोरी की रूप में इसका उपयोग करता हूँ।

आप द्वारा दिए गए लिंकों में सामग्री या तो इस रूप में दी गई है:

1.   A touching farewell was accorded to... — ...को भाव-भीनी बिदाई दी गई

2.   abeyance, held in — रोक रखी गई/आस्थगित रखी गई

3.   abide by — पालन करना


यहाँ उपर्युक्त दो कॉलम की फाइल बनाना बहुत दुष्कर और श्रमसाध्य कार्य है क्योंकि यह सामग्री तालिका और कॉलमों में नहीं है बल्कि रनिंग रूप में है और बीच में (—) भी है।  ऐसे में प्रत्येक वाक्यांश को कट करके एक नई कॉलमयुक्त वर्ड फाइल में पेस्ट करना होगा जिसमें बहुत अधिक समय खपेगा।


या फिर सामग्री इस रूप में यानी ऊपर नीचे है: 


कृपया उत्तर दें

Please reply

इसके लिए भी वही प्रक्रिया अपनानी होगी, हालाँकि इसमें पहली वाली सामग्री की तुलना में कम समय लगेगा।


मैं आप द्वारा उद्धृत सामग्री का उपयोग करना चाहता हूँ क्योंकि वाक्यांशों को Termbase के रूप में उपयोग किया जा सकता है और वाक्यों को Translation Memory के रूप में उपयोग किया जा सकता है लेकिन इसके लिए ज़रूरी है कि अंग्रेजी और हिंदी सामग्री MS Word या MS Excel में दो कॉलमों में आमने-सामने उपलब्ध हो और इनके पहले या बीच में नंबर, हाइफन और बुलेट जैसी चीज़ें न हों जिससे इससे टीएमएक्स फाइल बनाई जा सके।


क्या ऐसा किसी सरल विधि से किया जा सकता है, यदि नहीं तो कृपया समस्त प्रक्रिया का विस्तारपूर्वक चरण-दर-चरण वर्णन करने का कष्ट करें। अथवा यदि किसी सज्जन ने इनकी टीएमएक्स बना ली हो, तो कृपया उपलब्ध कराने की कृपा करें। 


सादर,

चोपड़ा


Anunad Singh

unread,
Dec 9, 2020, 4:53:04 AM12/9/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
चोपड़ा जी, नमस्ते।
आपके द्वारा अपनायी गयी प्रक्रिया वस्तुतः सरल है, इसमें कोई दो राय नहीं।   मैं बताना भूल गया कि  कई सॉफ्टवेयर हैं जिनका उपयोग करके यह काम किया जा सकता है।  टी एम् एक्स बनाने वाले कुछ  सॉफ्टवेयर ये हैं -


अब आपकी समस्या पर।  ध्यान दें कि आपके द्वारा उद्धृत पाठ में यदि " — " (स्पेस के बाद " —" और फिर स्पेस ) है।  यदि इसे खोजकर टैब में बदल दिया जाय  तो इसे दो कॉलम वाले टेबल में बदलना बाएं हाथ का खेल बन जाएगा।  आपको पता होगा की इसे एक्सेल या कैल्क में 'पेस्ट' करने पर यह दो कॉलम में बदल जाता है, बशर्ते 'टैब' को कॉलम-सेपरेटर समझने का विकल्प टिक किया गया हो। 

----

बात चली है तो पूरा ही कर लें।   यदि किसी के पास एक फ़ाइल में अंग्रेजी के कुछ वाक्य (सामग्री) हो और दूसरे फाइल में उसका हिंदी अनुवाद हो, तो उससे भी टी एम् एक्स बनायी  जा सकती है।  इसे स्वयं एक-एक वाक्य कॉपी-पेस्ट करके करना तो बहुत होगा।  इसलिए इसके लिए भी सोफ्टवेयर हैं।  तकनीकी रूप से इस समस्या को 'समान टेक्स्ट से समांतर टेक्स्ट में बदलना'  कहते हैं।  ये सोफ्टवेयर कुछ दिए हुए  नियमों के अधीन पहले  दोनों  फाइलों को वाक्यों  के रूप में तोड़ देते हैं।  फिर मिलान करते  कि  कि  कौन  सा वाक्य किसके  संगत  आना  चाहिए।  इसके लिए वे वाक्यों की लम्बाई  आदि को आधार  बनाते हैं।  फिर उपयोगकर्ता को यह मेल दिखाते हैं और उसे ऊपर-नीचे करके ठीक करने का मौक़ा देते हैं।   इसे ही 'एलाइनमेंट' कहते हैं। 

लोग तो यहाँ तक गए  कि  पूरी विकिपीडिया को 'समान' टेक्स्ट  मानकर  'पैरेलेल कोर्पस'   डाला  है।  अंग्रेजी-हिंदी और  अन्य कई  उपलब्ध हैं।  मैंने देखा है।  उसमें १०-२० प्रतिशत मिलान बहुत अच्छे हैं।  शेष कामचलाऊ हैं।  किसी की एक सप्ताह की मेहनत उस पर लग जाय तो बहुत उपयोगी सामग्री बन जाएगी।  

--
आपको यह संदश इसलिए मिला है क्योंकि आपने Google समूह के "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह की सदस्यता खत्म करने और इससे ईमेल पाना बंद करने के लिए, technical-hin...@googlegroups.com को ईमेल भेजें.
वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/bac22b0e-ff6f-469b-bc4f-723d50551d79n%40googlegroups.com पर जाएं.

Anunad Singh

unread,
Dec 9, 2020, 5:17:49 AM12/9/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
उपर्युक्त कोर्पस यहां है-


यह भी बताना रह गया था कि  ओमेगा-टी  में भी पैरेलल कोर्पस बनाने (और उसको टी एम् एक्स में बदलने ) की सुविधा है।

Anunad Singh

unread,
Dec 9, 2020, 6:03:57 AM12/9/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
मशीनी  अनुवाद कितना सशक्त हो गया है, पढ़िए -

The MT researchers have cracked the code and say that human parity for machine translation is here... or near. Researchers in Artificial Intelligence predict that in 2024 machines will be “better” at translating a text than humans. At the TAUS Annual Conference in Vancouver this year, Chris Wendt, the MT program leader at Microsoft, argued that MT beats human translators already on most points.

और मशीनी अनुवाद के लिए आंकड़े कितने महत्वपूर्ण हैं , ये पढ़िए -
The MT researchers have cracked the code and say that human parity for machine translation is here... or near. Researchers in Artificial Intelligence predict that in 2024 machines will be “better” at translating a text than humans. At the TAUS Annual Conference in Vancouver this year, Chris Wendt, the MT program leader at Microsoft, argued that MT beats human translators already on most points.

(Fixing the Translation Ecosystem  https://blog.taus.net/fixing-the-translation-ecosystem   ३० अक्टूबर २०१८ )

Anunad Singh

unread,
Dec 9, 2020, 6:08:36 AM12/9/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
दूसरा वाला उद्धरण (मशीनी अनुवाद के लिए आंकड़े कितने महत्वपूर्ण हैं) यह है-
Let’s not be mistaken: there is no single magic MT engine that translates better than all others. All MT engines available today are similar and make use of algorithms that are quite often available under open source licenses. No, the difference really lies in the data that we feed into the engines. Data is the new oil, and that’s definitely true for the translation world.

चोपड़ा

unread,
Dec 9, 2020, 2:37:17 PM12/9/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
अनुनाद जी,

नमस्कार। आपने लिखा है:

अब आपकी समस्या पर।  ध्यान दें कि आपके द्वारा उद्धृत पाठ में यदि " — " (स्पेस के बाद " —" और फिर स्पेस ) है।  यदि इसे खोजकर टैब में बदल दिया जाय  तो इसे दो कॉलम वाले टेबल में बदलना बाएं हाथ का खेल बन जाएगा।  आपको पता होगा की इसे एक्सेल या कैल्क में 'पेस्ट' करने पर यह दो कॉलम में बदल जाता है, बशर्ते 'टैब' को कॉलम-सेपरेटर समझने का विकल्प टिक किया गया हो।   

इसके लिए क्या करना होगा। पाठ को कॉपी करके किस सॉफ्टवेयर में पेस्ट करना होगा?  " —" को किस प्रकार खोजकर टैब में बदलना है? प्रारंभ में जो संख्या या बुलेट हैं, उन्हें कैसे हटाना है?  यदि चरण-दर-चरण (step wise) विस्तार से इस प्रक्रिया का विवरण दे सकें दो आभार होगा जिससे मुझ जैसे पर्याप्त तकनीकी ज्ञान न रखने वाले व्यक्ति भी इसका पालन करके लाभान्वित हो सकेंगे।

सादर,

चोपड़ा  

Anunad Singh

unread,
Dec 9, 2020, 7:04:23 PM12/9/20
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
आपके प्रश्न का उत्तर इस बात पर निर्भर करता है की आप कौन सा टेक्स्ट एडिटर या वर्ड प्रोसेसर प्रयोग कर  रहे हैं।  कृपया बताइए। 

लेकिन " — " को 'टैब' में बदलने के लिए जो प्रक्रिया है वह सभी के लिए  सामान हो सकती है।   अपने सोफ्टवेअयर  के Find and replace  को क्लिक करें।  यह प्रायः  Edit वाले मुख्य मेनू में रहता है।  अब  आपके सामने भरने के लिए  एक विंडो आ जाएगी।  इसके Find वाले  टेक्स्ट बॉक्स में  अपने कर्सर से सेलेक्ट करते हुए " — " पेस्ट कर दें (दोनों कोटेशन मार्क छोड़कर कॉपी करना है ) । 

अब Replace with वाले बक्से में  आपको 'टैब' पेस्ट  करना  है।  टैब  चार या आठ स्पेस के बराबर जगह घेरने वाला अदृश्य कैरेक्टर है. इसे टाइप करने के लिए ' कैपिटल लॉक' कुंजी के ऊपर वाली कुंजी दबाना पड़ती है.  लेकिन Replace with वाले बक्से में इसे दबाने से ये टाइप नहीं   होगा बल्कि कुछ और होगा।  इसलिए इसे कहीं और से कॉपी  करके पेस्ट करना होगा।  

ये रहा टैब  " "  (दोनों कोटेशन मार्क के बीच अदृश्य है , उसे कॉपी करके पेस्ट कर दीजिए )  . या अपने सम्पादित्र में कही पहले एक दूसरे से सटे हुए दो  कोटेशन मार्क टाइप कीजिए , इस तरह "" . फिर इन दोनों के बीच में कर्सर ले जाइये  और  एक बार टैब कुंजी को दबा दीजिए।  दोनों कोटेशन मार्क के बीच कुछ जगह बन जाएगी।  इसे भी  माउस से सेलेक्ट करक Replace with वाले बक्से में पेस्ट कर सकते हैं। 

अंत में  आपको 'रिप्लेस' या 'रिप्लेस  आल' वाला बटन दबाना है।  'रिप्लेस  आल' करने के पहले लोग सावधानी के तौर पर एक-दो को रिप्लेस करके देख लेते हैं कि वे  जैसा चाहते हैं वैसा ही हो रहा है या नहीं।  संतुष्ट होने के बाद 'रिप्लेस  आल'  बटन दबाते हैं।

कई सारे सम्पादित्रों में अदृश्य कैरेक्टरों को उलटा श्लैश के साथ एक कैरेक्टर लगाकर  निरूपित करने की सुविधा होती है , जैसे टैब के लिए \t  ,  लाइन फीड (नेक्स्ट लाइन ) के लिए \n आदि।  लेकिन अभी इसे  अभी नही करेंगे।  


 

वेब पर यह चर्चा देखने के लिए, https://groups.google.com/d/msgid/technical-hindi/ffb2032a-0b87-4f60-b74e-ae3b0745957fn%40googlegroups.com पर जाएं.
Reply all
Reply to author
Forward
0 new messages