Creating from MS Word file(containing unicode Hindi text) a searchable pdf file

11 views
Skip to first unread message

Narayan Prasad

unread,
Aug 30, 2021, 10:26:04 AM8/30/21
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
प्रिय सदस्यगण,

    हाल में मैंने कुछ यूनिकोड हिन्दी टेक्स्ट वाली MS Word फाइल से Office 365 के माध्यम से pdf फाइलें बनाईं। परन्तु इससे कोई भी फाइल  searchable नहीं बनती। उदाहरण के लिए मैंने "चन्द्रकान्ता" उपन्यास में "शिवदत्त" शब्द खोजने का प्रयास किया तो यह नहीं मिला। फिर pdf फाइल से इस शब्द को copy/paste करके टेक्स्ट मोड में देखा, तो यह "मशवदत्त" के रूप में प्रकट हुआ।

   "कर्म" शब्द "कमम" रूप में प्रकट होता है।

   MS Word फाइल से यूनिकोड हिन्दी टेक्स्ट को searchable pdf file कैसे बनाई जाय?

   सादर
   नारायण प्रसाद

रवि-रतलामी

unread,
Aug 31, 2021, 1:17:20 AM8/31/21
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
यूनिकोड हिन्दी टैक्स्ट से  बने पीडीएफ़ फ़ाइलों में अभी भी ढेरों समस्याएँ हैं. विभिन्न प्रोग्रामों से बने पीडीएफ़ फ़ाइलों अथवा पीडीएफ़ व्यूअर प्रोग्रामों में भी समस्याएँ हैं, और अलग तरह की हैं.

एक समाधान है, जो कि करीबी कहा जा सकता है. करीबी इसलिए कि टैक्स्ट बिगड़ता नहीं, उपयोगी रहता है, परंतु कहीं कहीं (छोटी इ की मात्रा वाले शब्दों के बीच में) एक अतिरिक्त स्पेस घुस जाता है तो पाठ पूरी तरह ढूंढने लायक नहीं ही रहता. फिर भी, ये 2 चरण हैं -

1 चरण - यूनिकोड हिन्दी  पाठ को नवीनतम लिब्रे ऑफ़िस संस्करण के जरिए पीडीएफ़ में निर्यात करें.
2 चरण - पीडीएफ़ फ़ाइल को एडोब एक्रोबेट रीडर डीसी के नवीनतम संस्करण में खोलें.
--
आपका लिखा उपर्युक्त पाठ, उपर्युक्त तरीके से दर्शाए अनुसार तैयार पीडीएफ़ फ़ाइल से कॉपी/पेस्ट करने के उपरांत ऐसा दिखता है -
-----
यदि आप पाठ को ध्यान से देखेंगे तो पाएंगे कि जहाँ जहाँ छोटी इ की मात्रा है, वहाँ एक अतिरिक्त स्पेस घुस आया है तो सर्च में शिवदत्त खोजेंगे तो नहीं मिलेगा. पीडीएफ़ व्यूअर में दिखेगा शिवदत्त जरूर, मगर वह वस्तुतः शि वदत्त है, तो सर्च में नहीं आएगा. बाकी (छोटी ई की मात्रा वाले सभी शब्दों को छोड़कर,) अन्य सभी पाठ सर्च करने योग्य हैं.
Reply all
Reply to author
Forward
0 new messages