Re: [technical-hindi] technical-hindi@googlegroups.com के लिए डाइजेस्ट - 1 विषय में 1 अपडेट

39 views
Skip to first unread message

Ravishankar Shrivastava

unread,
Dec 10, 2023, 11:44:07 PM12/10/23
to technic...@googlegroups.com
Probably, the file is corrupt or the encoding is set wrong while file-saving, and if it is so, data is hard to recover. Still, if you can share the file, further analysis can be done on the file to recover data.

Ravi 


On Mon, 11 Dec, 2023, 02:03 , <technic...@googlegroups.com> wrote:
V S Rawat <vsr...@gmail.com>: Dec 11 12:23AM +0530

ओह, माफ़ कीजियेगा।
 
3
00:00:30,080 --> 00:00:31,420
à¤
ब तो तरकॠकी हो गई है।
 
4
00:00:32,720 --> 00:00:33,840
बॠरिगेडियर!
 
5
00:00:35,960 --> 00:00:37,500
मॠबारक हो।
 
6
00:00:38,440 --> 00:00:39,560
शॠकॠरिया, सर।
 
This is text file (.srt movie subtitle file), notepad+ is showing
encoding as utf-8 with BOM.
 
The same is appearing on movie player.
 
I have tried all encoding and its changes in npp, but text remains same.
 
The file has English text along with numbers and punctuations as above.
long files, some 30-60 kB so no point trying to copy paste lines one by
on to some tool. The tool should convert entire file in one go, leaving
ANSI text intact at place, and not add anything of its own otherwise the
file will become inoperative as subtitles.
 
Thanks.
--
Rawat
आपको यह डाइजेस्ट मिला, क्योंकि आपने इस समूह के अपडेट की सदस्यता ली है. आप समूह सदस्यता पेज पर अपनी सेटिंग बदल सकते हैं.
इस समूह की सदस्यता छोड़ने और इससे ईमेल पाना बंद करने के लिए technical-hin...@googlegroups.com को ईमेल भेजें.

V S Rawat

unread,
Dec 11, 2023, 3:48:33 AM12/11/23
to technic...@googlegroups.com
one of the file is enclosed. It is subtitle of a TV Series, extracted
from video of the same. Any rights belong to Zee I guess.

I had searched on the net and found that it is about utf-8 text getting
saved as latin-1959 or something. Now whatever encoding you change in
the file, you cannot get back the original hindi character as the ANSI
characters that are displayed are very much valid and no change of
encoding would want to convert that.

There is a site: https://www.branah.com/unicode-converter
if you put the first jumbled line in the file:
शॠकॠरिया, करॠनल।

into the fourth box "UTF-8 Text", it will show "शुक्रिया, कर्नल।" in the
top box.

similarly, second line
ओह, माफ़ कीजियेगा।
gives "ओह, माफ़ कीजियेगा।"

So, it is obvious that conversion logic and methods are there.

from the page source, the relevant code is:
<input type="button" id="btntext" value="Convert" style="width:100px">
Unicode text (Example: a 中 Я)<br>
<textarea id="text" rows="4" cols="75"></textarea><br><input
type="button" id="separate" value="Add spaces"
style="width:100px"><input type="button" id="combine" value="Remove
spaces" style="margin-left:1em;width:100px"><label
style="margin-left:1em"><input type="checkbox" id="whitespace"> Convert
whitespace characters</label><label style="margin-left:1em"><input
type="checkbox" id="endian"> Little Endian</label></p>

Just that it is not possible to convert many such lines in a 31kb file.
by pasting in that box one by one manually.

I want a method that a software and differentiate between other ANSI
characters and these jumbled character and converts only these
characters to unicode as above, copying entire other ANSI things intact,
giving me entire file that I can add to my movie player and see correct
text.

Thanks.
--
Rawat



On 11-Dec-23 10:13 AM, Ravishankar Shrivastava wrote:
> Probably, the file is corrupt or the encoding is set wrong while
> file-saving, and if it is so, data is hard to recover. Still, if you can
> share the file, further analysis can be done on the file to recover data.
>
> Ravi
>
>
> On Mon, 11 Dec, 2023, 02:03 , <technic...@googlegroups.com
> <mailto:technic...@googlegroups.com>> wrote:
>
> technic...@googlegroups.com
> <https://groups.google.com/forum/?utm_source=digest&utm_medium=email#!forum/technical-hindi/topics>
> Google Groups
> <https://groups.google.com/forum/?utm_source=digest&utm_medium=email/#!overview>
> <https://groups.google.com/forum/?utm_source=digest&utm_medium=email/#!overview>
>
> विषय डाइजेस्ट
> सभी विषय देखें
> <https://groups.google.com/forum/?utm_source=digest&utm_medium=email#!forum/technical-hindi/topics>
>
>
> * Any offline-online tool to convert such text
> <#m_8134792511179162147_group_thread_0> - 1 अपडेट
>
> Any offline-online tool to convert such text
> <http://groups.google.com/group/technical-hindi/t/3bcc03f02f7790bb?utm_source=digest&utm_medium=email>
>
> V S Rawat <vsr...@gmail.com <mailto:vsr...@gmail.com>>: Dec 11
> वापस ऊपर <#m_8134792511179162147_digest_top>
> आपको यह डाइजेस्ट मिला, क्योंकि आपने इस समूह के अपडेट की सदस्यता ली है. आप समूह
> सदस्यता पेज
> <https://groups.google.com/forum/?utm_source=digest&utm_medium=email#!forum/technical-hindi/join>
> पर अपनी सेटिंग बदल सकते हैं.
> इस समूह की सदस्यता छोड़ने और इससे ईमेल पाना बंद करने के लिए
> technical-hin...@googlegroups.com
> <mailto:technical-hin...@googlegroups.com> को ईमेल भेजें.
>
> --
> आपको यह मैसेज इसलिए मिला है क्योंकि आपने Google Groups के "Scientific and
> Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" ग्रुप की सदस्यता ली है.
> इस समूह की सदस्यता खत्म करने और इससे ईमेल पाना बंद करने के लिए,
> technical-hin...@googlegroups.com
> <mailto:technical-hin...@googlegroups.com> को ईमेल भेजें.
> वेब पर यह चर्चा देखने के लिए,
> https://groups.google.com/d/msgid/technical-hindi/CAAX3pZ4nvehTZSurmHk6hvDzvGfddpOmcGyn%3DT3%3DTvYMAisirA%40mail.gmail.com
> <https://groups.google.com/d/msgid/technical-hindi/CAAX3pZ4nvehTZSurmHk6hvDzvGfddpOmcGyn%3DT3%3DTvYMAisirA%40mail.gmail.com?utm_medium=email&utm_source=footer>
> पर जाएं.
Mukhbir the Story of a Spy S01E03 Hindi 1080p ZEE5 WEB-DL ESubs.eng.srt

रवि-रतलामी

unread,
Dec 14, 2023, 2:55:26 AM12/14/23
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
देरी के लिए क्षमा चाहूंगा.
लिनक्स तंत्र में एक बहुत ही अच्छा टूल है. ftfy
How to use ftfy -

In Linux, (must be installed Python 3, it is default in many, so no worries, ) Install it by giving command -
pip install ftfy

Now recover your file by giving simple command -
ftfy filename-to-be-corrected -o corrected-filename 

in my case, I had given this command -
ftfy /home/rs/Downloads/Mukhbir.srt  -o /home/rs/Downloads/Mukhbir2.srt

सही की गई फ़ाइल संलग्न है -

सादर,
रवि

Mukhbir2.srt

रवि-रतलामी

unread,
Dec 14, 2023, 3:42:30 AM12/14/23
to Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)
अपडेट 
पायथन विंडोज के लिए भी उपलब्ध है। तो विंडोज में पायथन 
इंस्टाल कर यह टूल काम में लिया जा सकता है। 

V S Rawat

unread,
Dec 15, 2023, 3:15:02 AM12/15/23
to technic...@googlegroups.com
यह तो कमाल हो गया। यही तो मुझे चाहिए था कि पूरी फ़ाइल एक साथ ठीक हो जाए।

मैं लिनक्स या पायथन तो नहीं इस्तेमाल करता हूँ। इसलिए इसका विण्डो का कोई
तरीक़ा ढूँढना पड़ेगा।

यह हो सकता है, इससे समाधान ढूँढने को बल मिलेगा।

बहुत बहुत धन्यवाद।
--
रावत
> https://groups.google.com/d/msgid/technical-hindi/64fb9021-a846-4e60-8a5a-90e6bea01b1bn%40googlegroups.com
> <https://groups.google.com/d/msgid/technical-hindi/64fb9021-a846-4e60-8a5a-90e6bea01b1bn%40googlegroups.com?utm_medium=email&utm_source=footer>
> पर जाएं.

डॉ.राजीव कुमार रावत Dr. Rajeev Kumar Rawat

unread,
Dec 15, 2023, 5:33:02 AM12/15/23
to technic...@googlegroups.com
बहुत सुंदर
वाह 
धन्यवाद जी 


डॉ. राजीव कुमार रावत,
वरिष्ठ हिंदी अधिकारी
भारतीय प्रौद्योगिकी संस्थान खड़गपुर-721302
09641049944,09564156315


--
आपको यह संदेश इसलिए मिला, क्योंकि आपने Google समूह "Scientific and Technical Hindi (वैज्ञानिक तथा तकनीकी हिन्दी)" समूह की सदस्यता ली है.
इस समूह की सदस्यता खत्म करने और इससे ईमेल पाना बंद करने के लिए, technical-hin...@googlegroups.com को ईमेल भेजें.
वेब पर इस चर्चा को देखने के लिए https://groups.google.com/d/msgid/technical-hindi/a89953e0-cfee-fb92-b516-478edd98e3f6%40gmail.com पर जाएं.
Reply all
Reply to author
Forward
0 new messages