Normalization failed for string

59 views
Skip to first unread message

Ali hussain

unread,
Sep 14, 2023, 7:55:58 AM9/14/23
to tesseract-ocr
I have faced in my own trianed_text this normalization error. I think the main problem is  ্য    in these words. and i did't find  ্য  in  ben.unicharset file. I think this is the reason for the show error.  
if I create a unicharset for  ্য  and add in ben.unicharset file it will work? 
I don't know how to create a unicharset for this  ্য   like look at these words you can understand better. thx

ব্যাটারির 
র‌্যাবের 
র‌্যাঙ্কিংয়েও
হ্যাকাররা 

This is the main error.: 
Extracting unicharset from plain text file data/ben/all-gt
Invalid start of grapheme sequence:D=0x981
Normalization failed for string 'পারে মটোরোলার গবেষকেদের তৈরি বিশেষ এ উলকি ত্বকের ওপর আঁঁকা এক ধরনের সার্কিটের মতো এতে কোনো ব্যাটারির প্রয়োজন পড়ে না'
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence:H=0x9cd
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence:H=0x9cd
Normalization failed for string 'হবে এসব স্থানে মোটরসাইকেল নিয়ে ও হেঁটে র‌্যাবের দল টহল দেবে র‌্যাবের পোশাকধারী সদস্যের পাশাপাশি সাদা পোশাকে গোয়েন্দা'
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence:H=0x9cd
Normalization failed for string 'র‌্যাবের এক বিজ্ঞপ্তিতে এ তথ্য জানানো হয় রমজান মাসে আর্থিক লেনদেন বেড়ে যাওয়ায় ছিনতাই চাঁদাবাজির মতো সন্ত্রাসী কর্মকাণ্ড রোধে'
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence:H=0x9cd
Normalization failed for string 'কার্যক্রম জোরদার করা হবে এ ব্যাপারে র‌্যাবের গণমাধ্যম শাখার পরিচালক উইং কমান্ডার এ টি এম হাবিবুর রহমান প্রথম আলো'
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence:H=0x9cd
Normalization failed for string 'বড় ব্যবধানে হারানোর পর এখন বিশ্বকাপ জয়ের স্বপ্নে বিভোর ব্রাজিলের সমর্থকেরা ফুটবলে ব্রাজিলিয়ান উত্থানের প্রতিধ্বনি শোনা যাচ্ছে ফিফার র‌্যাঙ্কিংয়েও'
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence: H=0x9cd
Normalization failed for string 'নয় নম্বরে গত বছরের জুলাই থেকে শুরু হয়েছিল ফিফা র‌্যাঙ্কিংয়ে ব্রাজিলের অবনমন স্বাগতিক হওয়ার সুবাদে বিশ্বকাপ বাছাই পর্ব খেলতে'
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence: H=0x9cd
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence: H=0x9cd
Normalization failed for string 'এসব পদক্ষেপ নিয়েছে র‌্যাব নিরাপত্তা পরিকল্পনার অংশ হিসেবে অন্য আইনশৃঙ্খলা বাহিনীর পাশাপাশি র‌্যাবও নিজস্ব দায়িত্বপূর্ণ এলাকায় তিন ধাপে'
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence: H=0x9cd
Normalization failed for string 'ঠেকাতে র‌্যাবের পদক্ষেপের কথা উল্লেখ করেন উইং কমান্ডার হাবিবুর রহমান এ ব্যাপারে তিনি বলেন বাস রেল লঞ্চ কাউন্টার ও'
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence: H=0x9cd
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence: H=0x9cd
Normalization failed for string 'নিয়ন্ত্রণে রাখতে অন্যবারের মতো এবারের রমজান মাসেও দেশজুড়ে বাড়তি নিরাপত্তা ব্যবস্থা নিয়েছে র‌্যাপিড একশন ব্যাটালিয়ন র‌্যাব আজ বৃহস্পতিবার'
Invalid start of grapheme sequence: M=0x9be
Invalid start of grapheme sequence: M=0x9be
Invalid start of grapheme sequence: M=0x9be
Normalization failed for string 'ফিশিং এটাক বলে এ ছাড়া ডিকশনারি এটাক বা সহজে অনুমান করা যায় এমন শব্দনির্ভর পাসওয়াার্ডগুলো দিয়েও আক্রমণ করে হ্যাকাররা গবেষকেরা'
Dropping isolated joiner: 0x200c
Invalid start of grapheme sequence: H=0x9cd
Normalization failed for string 'ফাইনালে ব্রাজিলের কাছে হেরে কনফেডারেশনস কাপের শিরোপাটা অধরা থেকে গেলেও ফিফা র‌্যাঙ্কিংয়ের শীর্ষস্থানটা হারাতে হয়নি স্পেনকে ১৫৩২ পয়েন্ট নিয়ে'

Zdenko Podobny

unread,
Sep 14, 2023, 8:35:29 AM9/14/23
to tesser...@googlegroups.com
unicharset is created automatically (by official training procedure https://github.com/tesseract-ocr/tesstrain)


Zdenko


št 14. 9. 2023 o 13:56 Ali hussain <mdalihu...@gmail.com> napísal(a):
--
You received this message because you are subscribed to the Google Groups "tesseract-ocr" group.
To unsubscribe from this group and stop receiving emails from it, send an email to tesseract-oc...@googlegroups.com.
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/0fa2828c-0791-4f2f-9c69-a772cc688bean%40googlegroups.com.

Ali hussain

unread,
Sep 14, 2023, 8:43:45 AM9/14/23
to tesseract-ocr
I mean in langdata_lstm https://github.com/tesseract-ocr/langdata_lstm/tree/main/ben
every language has its own unicharset file.

Message has been deleted

Ali hussain

unread,
Sep 14, 2023, 8:49:05 AM9/14/23
to tesseract-ocr
We create ground-truth files that are created by every language including these types of files. because   ্য  this letter is not in ben.unicharset files and shows and creates without   ্য  ground-truth files and when I training its shows me this error for missing   ্য .  I think that. but not sure.

Des Bw

unread,
Sep 14, 2023, 9:19:43 AM9/14/23
to tesseract-ocr
The absence of a character in the unicharset is not supposed to cause error. You have to cross-check that it is encoded in utf8.

Ali hussain

unread,
Sep 14, 2023, 9:27:06 AM9/14/23
to tesseract-ocr
ব্যাটারির 
র‌্যাবের 
র‌্যাঙ্কিংয়েও
হ্যাকাররা 

these are encoded in utf8. text is right in Bengali.
Reply all
Reply to author
Forward
0 new messages