Multiple Languages

135 views
Skip to first unread message

Mariam Hijazi

unread,
Oct 15, 2018, 8:32:38 AM10/15/18
to tesseract-ocr
Does tesseract support recognize multiple language in one document ? and how would do that ?
Regards.

Adrian Owen

unread,
Oct 15, 2018, 8:35:32 AM10/15/18
to tesseract-ocr
Just list locales using + delimiter.

Sent from my Huawei Mobile
--
You received this message because you are subscribed to the Google Groups "tesseract-ocr" group.
To unsubscribe from this group and stop receiving emails from it, send an email to tesseract-oc...@googlegroups.com.
To post to this group, send email to tesser...@googlegroups.com.
Visit this group at https://groups.google.com/group/tesseract-ocr.
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/73c903ac-d23c-4396-84b3-c0fbfb9f8923%40googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

MariamHi

unread,
Oct 15, 2018, 8:38:18 AM10/15/18
to tesser...@googlegroups.com

I did this but I have Bad recognition for English word .. what is the accuracy for multiple languages and how to improve it ?

Adrian Owen

unread,
Oct 15, 2018, 8:42:12 AM10/15/18
to tesser...@googlegroups.com

Gimp is your friend: https://stackoverflow.com/questions/9480013/image-processing-to-improve-tesseract-ocr-accuracy

 

If your programming, use KalikoImage library to replicate manual GIMP steps, that’s easy.

 

I found greyscale didn’t help.

YES: Long line removal (may not apply to you) (OpenCV)

YES: resize to 300DPI

YES: Apply filters

 

Hope helps, Adrian

MariamHi

unread,
Oct 16, 2018, 3:27:12 AM10/16/18
to tesser...@googlegroups.com

When I did pre-processing I get result more bad, the idea is when I recognize document in Arabic I get it almost correct and when I recognize document in English I get it correct but when I recognize document in Arabic+English “Multiple” I get allEnglish word in digits .. how to fix it ?

Adrian Owen

unread,
Oct 16, 2018, 5:42:12 AM10/16/18
to tesser...@googlegroups.com

Try changing order: English+Arabic

 

Any better ?

MariamHi

unread,
Oct 16, 2018, 6:07:31 AM10/16/18
to tesser...@googlegroups.com

Yes, I tried it the same,

My code is :

string dataPath = ConfigurationManager.AppSettings["DataSet"].ToString();

string language = “eng+ara"; // Tried ara+eng

OcrEngineMode oem = OcrEngineMode.DEFAULT;

PageSegmentationMode psm = PageSegmentationMode.SINGLE_BLOCK;

TessBaseAPI tessBaseAPI = new TessBaseAPI(dataPath, language, oem, psm);

Pix pix = Pix.Read(imageFilePath);

pix.XRes = 300;

pix.YRes = 300; 

if (pix != null)  

{

tessBaseAPI.SetImage(pix);      

tessBaseAPI.Recognize();

string stringBuilder = tessBaseAPI.GetUTF8Text(); 

textBox2.Text = stringBuilder;

}

My image in attachment

The Result : eng+ara

SimplifiedArabic

 

1 1 مه 200

 

?Google ( 15 93? يستعد لاقتحام أدمغتنا

 

?الاحد 9 سبتمبر 2018 3

 

?الاقتصادية" من الرياض"

 

?2 9

 

?هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك ع لشركات توفر منتجات مشابهة؟ الأمر

لیس صدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.

 

?وساهمت الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضى؛ مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع

والتطبیقات» والتي تكون هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنیات الذکاء الاصطناعي ?intelligence? 4-

 

?وبيّنت دراسة صادرة عن باحثين في جامعة 'برينستون" الأميركيةء أن ?Google? ترصد تحرکات ما یزید عن ملياري شخص حول العالم» ممن يستعملون

أجهزة وهواتف تعمل بنظام التشغيل الشهير "8001010" بحسب ما ذكرت ?.'Skynews"?

 

?وأكد تقرير لوكالة الأسوشيتد برس 016558 0551018160 أن الكثير من خدمات جوجل على أجهزة آيفون 06 وآندرويد ?Android? تخزّن بيانات

مواقع المستخدمین» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة. –

 

 

The Result : ara+eng

SimplifiedArabic

 

200 ao oe 1 1

 

جو جا 18 9 ?Goo? يستعد لاقتحام أدمغتنا

 

الاحد 9 سبتمبر 2018

 

الاقتصادية" من الرياض"

 

2 9

 

هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك ع لشركات توفر منتجات مشابهة؟ الأمر

لیس صدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.

 

وساهمت الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضى؛ مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع

والتطبيقات» والتي تكون هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنيات الذكاء الاصطناعي ?intelligence? 4-

 

وبيّنت دراسة صادرة عن باحثين في جامعة 'برينستون" الأميركية» أن 6ا6009 ترصد تحركات ما يزيد عن ملياري شخص حول العالم» ممن يستعملون

أجهزة وهواتف تعمل بنظام التشغيل الشهير "8001010" بحسب ما ذكرت ?.'Skynews"?

 

وأكد تقرير لوكالة الأسوشيتد برس 016558 0551018160 أن الكثير من خدمات جوجل على أجهزة آيفون 06 وآندرويد ?Android? تخزّن بيانات

مواقع المستخدمین» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة. -

Result.jpg

Adrian Owen

unread,
Oct 16, 2018, 6:23:32 AM10/16/18
to tesser...@googlegroups.com

try PageSegmentationMode.AUTO

 

You may need to enlarge to 300, what’s original DPI?

MariamHi

unread,
Oct 16, 2018, 6:30:31 AM10/16/18
to tesser...@googlegroups.com

I have convert dpi of image by imagemagick to be 300 dpi and try it again with same result.

Resolution :

 

Result :

SimplifiedArabic

 

"جوجل 600916 " يستعد لاقتحام أدمغتنا

الاحد 9 سبتمبر 2018

 

الاقتصادية" من الرياض"

 

هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك 208000 لشركات توفر منتجات مشابهة؟ الأمر

ليس صدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.

 

8005 الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضى؛ مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع

والتطبیقات» والتي 05 هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنيات الذكاء الاصطناعي ?Artificial intelligence?

 

وبيّنت دراسة صادرة ,عن باحثين في جامعة "برينستون" الأميركية؛ ?nas Google uf? تحركات ما يزيد عن ملياري شخص حول العالم» ممن يستعملون

أجهزة وهواتف تعمل بنظام التشغيل الشهير "8001010" بحسب ما ذكرت ?.'Skynews"?

 

وأكد تقرير لوكالة الأسوشيتد برس 01885 0551018460 أن الكثير من خدمات جوجل على أجهزة ?ae? 6 وآندرويد 10 0585 6

 

مواقع المستخدمین» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة.

 

 

Adrian Owen

unread,
Oct 16, 2018, 6:44:57 AM10/16/18
to tesser...@googlegroups.com

Did AUTO improve results?

 

Work from uncompressed e.g. png Try this resize:

 

using (Bitmap large = ResizeImage(png, (int)(png.Width * 3.125), (int)(png.Height * 3.125)))

{

       // Apply filters

       // tess here

 

}

 

public static Bitmap ResizeImage(Image image, int width, int height)

        {

            var destRect = new Rectangle(0, 0, width, height);

            var destImage = new Bitmap(width, height);

 

            destImage.SetResolution(image.HorizontalResolution, image.VerticalResolution);

 

            using (Graphics graphics = Graphics.FromImage(destImage))

            {

               graphics.CompositingMode = CompositingMode.SourceCopy;

                graphics.CompositingQuality = CompositingQuality.AssumeLinear;

                graphics.InterpolationMode = InterpolationMode.HighQualityBilinear;

                graphics.SmoothingMode = SmoothingMode.HighQuality;

                graphics.PixelOffsetMode = PixelOffsetMode.HighQuality;

 

                using (var wrapMode = new ImageAttributes())

                {

                    wrapMode.SetWrapMode(WrapMode.TileFlipXY);

                    graphics.DrawImage(image, destRect, 0, 0, image.Width, image.Height, GraphicsUnit.Pixel, wrapMode);

                }

            }

 

            return destImage;

MariamHi

unread,
Oct 16, 2018, 8:17:08 AM10/16/18
to tesser...@googlegroups.com

AUTO give the same result
I have tried your Resize code and get the same result
My code:
ResizeImage(image, (int)(image.Width * 3.125), (int)(image.Height * 3.125),path); // path to save bitmap image to read it in Pix Leptonica

get_text(path + "image.jpg");

 

 

public void ResizeImage(Image image, int width, int height,string path)

        {

            var destRect = new Rectangle(0, 0, width, height);

            var destImage = new Bitmap(width, height);

 

            destImage.SetResolution(image.HorizontalResolution, image.VerticalResolution);

 

            using (System.Drawing.Graphics graphics = System.Drawing.Graphics.FromImage(destImage))

            {

                graphics.CompositingMode = CompositingMode.SourceCopy;

                graphics.CompositingQuality = CompositingQuality.AssumeLinear;

                graphics.InterpolationMode = InterpolationMode.HighQualityBilinear;

                graphics.SmoothingMode = SmoothingMode.HighQuality;

                graphics.PixelOffsetMode = PixelOffsetMode.HighQuality;

 

                using (var wrapMode = new ImageAttributes())

                {

                    wrapMode.SetWrapMode(WrapMode.TileFlipXY);

                    graphics.DrawImage(image, destRect, 0, 0, image.Width, image.Height, GraphicsUnit.Pixel, wrapMode);

                }

            }

            destImage.Save(path + "image.jpg");

           /// return destImage;

        }

private void get_text(string imageFilePath)

        {

            try

            {

                                string dataPath = ConfigurationManager.AppSettings["DataSet"].ToString();

               string language = "eng+ara";

                OcrEngineMode oem = OcrEngineMode.DEFAULT;

                PageSegmentationMode psm = PageSegmentationMode.AUTO;

                TessBaseAPI tessBaseAPI = new TessBaseAPI(dataPath, language, oem, psm);

                Pix pix = Pix.Read(imageFilePath);

              

               

                pix.XRes = 300;

                pix.YRes = 300;       

                if (pix != null)   

                {

                    tessBaseAPI.SetImage(pix);   

      tessBaseAPI.Recognize();

                    string stringBuilder = tessBaseAPI.GetUTF8Text();

    

                    tessBaseAPI.Dispose();

                    pix.Dispose();

                    textBox2.Text = stringBuilder;

                }

               

            }

            catch (Exception e)

            {

                textBox2.Text = e.Message;

            }

        }

 

Result :

 

 

 

 

 

SimplifiedArabic

 

'جوجل 600916 " يستعد لاقتحام أدمغتثا

 

الاحد 9 سبتمبر 20185

 

الاقتصادية" من الرياض"

 

0

 

هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك 808500 لشركات توفر منتجات مشابهة؟ الأمر

ليس صدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.

 

وساهمت الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضى؛ء مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع

والتطبيقات؛ والتي تكون هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنيات الذكاء الاصطناعي 10161/19600686 [1101018.

 

وبيّنت دراسة صادرة عن باحثين في جامعة "برينستون" الأميركية؛ أن 86 ترصد تحركات ما يزيد عن ملياري شخص حول العالم؛ ممن يستعملون

أجهزة وهواتف تعمل بنظام التشغيل الشهير "800/0010" بحسب ما ذكرت "5/0/061/5".

 

وأكد تقرد بر لوكالة الأسوشيتد برس 00658 855108160؛ أن الكثير من خدمات جوجل على أجهزة آيفون 10110106 وآندرويد 8001010 تخزّن بيانات

 

مواقع المستخدمين» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة.

 

From: Adrian Owen
Sent: Tuesday, October 16, 2018 1:44 PM
To: tesser...@googlegroups.com
Subject: RE: [tesseract-ocr] Multiple Languages

 

Did AUTO improve results?

cid:image001.png@01D46545.A5782410

image001.png

MariamHi

unread,
Oct 16, 2018, 8:19:11 AM10/16/18
to tesser...@googlegroups.com

Result:

 

 

 

 

 

SimplifiedArabic

 

'جوجل 600916 " يستعد لاقتحام أدمغتثا

 

الاحد 9 سبتمبر 20185

 

الاقتصادية" من الرياض"

 

0

 

هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك 808500 لشركات توفر منتجات مشابهة؟ الأمر

ليس صدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.

 

وساهمت الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضى؛ء مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع

والتطبيقات؛ والتي تكون هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنيات الذكاء الاصطناعي 10161/19600686 [1101018.

 

وبيّنت دراسة صادرة عن باحثين في جامعة "برينستون" الأميركية؛ أن 86 ترصد تحركات ما يزيد عن ملياري شخص حول العالم؛ ممن يستعملون

أجهزة وهواتف تعمل بنظام التشغيل الشهير "800/0010" بحسب ما ذكرت "5/0/061/5".

 

وأكد تقرد بر لوكالة الأسوشيتد برس 00658 855108160؛ أن الكثير من خدمات جوجل على أجهزة آيفون 10110106 وآندرويد 8001010 تخزّن بيانات

 

مواقع المستخدمين» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة.

 

From: MariamHi
Sent: Tuesday, October 16, 2018 3:17 PM
To: tesser...@googlegroups.com
Subject: RE: [tesseract-ocr] Multiple Languages

 

AUTO give the same result

image001.png

Adrian Owen

unread,
Oct 16, 2018, 8:44:43 AM10/16/18
to tesser...@googlegroups.com

Are you using the best data: https://github.com/tesseract-ocr/tessdata_best ?

--

You received this message because you are subscribed to the Google Groups "tesseract-ocr" group.
To unsubscribe from this group and stop receiving emails from it, send an email to tesseract-oc...@googlegroups.com.
To post to this group, send email to tesser...@googlegroups.com.
Visit this group at https://groups.google.com/group/tesseract-ocr.

MariamHi

unread,
Oct 16, 2018, 8:45:38 AM10/16/18
to tesser...@googlegroups.com

Yes, using best data

Shree Devi Kumar

unread,
Oct 16, 2018, 8:57:01 AM10/16/18
to tesser...@googlegroups.com
Please try with tessdata_fast

MariamHi

unread,
Oct 21, 2018, 3:10:26 AM10/21/18
to tesseract-ocr
I have tried tessdata_fast, the result in English better but get worse in Arabic


Result :


SimplifiedArabic
?ع?

?ao oe " "? اموه

?جوجا ( ?Google? يستعد لاقتحام أدمغتنا

?الاحد 9 سبتمبر 2018 1

?الاقتصادية" من الزياض"

?و ابه سب

?هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك 001" لشركات توفر منتجات مشابهة؟ الأمر
ليس صدفة» ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.

?وساهمت الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضىء مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع
والتطبيقات» والتي تكون هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنيات الذكاء الاصطناعي ?Artificial intelligence?

?Hales Lule cating? ,عن باحثين في جامعة 'برينستون" الأميركية» أن ©000901 ترصد تحركات ما يزيد عن ملياري شخص حول العالم» ممن يستعملون
أجهزة وهواتف تعمل بنظام التشغيل الشهير "2007010" بحسب ما 183 ?“"Skynews'?

?وأكد تقرير لوكالة الأسوشيتد ?press Guy? أن الكثير من خدمات جوجل على أجهزة ?iPhone cysitl? وآندرويد ?Android? 545 بيانات
مواقع المستخدمين» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة. .
 

On Tuesday, October 16, 2018 at 3:57:01 PM UTC+3, shree wrote:
Please try with tessdata_fast
Reply all
Reply to author
Forward
0 new messages