I did this but I have Bad recognition for English word .. what is the accuracy for multiple languages and how to improve it ?
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/e11e2821d81343d28488aa9212cceb47%40eesm.com.
Gimp is your friend: https://stackoverflow.com/questions/9480013/image-processing-to-improve-tesseract-ocr-accuracy
If your programming, use KalikoImage library to replicate manual GIMP steps, that’s easy.
I found greyscale didn’t help.
YES: Long line removal (may not apply to you) (OpenCV)
YES: resize to 300DPI
YES: Apply filters
Hope helps, Adrian
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/5bc48a34.1c69fb81.7ab73.0898%40mx.google.com.
When I did pre-processing I get result more bad, the idea is when I recognize document in Arabic I get it almost correct and when I recognize document in English I get it correct but when I recognize document in Arabic+English “Multiple” I get allEnglish word in digits .. how to fix it ?
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/f302c48f782041a5bed69846fda2e032%40eesm.com.
Try changing order: English+Arabic
Any better ?
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/5bc592ca.1c69fb81.a6161.21df%40mx.google.com.
Yes, I tried it the same,
My code is :
string dataPath = ConfigurationManager.AppSettings["DataSet"].ToString();
string language = “eng+ara"; // Tried ara+eng
OcrEngineMode oem = OcrEngineMode.DEFAULT;
PageSegmentationMode psm = PageSegmentationMode.SINGLE_BLOCK;
TessBaseAPI tessBaseAPI = new TessBaseAPI(dataPath, language, oem, psm);
Pix pix = Pix.Read(imageFilePath);
pix.XRes = 300;
pix.YRes = 300;
if (pix != null)
{
tessBaseAPI.SetImage(pix);
tessBaseAPI.Recognize();
string stringBuilder = tessBaseAPI.GetUTF8Text();
textBox2.Text = stringBuilder;
}
My image in attachment
The Result : eng+ara
SimplifiedArabic
1 1 مه 200
?Google ( 15 93? يستعد لاقتحام أدمغتنا
?الاحد 9 سبتمبر 2018 3
?الاقتصادية" من الرياض"
?2 9
?هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك ع لشركات توفر منتجات مشابهة؟ الأمر
لیس صدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.
?وساهمت الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضى؛ مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع
والتطبیقات» والتي تكون هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنیات الذکاء الاصطناعي ?intelligence? 4-
?وبيّنت دراسة صادرة عن باحثين في جامعة 'برينستون" الأميركيةء أن ?Google? ترصد تحرکات ما یزید عن ملياري شخص حول العالم» ممن يستعملون
أجهزة وهواتف تعمل بنظام التشغيل الشهير "8001010" بحسب ما ذكرت ?.'Skynews"?
?وأكد تقرير لوكالة الأسوشيتد برس 016558 0551018160 أن الكثير من خدمات جوجل على أجهزة آيفون 06 وآندرويد ?Android? تخزّن بيانات
مواقع المستخدمین» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة. –
The Result : ara+eng
SimplifiedArabic
200 ao oe 1 1
جو جا 18 9 ?Goo? يستعد لاقتحام أدمغتنا
الاحد 9 سبتمبر 2018
الاقتصادية" من الرياض"
2 9
هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك ع لشركات توفر منتجات مشابهة؟ الأمر
لیس صدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.
وساهمت الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضى؛ مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع
والتطبيقات» والتي تكون هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنيات الذكاء الاصطناعي ?intelligence? 4-
وبيّنت دراسة صادرة عن باحثين في جامعة 'برينستون" الأميركية» أن 6ا6009 ترصد تحركات ما يزيد عن ملياري شخص حول العالم» ممن يستعملون
أجهزة وهواتف تعمل بنظام التشغيل الشهير "8001010" بحسب ما ذكرت ?.'Skynews"?
وأكد تقرير لوكالة الأسوشيتد برس 016558 0551018160 أن الكثير من خدمات جوجل على أجهزة آيفون 06 وآندرويد ?Android? تخزّن بيانات
مواقع المستخدمین» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة. -
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/525df645f8534ca591b1c33fdaa6c027%40eesm.com.
try PageSegmentationMode.AUTO
You may need to enlarge to 300, what’s original DPI?
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/5bc5b85a.1c69fb81.3d75c.a344%40mx.google.com.
I have convert dpi of image by imagemagick to be 300 dpi and try it again with same result.
Resolution :

Result :
SimplifiedArabic
"جوجل 600916 " يستعد لاقتحام أدمغتنا
الاحد 9 سبتمبر 2018
الاقتصادية" من الرياض"
هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك 208000 لشركات توفر منتجات مشابهة؟ الأمر
ليس صدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.
8005 الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضى؛ مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع
والتطبیقات» والتي 05 هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنيات الذكاء الاصطناعي ?Artificial intelligence?
وبيّنت دراسة صادرة ,عن باحثين في جامعة "برينستون" الأميركية؛ ?nas Google uf? تحركات ما يزيد عن ملياري شخص حول العالم» ممن يستعملون
أجهزة وهواتف تعمل بنظام التشغيل الشهير "8001010" بحسب ما ذكرت ?.'Skynews"?
وأكد تقرير لوكالة الأسوشيتد برس 01885 0551018460 أن الكثير من خدمات جوجل على أجهزة ?ae? 6 وآندرويد 10 0585 6
مواقع المستخدمین» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة.
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/7df48cd0a2fd45a9a3365bb174e9743d%40eesm.com.
Did AUTO improve results?
Work from uncompressed e.g. png Try this resize:
using (Bitmap large = ResizeImage(png, (int)(png.Width * 3.125), (int)(png.Height * 3.125)))
{
// Apply filters
// tess here
}
public static Bitmap ResizeImage(Image image, int width, int height)
{
var destRect = new Rectangle(0, 0, width, height);
var destImage = new Bitmap(width, height);
destImage.SetResolution(image.HorizontalResolution, image.VerticalResolution);
using (Graphics graphics = Graphics.FromImage(destImage))
{
graphics.CompositingMode = CompositingMode.SourceCopy;
graphics.CompositingQuality = CompositingQuality.AssumeLinear;
graphics.InterpolationMode = InterpolationMode.HighQualityBilinear;
graphics.SmoothingMode = SmoothingMode.HighQuality;
graphics.PixelOffsetMode = PixelOffsetMode.HighQuality;
using (var wrapMode = new ImageAttributes())
{
wrapMode.SetWrapMode(WrapMode.TileFlipXY);
graphics.DrawImage(image, destRect, 0, 0, image.Width, image.Height, GraphicsUnit.Pixel, wrapMode);
}
}
return destImage;
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/5bc5bdc0.1c69fb81.991b2.a48d%40mx.google.com.
AUTO give the same result
I have tried your Resize code and get the same result
My code:
ResizeImage(image, (int)(image.Width * 3.125), (int)(image.Height * 3.125),path); // path to save bitmap image to read it in Pix Leptonica
get_text(path + "image.jpg");
public void ResizeImage(Image image, int width, int height,string path)
{
var destRect = new Rectangle(0, 0, width, height);
var destImage = new Bitmap(width, height);
destImage.SetResolution(image.HorizontalResolution, image.VerticalResolution);
using (System.Drawing.Graphics graphics = System.Drawing.Graphics.FromImage(destImage))
{
graphics.CompositingMode = CompositingMode.SourceCopy;
graphics.CompositingQuality = CompositingQuality.AssumeLinear;
graphics.InterpolationMode = InterpolationMode.HighQualityBilinear;
graphics.SmoothingMode = SmoothingMode.HighQuality;
graphics.PixelOffsetMode = PixelOffsetMode.HighQuality;
using (var wrapMode = new ImageAttributes())
{
wrapMode.SetWrapMode(WrapMode.TileFlipXY);
graphics.DrawImage(image, destRect, 0, 0, image.Width, image.Height, GraphicsUnit.Pixel, wrapMode);
}
}
destImage.Save(path + "image.jpg");
/// return destImage;
}
private void get_text(string imageFilePath)
{
try
{
string dataPath = ConfigurationManager.AppSettings["DataSet"].ToString();
string language = "eng+ara";
OcrEngineMode oem = OcrEngineMode.DEFAULT;
PageSegmentationMode psm = PageSegmentationMode.AUTO;
TessBaseAPI tessBaseAPI = new TessBaseAPI(dataPath, language, oem, psm);
Pix pix = Pix.Read(imageFilePath);
pix.XRes = 300;
pix.YRes = 300;
if (pix != null)
{
tessBaseAPI.SetImage(pix);
tessBaseAPI.Recognize();
string stringBuilder = tessBaseAPI.GetUTF8Text();
tessBaseAPI.Dispose();
pix.Dispose();
textBox2.Text = stringBuilder;
}
}
catch (Exception e)
{
textBox2.Text = e.Message;
}
}
Result :
SimplifiedArabic
'جوجل 600916 " يستعد لاقتحام أدمغتثا
الاحد 9 سبتمبر 20185
الاقتصادية" من الرياض"
0
هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك 808500 لشركات توفر منتجات مشابهة؟ الأمر
ليس صدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.
وساهمت الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضى؛ء مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع
والتطبيقات؛ والتي تكون هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنيات الذكاء الاصطناعي 10161/19600686 [1101018.
وبيّنت دراسة صادرة عن باحثين في جامعة "برينستون" الأميركية؛ أن 86 ترصد تحركات ما يزيد عن ملياري شخص حول العالم؛ ممن يستعملون
أجهزة وهواتف تعمل بنظام التشغيل الشهير "800/0010" بحسب ما ذكرت "5/0/061/5".
وأكد تقرد بر لوكالة الأسوشيتد برس 00658 855108160؛ أن الكثير من خدمات جوجل على أجهزة آيفون 10110106 وآندرويد 8001010 تخزّن بيانات
مواقع المستخدمين» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة.
From: Adrian Owen
Sent: Tuesday, October 16, 2018 1:44 PM
To: tesser...@googlegroups.com
Subject: RE: [tesseract-ocr] Multiple Languages
Did AUTO improve results?
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/33ae33236f3647f0840762e6a9db7307%40eesm.com.
Result:
SimplifiedArabic
'جوجل 600916 " يستعد لاقتحام أدمغتثا
الاحد 9 سبتمبر 20185
الاقتصادية" من الرياض"
0
هل حدث وأن بحثت عن منتج معين عبر الإنترنت وتفاجأت باقتراحات عديدة لاحقا على حسابك في فيسبوك 808500 لشركات توفر منتجات مشابهة؟ الأمر
ليس صدفة؛ ولكن ذلك يندرج ضمن استراتيجيات يتبناها عمالقة التقنية للتأثير في قراراتنا الشرائية.
وساهمت الشبكة العنكبوتية في جعل عملية جمع بيانات المستخدمين أكثر سهولة من أي وقت مضى؛ء مع ترك هؤلاء لآثارهم الرقمية في العديد من المواقع
والتطبيقات؛ والتي تكون هدفا لشركات التكنولوجيا المدعومة بترسانة من تقنيات الذكاء الاصطناعي 10161/19600686 [1101018.
وبيّنت دراسة صادرة عن باحثين في جامعة "برينستون" الأميركية؛ أن 86 ترصد تحركات ما يزيد عن ملياري شخص حول العالم؛ ممن يستعملون
أجهزة وهواتف تعمل بنظام التشغيل الشهير "800/0010" بحسب ما ذكرت "5/0/061/5".
وأكد تقرد بر لوكالة الأسوشيتد برس 00658 855108160؛ أن الكثير من خدمات جوجل على أجهزة آيفون 10110106 وآندرويد 8001010 تخزّن بيانات
مواقع المستخدمين» حتى وإن قاموا بإيقاف تشغيل خدمات تحديد الموقع الجغرافي بتغيير إعدادات الخصوصية المتوفرة في تلك الأجهزة.
From: MariamHi
Sent: Tuesday, October 16, 2018 3:17 PM
To: tesser...@googlegroups.com
Subject: RE: [tesseract-ocr] Multiple Languages
AUTO give the same result
Are you using the best data: https://github.com/tesseract-ocr/tessdata_best ?
--
You received this message because you are subscribed to the Google Groups "tesseract-ocr" group.
To unsubscribe from this group and stop receiving emails from it, send an email to
tesseract-oc...@googlegroups.com.
To post to this group, send email to
tesser...@googlegroups.com.
Visit this group at https://groups.google.com/group/tesseract-ocr.
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/5bc5d739.1c69fb81.22161.9b2b%40mx.google.com.
Yes, using best data
To view this discussion on the web visit https://groups.google.com/d/msgid/tesseract-ocr/8544a547c2e24c528ac65e3b40a97507%40eesm.com.
Please try with tessdata_fast
Please try with tessdata_fast