Quality of Fraktur OCR too bad, any mistake on my side?

99 views
Skip to first unread message

Andreas Groß

unread,
Jul 28, 2021, 12:22:18 PM7/28/21
to tesseract-ocr
I work on Kubuntu 20.04 with gImageReader 3.3.1 () and tesseract 4.1.1
and had installed fracture model with this command

sudo apt-get install tesseract-ocr-script-frak


Now I read attached image and got attached text, which is too bad to be used.

Is this really the expected quality or did I do a mistake in my setup or installation?

Please give me a hint for a solution.

Andreas
outputA-6.txt
outputA-6.jpg

Merlijn B.W. Wajer

unread,
Aug 24, 2021, 12:21:22 AM8/24/21
to tesser...@googlegroups.com, andrea...@gmail.com
Hi Andreas,

Using a newer data file and a newer Tesseract might help - see inline.
Do you know how you ran Tesseract?

This is what I get:

> # tesseract -l deu+Fraktur /tmp/outputA-6.jpg - 2>/dev/null
> Die Wahrheit in der Impfzwangsfrage.”)
>
> Die Theorie bon der Schutzkraft der Impfung
> ftellt ji dar als ein wahrer Rattenkönig bon
> Srrtümern, Trugſchlüſſen, Wberglauben und
> urteilslos gedenteter Tatſachen.
>
> Dr. med. Schreiber.
>
> Wir leben in einem Zeitalter einer neuen Renaiſſance.
> Seitdem Kant durch jeine Kritik der reinen Vernunft unferem
> Denken die richtige Grundlage gegeben, und feitdem vor allem
> die Erkenntnis der Natur- und jpirituellen Wifferihaft uns
>
> . eine Menge neuer, friiher nie geahnter, ja für unmöglich ge
> haltener Tatſachen erſchloſſen hat, jeitdem hat fich unfere ganze
> Anſchauungsweiſe gewaltig geändert, und die Überfommenen,
> wenn auch ſcheinbar Über jeden Zweifel erhabenen Vorſtellungen
> müſſen ſich jet eine erneute Prüfung auf ihre Glaubmwitrdig-
> feit gefallen laffen. Damit ift natürlich eine Bett des Ueber—
> gangs notwendig verbunden, und die Kritik ſtört fo unleug—
> bar gar mande aus ihrer lieben Behaglichkeit auf.
>
> Allein die Kritik, die Prüfung der itberlieferten Begriffe
> auf Die neugewonnene Erfenntnis, ift zur Feſtſtellung der
> Wahrheit und damit zur Förderung des wahren Ullgemein-
> roohles durchaus unerläßlich. Wir dürfen deshalb auch nicht
> gleich vor der Enthitlfung neuer, mern auch ſcheinbar noch fo
> unliebfamer Tatfahen zurüdichreden, falls fie nur vor dem
> Forum der Vernunft und der wahren Wiſſenſchaft ficher be-
> gründet find. Sie tragen in dieſem Falle das Gegermittel gegen
> eine etwaige Gefährdung der gefellfhaftlichen Ordnung immer
> icon wieder in ſich.
>
> Diefe Beit der Gärung und Alärung madt fih nun
>
> gegenmärtig auf allen Gebieten bemerfbar, und es bleibt da—
> von weder Staat noch Kirche, weder Kunjt noch Wiſſenſchaft
> unberühtt.
> *) Diefer Vortrag „Leber Für und Wider den Jupfzwang“ wurde von
> mir in jeinen weſentlichſten Grundzügen auerit im Jahre 1876 in Schmäb.
> Hall im dortigen Gewerbeverein und im Frühjahr 1882 bor einer allgemeinen
> Verſanimlung im Bürgermuſeum in Stuttgart gehalten und erichien im Jahre
>
> 1383 dei Konrad Wittwer-Stuttgart im Buchhandel.

This is using 5.0.0-alpha-20201231 with a Fraktur file contributed by
the OCR-D folks, obtained from here:

https://ub-backup.bib.uni-mannheim.de/~stweil/ocrd-train/data/Fraktur_5000000/tessdata_fast/Fraktur_50000000.334_450937.traineddata

Hope this helps. There might be a newer file, I haven't checked.

If you need to reproduce the exact environment, then clone the
'production' branch here [1], build the docker container and run a shell
to run the command. (The default entry point is not helpful for you, I
think)

Cheers,
Merlijn

[1] https://git.archive.org/www/tesseract/-/tree/production

Andreas Groß

unread,
Aug 24, 2021, 2:34:20 AM8/24/21
to tesseract-ocr
you are right. A better data file does the job well.
I had documented my solution for the problem here:

https://forum.ubuntuusers.de/topic/qualitaet-der-fraktur-ocr-zu-schlecht-ein-fehl/
Reply all
Reply to author
Forward
0 new messages