Meinst Du Handschrift? Einige Leute hier versuchen es, Tesseract für
Handschrift zu trainieren.
Grüße
Jeff
Wenn die Ziffern getrennt sind und die Handschrift gleich bleibt, wird
es wahrscheinlich gehen.
Aber nur die Handschrift wird trainiert. Und da man 2 "Sprachen" (i.e.
Deutsch, und Deutsch-Handschrift) nicht mischen kann, wirst Du dann
nur die Handschrift erkennen können, und nicht das maschinell
bedruckte Teil.
Grüße
Jeff
ist eine schlechte Übersetzung, gibt aber meistens den Sinn.
> - Tif Datei mit den handgeschriebenen Ziffern erstellt(0 1 2 3 4 5 6 7
> 8 9)
> - Text Datei erzeugt über --> tesseract datei.tif datei -l deu
> Ich erhalte dann folgende Textdatei: <datei.txt>
> ...
> (nicht erkanntes Zeichen) 32 132 86
> (nicht erkanntes Zeichen) 92 125 136 182
> (nicht erkanntes Zeichen) 199 131 240 178
> (nicht erkanntes Zeichen) 248 125 285 183
> ....
> Auf der Seite http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract
> steht, dass man nun die Datei von datei.txt in datei.box umbenennen
> und bearbeiten soll.
> - Ich habe an die Stelle der nicht erkannten Zeichen, dann die
> dazugehörige Ziffer eingetragen.
>
> Habe ich das bis hierhin richtig verstanden? Wenn ja wie geht es
> weiter?
Ja.
> Dann das letzte Kapitel <Dictionary Data> konnte ich gar nicht
> nachvollziehen.
Tesseract verwendet 3 Wörterbuch Dateien für jede Sprache. Zwei der
Dateien sind codiert als DAWG, und das andere ist eine reine UTF - 8
Textdatei. Um die DAWG Wörterbuch Dateien zu erstellen, benötigt man
zuerst ein Wortliste für Ihre Sprache. Die Wortliste ist formatiert
als UTF - 8 Textdatei mit einem Wort pro Zeile. Teilen Sie der
Wortliste in zwei Gruppen: die häufige Wörter, und der Rest der Worte,
und verwenden Sie dann wordlist2dawg, um die DAWG Dateien zu
erstellen:
wordlist2dawg häufige_Wörter freq-dawg
wordlist2dawg rest_Wörter word-dawg
Die dritte Wörterbuch Datei namens Benutzer Wörter und ist in der Regel leer.
Grüße
Jeff
Except that the point was that he didn't understand the English in the
wiki and needed help.
Regards
Jeff
lang.DangAmbigs muss existieren, kann aber leer sein.
Die letzte Datei
Die letzte Datei, die tesseract verwendet, heißt DangAmbigs. Sie
repräsentiert die inhärenten Mehrdeutigkeit zwischen Zeichen oder
Gruppen von Zeichen, und ist derzeit vollständig manuell generiert. Um
das Format zu verstehen, gucken Sie sich das folgende Beispiel an:
1 m 2 r n
3 i i i 1 m
Das erste Feld steht für die Anzahl der Zeichen in das zweite Feld.
Der 3. Bereich steht für die Anzahl der Zeichen, die im 4. Feld. Wie
bei den anderen Dateien, dies ist ein UTF - 8 Format Datei, und somit
jeder Figur können sich durch mehrere Bytes. Die erste Zeile zeigt,
dass das Paar "rn" kann manchmal falsch erkannt werden als "m". Die
zweite Zeile zeigt, dass das Zeichen "m" kann manchmal als "iii"
falsch erkannt werden. Beachten Sie, dass die Zeichen auf beiden
Seiten sollte in unicharset. Diese Datei kann nicht verwendet werden,
um Zeichen aus einem Set zum anderen.
Die DangAmbigs Datei kann auch leer sein.
> Bad read of inttemp! (mehrmals hintereinander)
> Error: Illegal malloc request size!
> Fatal error: No error trap defined!
> Signal_termination_handler called with signal 2001
> Signal_exit 30 SIGNAL ABORT. LocCode: 3 SignalCode: 3
Ich habe ich keine Ahnung mehr.
Does anybody else know what might cause these errors?
Grüße
Jeff
Grüße
Hoa