Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

OT: Komandozeilenprogramm/Script zur Nachbearbeitung von OCR

1 view
Skip to first unread message

Horst Felder

unread,
Jan 23, 2019, 10:34:30 AM1/23/19
to
Hallo!

Ich habe mehrere hundert Texte gescannt. Nach dem OCR der Scans mit
tesseract-ocr möchte ich noch automatisch die Zeilenumbrüche (LF)
entfernen und getrennte Wörter zusammenfügen (und natürlich den
Trennungsstrich entfernen). Die Absätze sollen aber bestehen bleiben.

Meine Recherchen haben bisher nur ein Libreoffice-Plugin names
Pepito-Cleaner (der scheint aber nur auf Probleme hinzuweisen und
behebt sie nicht automatisch) und das Gnome-Programm gimagereader
zutage gefördert. Letzteres macht bei der Nachbearbeitung des
OCR-Textes genau das was ich will, es kann u.a. die Umbrüche entfernen
(Absätze bleiben bestehen) und die getrennten Wörter wieder
zusammenfügen. Leider kann man das nicht automatisieren.

Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
ähnliche Funktionalität hat (damit ich es in ein Script packen kann)?

--
Mit freundlichen Grüßen
Horst Felder - www.flohheim.de
GNU/Linux; damit ich auch morgen noch vernünftig arbeiten kann!

Axel Berger

unread,
Jan 23, 2019, 11:16:20 AM1/23/19
to
Horst Felder wrote:
> Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
> ähnliche Funktionalität hat (damit ich es in ein Script packen kann)?

Jeder gescheite Editor sollte das können. Mit Kommandozeile aufgerufen
läßt der sich auch in den Ablauf eines Shellscriptes integrieren oder,
oft besser, Du realisierst gleich alles als Editorscript.

--
/¯\ No | Dipl.-Ing. F. Axel Berger Tel: +49/ 221/ 7771 8067
\ / HTML | Roald-Amundsen-Straße 2a Fax: +49/ 221/ 7771 8069
 X in | D-50829 Köln-Ossendorf http://berger-odenthal.de
/ \ Mail | -- No unannounced, large, binary attachments, please! --

Horst Felder

unread,
Jan 24, 2019, 5:42:42 AM1/24/19
to
Hallo Axel!

Axel Berger <Sp...@Berger-Odenthal.De> schrieb:
> Horst Felder wrote:
> > Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
> > ähnliche Funktionalität hat (damit ich es in ein Script packen
> > kann)?
>
> Jeder gescheite Editor sollte das können.

Was nennst du einen »gescheiten Editor«?

> Mit Kommandozeile aufgerufen läßt der sich auch in den Ablauf eines
> Shellscriptes integrieren oder, oft besser, Du realisierst gleich
> alles als Editorscript.

Gibt es ein fertiges Script für diese Aufgabe? Ich möchte nicht in
eine Editorscriptsprache eintauchen, nur um dieses eine Aufgabe zu
lösen…

Gibt es für dieses Problem echt keine fertige Lösung? Ich bin doch
bestimmt nicht der Erste, der gescannte Texte automatisch nach
bearbeiten will…

Axel Berger

unread,
Jan 24, 2019, 6:26:57 PM1/24/19
to
Horst Felder wrote:
> Was nennst du einen »gescheiten Editor«?

Für mich ist das NoteTab pro von http://www.fookes.com/notetab/index.php

Aber jeder Editor, der den Namen verdient, ist makrofähig, deshalb
möchte ich in solchen Kommentaren niemandem eine Vorgabe machen.

> Ich möchte nicht in
> eine Editorscriptsprache eintauchen, nur um dieses eine Aufgabe zu
> lösen…

Du mußt es selbst wissen, aber für mich ist gerade das der
entscheidenden Hauptvorteil von TeX, daß ich mit meinem Editor arbeiten
und sehr vieles automatisieren kann, was ich in Officeprogrammen
mühsamst und einzeln zusammenklicken müßte.

Für ein Exemplar von was auch immer ist es fast immer mühsamer, auf der
Tastatur so lange Parameter zu ändern, bis es paßt, als die Sache mit
der Maus hinzuschieben. Der Vorteil entsteht dann, wenn ich sagen kann
"so, daß ist jetzt optimal -- die nächsten 783 bitte ganz ganz genau so"
und mich entspannt zurücklehen, wenn der Rechner lösrödelt und ins
Schwitzen kommt.

Ich lebe mit meinem Editor, benutze ihn für fast alles und habe die
Mächtigkeit seiner Makrosprachen lieben und verehren gelernt.

> Ich bin doch
> bestimmt nicht der Erste, der gescannte Texte automatisch nach
> bearbeiten will…

Nö, ich mache das mindestens jede Woche. Und ich hasse mich einengende
Fertiglösungen außer als Beispiel, mit dem ich anfangen und das ich nach
meinen Bedürfnissen bearbeiten kann. Mein Editor hat auch eine aktive
und sehr hilfsbereite Usergemeinschaft.

Rolf Niepraschk

unread,
Jan 26, 2019, 6:36:34 AM1/26/19
to
Am 23.01.19 um 16:34 schrieb Horst Felder:
> Hallo!
>
> Ich habe mehrere hundert Texte gescannt. Nach dem OCR der Scans mit
> tesseract-ocr möchte ich noch automatisch die Zeilenumbrüche (LF)
> entfernen und getrennte Wörter zusammenfügen (und natürlich den
> Trennungsstrich entfernen). Die Absätze sollen aber bestehen bleiben.
>
> Meine Recherchen haben bisher nur ein Libreoffice-Plugin names
> Pepito-Cleaner (der scheint aber nur auf Probleme hinzuweisen und
> behebt sie nicht automatisch) und das Gnome-Programm gimagereader
> zutage gefördert. Letzteres macht bei der Nachbearbeitung des
> OCR-Textes genau das was ich will, es kann u.a. die Umbrüche entfernen
> (Absätze bleiben bestehen) und die getrennten Wörter wieder
> zusammenfügen. Leider kann man das nicht automatisieren.
>
> Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
> ähnliche Funktionalität hat (damit ich es in ein Script packen kann)?
>

Das ist sicher eine leichte Aufgabe für »sed«
(https://www.gnu.org/software/sed/). Wenn Du einen kurzen Beispieltext
hier bieten würdest, würde vielleicht jemand, der gerade nichts besseres
zu tun hat, probieren können.

...Rolf

Horst Felder

unread,
Jan 26, 2019, 7:01:24 AM1/26/19
to
Hallo Rolf!

Rolf Niepraschk <Rolf.Ni...@gmx.de> schrieb:
> > Gibt es ein Kommandozeilenprogramm oder ein Shell-Script das eine
> > ähnliche Funktionalität hat (damit ich es in ein Script packen
> > kann)?
>
> Das ist sicher eine leichte Aufgabe für »sed«
> (https://www.gnu.org/software/sed/). Wenn Du einen kurzen
> Beispieltext hier bieten würdest, würde vielleicht jemand, der
> gerade nichts besseres zu tun hat, probieren können.

Ich wollte das Rad nicht neu erfinden… ich war sicher, das es da
schon eine mehr oder fertige Lösung geben würde… war wohl ein Irrtum.

> Wenn Du einen kurzen Beispieltext hier bieten würdest, würde
> vielleicht jemand, der gerade nichts besseres zu tun hat, probieren
> können.

Die Frage habe ich zuerst in de.comp.os.unix.shell gestellt und habe
damit eine Lawine ausgelöst… die diskutieren sich gerade die Köpfe
heiß, wie das zu lösen wäre…

Wenn ich noch etwas warte, kann ich vielleicht dort eine Lösung
abschöpfen…

Trotzdem Danke für das Angebot!

Einen schönen Tag noch!

> ...Rolf

Horst Felder

unread,
Jan 26, 2019, 7:20:28 AM1/26/19
to
Hallo Axel!

Axel Berger <Sp...@Berger-Odenthal.De> schrieb:
> > Was nennst du einen »gescheiten Editor«?
>
> Für mich ist das NoteTab pro von
> http://www.fookes.com/notetab/index.php
>
> Aber jeder Editor, der den Namen verdient, ist makrofähig, deshalb
> möchte ich in solchen Kommentaren niemandem eine Vorgabe machen.

Mein bevorzugter grafischen Editor ist Geany… und der kann mit einem
Plugin auch Makros… ich schau mir das mal an… wenn die Lernkurve
nicht zu steil ist…

Danke für den Tipp!

Axel Berger

unread,
Jan 26, 2019, 11:04:19 AM1/26/19
to
Horst Felder wrote:
> Ich wollte das Rad nicht neu erfinden… ich war sicher, das es da
> schon eine mehr oder fertige Lösung geben würde

> der kann mit einem Plugin auch Makros… ich schau mir das mal
> an… wenn die Lernkurve nicht zu steil ist…

Es lohnt sich auf jeden Fall und Du mußt es ja nur einmal machen. Wenn
man einmal ein kleines Bißchen drinsteckt, dann ist so ein simpler
Dreizeiler für eine bestimmte konkrete Aufgabe um viele Größernordnugen
schneller und müheloser selbst geschrieben, als hunderte irgendwo
verstreut abgelegte Skripte nach dem einen genau passenden zu
durchsuchen -- ganz abgesehen von der Aufgabe dann auch noch dessen
Syntax und Parameter lernen zu müssen. Gute Beschreibungen sind seltener
als Goldstaub.
0 new messages