Hier ist der Weg:
- Scan als 600dpi Graustufen, eine Datei pro Seite
- originale Scandatei als TIFF mit ZIP speichern, falls man die mal wieder
brauchen sollte (ja, ich bin von der JBIG2 Muster-"optimierung" gebissen
worden)
- mit "gm convert -normalize -despeckle +dither -type bilevel" das ganze
normalisieren, "entflecken" und auf bilevel dithern
- anschliessed mit tiff_findskew und pnmrotate allfällige Drehungen
korrigieren
- das jetzt vorliegende bilevel TIFF mit G4 komprimieren (tiffcp)
- und zuletzt an tesseract verfüttern, bei der Gelegenheit aus einem
mehrseitigen Dokument das als mehrere Scandateien vorliegt ein End-
dokument machen, das zudem dank OCR den Text als separate Ebene
(in z.B. evince copy-paste-fähig) drin hat und OCR Text zusätzlich
in Textdatei schreiben lassen (wegen Suche mit grep/indexer)
- am Ende
- die Scanrohdaten (als tar)
- das PDF
- die Textdatei
ins git repo werfen, commit & push, in den nächsten 24h aktualisieren
cron jobs die Replikas
Das ganze sind zwei Shellscripte:
- eins zum Scannen, mit Seitennummer als Parameter
- eins für den ganzen obigen Ablauf, mit xmessage popup wenn fertig
Man liest sich,
Alex.
--
"Opportunity is missed by most people because it is dressed in overalls and
looks like work." -- Thomas A. Edison