Re: Scans in durchsuchbare PDF umwandeln - womit?

901 views
Skip to first unread message
Message has been deleted
Message has been deleted
Message has been deleted

Bernd Fröhlich

unread,
Feb 21, 2013, 2:24:56 AM2/21/13
to
Klaus Behrendt <Komfortt...@fahr-zur-hoelle.org> wrote:

> im Rahmen des privaten Dokumentenmanagements sollen Scans (.jpg, stammen
> von einem Canon Lide 70 unter VueScan) in durchsuchbare PDF umgewandelt
> werden, um das Auffinden zu erleichtern.

Vor einiger Zeit hatte ich mal PDFPen ausprobiert.
<http://smilesoftware.com/PDFpen/index.html>
Ich war von dem Ergebnis recht angetan.
Es gibt eine kostenlose Demo zum Testen.

Stefan

unread,
Feb 21, 2013, 7:32:59 AM2/21/13
to
Am 21.02.13 02:24, schrieb Klaus Behrendt:
> Bevor ich nun USD 29,99 in die Vollversion investiere, wozu ich
> grunds�tzlich bereit w�re, m�chte ich Euch fragen, ob und wenn ja welche
> empfehlenswerten Alternativen es gibt.

Ich hab Readiris, da ich das mal mit einem Drucker/Scanner als Zugabe
mitgeliefert bekam. Tut meiner Meinung nach recht gut, aber ich brauch's
nur sporadisch und hab auch keinen Vergleich. Kostet aber rund 100 Euro.
Eine Demoversion kann heruntergeladen werden.
Message has been deleted

Andre Igler

unread,
Feb 26, 2013, 9:12:03 AM2/26/13
to
Am 26.02.13 12:07, schrieb Klaus Behrendt:

> Interessant ist, dass die Dateigrößen der Dokumente nach der Bearbeitung
> deutlich kleiner sind.
Vorher: Pixel
Nachher: Vektor

Was hast Du erwartet? Größere Files?

addio
--
pm <mein vorname> bei <mein nachname> punkt at
www.albinschwarz.com http://weblog.igler.at
Message has been deleted

Thomas Kaiser

unread,
Feb 27, 2013, 8:30:12 AM2/27/13
to
Andre Igler schrieb am 26.02.2013 in <news:ap3u5j...@mid.individual.net>
> Am 26.02.13 12:07, schrieb Klaus Behrendt:
>
>> Interessant ist, dass die Dateigrößen der Dokumente nach der Bearbeitung
>> deutlich kleiner sind.
> Vorher: Pixel
> Nachher: Vektor

Vorher: Pixel, ggf. in Graustufen und mit ggf. nicht allzu grandioser
Kompressionsrate.

Nachher: Nix Vektor (wozu auch?) sondern Buchstaben als durchsuchbarer
Text "vor/hinter" der Bildebene, die nun ggf. anders ist (je nach OCR-
Programm ggf. "bereinigt", d.h. automatisch ausgerichtet und bisserl
geglättet, was sich bei einigen Kompressionsverfahren deutlich bemerkbar
macht, oder heruntergerechnet und/oder in anderem Farbmodell (ggf. 1
Bit) mit je nach gespeicherter PDF-Version ggf. deutlich effizienterer
Kompression (bspw. komprimiert JBIG2 1-Bit-Bilddaten brutal effizient,
kann aber erst ab PDF 1.4 eingesetzt werden)

> Was hast Du erwartet? Größere Files?

Kann auch passieren, kommt ganz auf das OCR-Programm an und was das so
mit der Bildebene anstellt. Für die erkannten Textstellen kommen in
jedem Fall paar Byte hinzu (Anzahl Zeichen mal Faktor x je nachdem wie
effizient die OCR mit Positionierungsinformationen umgeht).

Gruss,

Thomas

Maurice Bonnet

unread,
Sep 7, 2013, 6:24:22 AM9/7/13
to
Hallo,

ich klinke mich hier mal ein ..., da es passt.

Habe seit ein paar Tagen einen iX500 Fujitsu Dokumentenscanner.

Das hier:

<https://itunes.apple.com/de/book/paperless/id520393162?mt=11>

und dieser Bericht:

<http://www.rosenblut.org/2013/06/20/papierloses-buro-fujitsu-scansnap-ix500-ein-absoluter-traum/>

haben zur Entscheidung geführt. Gut funktioniert das WLAN-Scannen für
meinen Home-Office Bereich mit 2 Macs, 2 iPads, 2 iPhones.

Nun zum OCR-Scan:
der mitgelieferte Abbyy FineReader Express for Mac verichtet seinen
Dienst ordentlich. Mir ist aufgefallen, dass dabei m. E. doch recht
große Dateien dabei herauskommen. Ich scanne vor allem DIN A 4
FAchmagazin Artikel (2-3 spaltig, hauptsächlich Text), bei denen beim
PDF pro Seite ca. 500 kB benötigt werden.

Eine Recherche - und jetzt der Bezug zu Thomas' Ausführungen -
verdeutlichte mir, dass der Abbyy FineReader Express für den Mac wohl
"Text hinter Bild" PDFs erzeugt, also letztendlich optisch die Datei 1:1
als Bild darstellt und im Hintergrund auf einem weiteren Layer den
OCR-Text hinterlegt (der wird auch schön durch Spotlight erfasst).

Ich sehe (außer bei der Auflösung Abstriche zu machen) kaum
Möglichkeiten, die Dateigröße zu reduzieren.

ReadIris kann wohl auch "Text über Bild" Dateien erzeugen, bei denen der
Text (als Bild) komplett durch Textzeichen ersetzt wird. Das sollte
deutlich kleinere Dateien ergeben.

Mit dem Acrobat (8er Version) habe ich mal ein paar OCR-Versuche
gemacht, auch mit der Option "Formatierter Text und Grafiken". Da
erhalte ich zwar kleine Dateien, aber das Ergebnis ist nicht
zufriedenstellend, sowohl von der Optik als auch Erkennungsrate.

Meine Fragen:
Gibt es die Möglichkeit, bei Abbyy FineReader Expresse (Mac) eine "Text
über Bild" PDF zu erzeugen? Die Windows Variante kann dies AFAIK. Im
Büro erhalte ich mit Abbyy FineReader (Windows) deutlich kleinere Dateien.

Gibt es neben ReadIris/Acrobat andere OCR Programme für den Mac, die
"Text über Bild" beherrschen?

Ich muss wohl abwägen, ob die wohl auch zukünftig relativ günstig zur
Verfügung stehenden (zunehmenden) Speicherkapazitäten einen weiteren
Aufwand rechtfertigen. Auf den iGadgets ist dies allerdings ein Thema.

Grüße

Maurice
Message has been deleted

Bjoern Seegebarth

unread,
Sep 8, 2013, 4:10:15 AM9/8/13
to
Am 07.09.13 12:24, schrieb Maurice Bonnet:
[…]
> Gibt es neben ReadIris/Acrobat andere OCR Programme für den Mac, die
> "Text über Bild" beherrschen?
> […]

Hi!

Sieh' Dir mal OCRKit an, ist vielleicht was für Dich.

Grüße
Björn

Thomas Kaiser

unread,
Sep 8, 2013, 4:13:33 AM9/8/13
to
Martin Τrautmann schrieb in <news:slrnl2oa4r.2...@ID-685.user.individual.de>
> On Sat, 07 Sep 2013 12:24:22 +0200, Maurice Bonnet wrote:
>> Meine Fragen:
>> Gibt es die Möglichkeit, bei Abbyy FineReader Expresse (Mac) eine
>> "Text über Bild" PDF zu erzeugen? Die Windows Variante kann dies
>> AFAIK. Im Büro erhalte ich mit Abbyy FineReader (Windows) deutlich
>> kleinere Dateien.

Woran auch immer das nun liegt. Bspw. sind die gängigen Bildkompressions-
verfahren deutlich effizienter, wenn das Bild "ruhiger" ist (und das
trifft auf sowohl verlustbehaftete als auch verlustfreie Bilder -- und
nichts sind Scans von Seiten in dem Fall -- zu).

Wenn Du das wirklich vergleichen wolltest, müsstest Du an einem Standort
ein verlustfrei komprimiertes Bild erzeugen (bspw. TIFF) und das dann
mit den beiden ABBYY-Varianten durch die OCR jagen. Und wenn dann was
unterschiedlich ist, muß man ins PDF schauen, warum das so ist (Acrobat
Pro bzw. dessen Preflight-Komponente ist da ganz praktisch)

> Mir ist nicht bekannt, dass es das gäbe, aber würde es auch nicht
> wollen - wo immer ich es sehe ist es durchsetzt mit Artefakten, die
> ausserordentlich hässlich wirken.

Äh, Du hast das also eigentlich noch nie gesehen? Aber da, wo Du es
gesehen hast, wies "es" hässliche Artefakte auf? Hä?

> IMHO sinnvollstes Vorgehen ist
> 1) Scannen mit ausreichender Auflösung
> 2) OCR, Text hinter Bild
> 3) Verringerung der Auflösung
> ... im Idealfall z.B. Text mit 150 dpi BW, Grafiken mit 300 dpi, evtl.
> Farbe, Fotos evtl. mit weiterhin höherer Auflösung und Farbtiefe

Da würde ich aber in jedem Fall intensive Tests voranschicken, je
nachdem, was mit diesen erzeugten PDF in erster Linie geschehen soll.
Wenn auch "elektronisch lesen" das Ziel ist, sehr genau prüfen, wie
Downsampling/Kompression im PDF, die ideale Skalierung beim "Device" [1]
und dessen PDF-Rendering-Komponente zusammenspielen. Sonst gibt's
schnell unnötig Augenbluten.

Gruss,

Thomas

[1] Ich hab mir vor Kurzem ein Onyx BOOX M92 zugelegt, um "echte" PDF
auch streßfrei bei praller Sonne lesen zu können. Davor hatte ich
ein PocketBook Pro 912 in der Reißn, dessen PDF-Renderer so abartig
schlecht ist, daß man damit noch nicht mal normale PDF lesen konnte.
Gescanntes Material in PDF-Format meistern beide Dinger
unterschiedlich gut aber hier kam/kommts in erster Linie auf die
"inneren Werte" des Scanmaterials und Vergrößerungsgrad am eBook-
Reader an. Da muß man sich ggf. hintasten.

Thomas Kaiser

unread,
Sep 8, 2013, 4:22:58 AM9/8/13
to
Bjoern Seegebarth schrieb in <news:522c30e7$0$9518$9b4e...@newsspool1.arcor-online.net>
> Am 07.09.13 12:24, schrieb Maurice Bonnet:
> […]
>> Gibt es neben ReadIris/Acrobat andere OCR Programme für den Mac, die
>> "Text über Bild" beherrschen?
>> […]
>
> Sieh' Dir mal OCRKit an, ist vielleicht was für Dich.

Eventuell wäre für Maurice dann eher ExactSCAN spannend (vom selben
Entwickler, OCRKit enthaltend aber das, was letztlich wirklich
ausschlaggebend ist, nämlich das Optimieren des gescannten Ausgangs-
materials -- Kontrastoptimierung, Ausrichten, ggf. Glätten der Bilddaten
_nach_ OCR: http://www.exactscan.com/de/index.html). Mich würde das auch
interessieren, denn mein Kenntnisstand ist bislang, daß niemand ABBYY
bzgl. OCR-Qualität bislang das Wasser reichen kann. Siehe auch:

https://www.heise.de/artikel-archiv/mi/2013/10/070_Texterkenner

Gruss,

Thomas

Bjoern Seegebarth

unread,
Sep 8, 2013, 4:35:54 AM9/8/13
to
Am 08.09.13 10:22, schrieb Thomas Kaiser:
Hi!

Klingt interessant. Hatte mir OCRKit vor ein paar Jahren mal gekauft,
aber nie mehr nach Neuem umgeguckt.
Gerade bei nicht soo perfekten Scans sind die Ergebnisse nicht 100%
überzeugend.

Grüße
Björn


Thomas Kaiser

unread,
Sep 8, 2013, 5:46:09 AM9/8/13
to
Bjoern Seegebarth schrieb in <news:522c36ea$0$9505$9b4e...@newsspool1.arcor-online.net>
> Klingt interessant. Hatte mir OCRKit vor ein paar Jahren mal gekauft,
> aber nie mehr nach Neuem umgeguckt.

Ich bzw. wir hier gucken ab und an. Und bleiben immer wieder bei ABBYY
hängen (gerade den relativ frischen Finereader Express 8.3 gegen Acrobat
antreten lassen. Dateigröße geringer, Erkennungsqualität deutlich
besser).

Wobei's in den kommerziellen Installationen auf den Hotfolder-tauglichen
Finereader Coporate rausläuft. Der sitzt in einer Windows-VM und wartet
auf die TIFFs oder PDF-Attachments, die vom zentralen Kopierer- bzw.
All-in-One-Monster beim Kunden anfliegen. Bei einem Kunden haben wir
dann noch einen zweiten Automatismus nachgeschalten. Dort sortieren sich
die Leute die OCR-PDFs aus dem Finereader-Ausgabe-Verzeichnis ins
Dateisystem des Servers, wo die dann von einem Skript gepackt werden,
basierend auf der Ablagestruktur dann noch Metadaten angeheftet bekommen
(bspw. die Vorgangsnummer, so 'ne Art Auftragsnummer) und dann basierend
auf 'nem Regelwerk die Bildauflösung innerhalb des PDF reduziert wird
(OCR mit 600 ppi, nachher Reduzierung per Quartz Filter/Automator auf
200 - 300 ppi je nach Verwendungszweck)

Gruss,

Thomas

Maurice Bonnet

unread,
Sep 8, 2013, 9:01:19 AM9/8/13
to
Am 08.09.13 10:10, schrieb Bjoern Seegebarth:
> Sieh' Dir mal OCRKit an, ist vielleicht was für Dich.

Arbeitet wohl auch mit "Text unter Bild".

Prinzipiell ist das Ergenis mit Abbyy FineReader und dem damit
einhergehenden "Text unter Bild" in Ordnung, aber es wird dann
kritischer, wenn ich die PDFs auf dem (Retina)-iPad (mein MBP 15 Zoll
hat noch 1680*1050) anschaue und hochskaliere.

Will ich da bessere Ergebnisse, werden die Dateien noch größer.

Also: werde mir nochmal genau nachdenken, was ich brauche, wo meine
Prioritäten sind:
* exzellente Darstellung (da bräuchte ich Text über Bild)
* 1:1 inhaltliche Darstellung (geht ohne große Prüfung und große
Fehlerkorrektur wohl nur mit "Text unter Bild")
* schnelles Scannen/schneller Workflow
* Dateigröße minimiert
* weitere Nutzung
* ...

Grüße

Maurice

Maurice Bonnet

unread,
Sep 8, 2013, 9:29:59 AM9/8/13
to
Am 08.09.13 10:22, schrieb Thomas Kaiser:
> OCR: http://www.exactscan.com/de/index.html). Mich würde das auch
> interessieren, denn mein Kenntnisstand ist bislang, daß niemand ABBYY
> bzgl. OCR-Qualität bislang das Wasser reichen kann. Siehe auch:
>
> https://www.heise.de/artikel-archiv/mi/2013/10/070_Texterkenner

Habe mir das Testing mal auf eine To-do gesetzt. Da brauche ich aber mal
ein paar Stunden kinderfrei.

Grüße

Maurice

Maurice Bonnet

unread,
Sep 8, 2013, 9:32:22 AM9/8/13
to
Am 08.09.13 11:46, schrieb Thomas Kaiser:
> (OCR mit 600 ppi, nachher Reduzierung per Quartz Filter/Automator auf
> 200 - 300 ppi je nach Verwendungszweck)

Da würden mich mal die Einstellungen des Quartz Filters interessieren.

Grüße

Maurice

Maurice Bonnet

unread,
Sep 8, 2013, 9:34:25 AM9/8/13
to
Am 08.09.13 15:01, schrieb Maurice Bonnet:
> aber es wird dann
> kritischer, wenn ich die PDFs auf dem (Retina)-iPad (mein MBP 15 Zoll
> hat noch 1680*1050) anschaue und hochskaliere.

als Demo:

https://dl.dropboxusercontent.com/u/714145/IMG_0497.PNG

Maurice

Thomas Kaiser

unread,
Sep 8, 2013, 12:11:06 PM9/8/13
to
Maurice Bonnet schrieb in <news:l0hu97$bsl$2...@news.albasani.net>
Naja, ist doch recht egal, was man da einstellt. Da das Quellmaterial,
das aus dem Kopier-Monster kommt (IIRC ein Konica-Minolta bizhub) immer
identische Pixel-Dimensionen hat, einfach im ColorSync-Dienstprogramm
einen entsprechenden Filter einstellen, der von den Pixeln her die
Hälfte (effektive 300 ppi) oder ein Drittel (200 ppi) aufweist. Das
Ganze in eine Automator-Aktion und der Aufruf erfolgt dann mittels
automator(1) (und IIRC Übergabe des Quartz Filters als Variable -- kann
mich aber auch täuschen und das sind zwei verschiedene Automator-Aktionen).

Gruss,

Thomas

Thomas Kaiser

unread,
Sep 8, 2013, 1:18:31 PM9/8/13
to
Maurice Bonnet schrieb in <news:l0hud2$bsl$3...@news.albasani.net>
Ja, da ist "schön" die zu geringe Auflösung, Kantenunschärfe als auch
DCT-Encoding-Artekfakte (vulgo JPEG-Kompression) zu erkennen.

Mir kommt grad ein Abfallprodukt aus 'nem anderen Projekt in den Sinn,
bei dem ich nur die Idee geliefert habe (weil ich mich geweigert hätte,
das so umzusetzen [1])

Du könntest mal probieren, mit eher hoher Auflösung in Graustufen zu
scannen (400 bis 600 ppi, ggf. auch mehr), dann das Bild bisserl autom.
optimieren lassen und es anschl. mittels Floyd-Steinberg Dithering mit
abermals höherer Auflösung aufzurastern, als 1 Bit-Bild umzuspeichern
und idealerweise mit JBIG2-Kompression im PDF zu speichern.

Als Beispiel für die brutale Effizienz von JBIG2: Strichscan von
Notenblatt, 1600 dpi, 1 Bit:

unkomprimiert: 40 MByte
LZW: 1,6 MByte
CCITT Group 4: 600 KByte
JBIG2: 56 KByte

Die Jungs, die das so implementiert hatten (wenngleich bissi anders,
abermals siehe [1]) meinten, dass ein verblüffender Nebeneffekt des
Ganzen neben sehr kompakten Dateigrößen sei, dass die Dokumente unter OS
X und iOS qualitativ extrem hochwertig gerendert würden -- nicht aber so
per se in Acrobat bzw. unter Windows, da käme es extrem auf den exakten
Versionsstand an).

Mal in vergrößert:

- Test1.pdf (3,8 MByte, ca. 400 ppi, Graustufen, JPEG):
http://kaiser-edv.de/tmp/AIowo6/Bildschirmfoto%202013-09-08%20um%2018.43.41.png

- Test.pdf (116K, ca. 200 ppi, Graustufen, JPEG):
http://kaiser-edv.de/tmp/AIowo6/Bildschirmfoto%202013-09-08%20um%2018.40.31.png

- Test Strich + JBIG2.pdf (152 KByte, 4628 x 7016 Pixel, also ca. 850
ppi, Strich d.h. 1 Bit, JBIG2-komprimiert):
http://kaiser-edv.de/tmp/AIowo6/Bildschirmfoto%202013-09-08%20um%2018.38.19.png

Und in der Reihenfolge der Kram von links nach rechts in herunterskaliert:

http://kaiser-edv.de/tmp/AIowo6/Bildschirmfoto%202013-09-08%20um%2018.52.16.png

Die Konvertiererei des Graustufen-Scans könnte man sich mittels
Automator (und Shell-Aktion) automatisieren. ImageMagick wäre wohl das
Tool der Wahl, um

- eine Optimierung des Kontrastverhältnisses zu bewerkstelligen:
http://www.imagemagick.org/script/command-line-options.php#contrast-stretch

- die Auflösung zu erhöhen und gleichzeitig nach 1 Bit zu wandeln
(-dither, -monochrome und -resize oder was auch immer man bei dem
ImageMagick-Ungetüm in dem Moment am besten nimmt, siehe
http://www.imagemagick.org/script/command-line-processing.php#geometry)

Nächste Herausforderung dann, das derlei erzeugte Strichbild JBIG2-
kodiert ins PDF zu bekommen und finalmente nach der OCR immer noch das
hochaufgelöste Strichbild in der Bild-Ebene zu haben (Finereader bspw.
macht dann wieder ein JPEG-komprimiertes Graustufenbild in niedriger
Auflösung draus, Acrobat könnte es in manchen Modi aber dann ist die
OCR-Leistung Scheize oder er stürzt gleich kategorisch ab).

Die Jungs haben den ersten Part über einen netzwerkweit erreichbaren
Distiller erledigt und dann IIRC das Zaubern angefangen (per Acrobat --
man kann die komplette Preflight-Funktionalität am Mac, die Dokumente
nicht wie der Name suggeriert nur prüfen sondern auch ändern kann, über
sogenannte Preflight-Droplets komplett extern nutzen). Irgendwas mit
automatisch Ebenen erstellen, Finereader drauf loslassen, den ganzen
Text auf eine Ebene klatschen lassen und dann die Bildebene wieder
austauschen gegen das hochaufgelöste Bild).

OK, das wird so nix :-)

Gruss,

Thomas

[1] Die Aufgabenstellung entstand aus dem Umstand heraus, dass die dort
aus einem System in PDF-Form Formularkram exportiert bekommen, der
erstmal mit Restriktionen versehen ist (es gibt zwei Sorten von
Paßwörtern in PDF, das eine ist ein Witz, das andere kryptographisch
basiert. Und es geht um Ersteres, das man einfach so wegmachen kann,
siehe [2]). Nachdem PDF ohne Einschränkungen entweder paar k€
gekostet hätte und sie die blöden Security Settings nicht einfach
entfernen wollten, kamen wir dann gemeinsam auf die eigentlich total
blöde Idee, die PDFs aus dem System heraus zu drucken (denn das war
erlaubt). In GhostScript, das den Kram als 400 ppi TIFF ausspuckte,
das dann mittels IM zu einem 1200 ppi Strichbild aufgeblasen wurde,
das dann in PDF verpackt und durch Finereader gejagt wurde (und am
Ende noch die Gaudi mit dem Austausch der Bildebene)

[2] Bspw. so: http://superuser.com/questions/216616/does-pdftk-respect-pdf-security-flags
Message has been deleted

Thomas Kosch

unread,
Sep 8, 2013, 2:56:05 PM9/8/13
to
Thomas Kaiser <Thomas...@phg-online.de> wrote:

> Du könntest mal probieren, mit eher hoher Auflösung in Graustufen zu
> scannen (400 bis 600 ppi, ggf. auch mehr), dann das Bild bisserl autom.
> optimieren lassen und es anschl. mittels Floyd-Steinberg Dithering mit
> abermals höherer Auflösung aufzurastern, als 1 Bit-Bild umzuspeichern
> und idealerweise mit JBIG2-Kompression im PDF zu speichern.

Da währe ich eher vorsichtig nachdem da gerade Xerox mit auf die Fresse
gefallten ist.

http://heise.de/-1930331

ttyl8er, t.k.

--
Life is Xerox, and you're just a copy

Thomas Kaiser

unread,
Sep 8, 2013, 5:27:24 PM9/8/13
to
Thomas Kosch schrieb in <news:1l8wcpl.1yft4njr7dny6N%no_...@schuckeduster.org>
> Thomas Kaiser <Thomas...@phg-online.de> wrote:
>
>> Du könntest mal probieren, mit eher hoher Auflösung in Graustufen zu
>> scannen (400 bis 600 ppi, ggf. auch mehr), dann das Bild bisserl
>> autom. optimieren lassen und es anschl. mittels Floyd-Steinberg
>> Dithering mit abermals höherer Auflösung aufzurastern, als 1 Bit-Bild
>> umzuspeichern und idealerweise mit JBIG2-Kompression im PDF zu
>> speichern.
>
> Da währe ich eher vorsichtig nachdem da gerade Xerox mit auf die Fresse
> gefallten ist.
>
> http://heise.de/-1930331

Drum schrieb ich ja von höherer Auflösung. Wenn Scan zwischen 400 und
600 ppi, dann sollte die 1 Bit-Auflösung mindestens 800 bzw. 1200 ppi
sein. Und dann kann sowas eigentlich nicht passieren. Zumal man ja auch
auf lossless JBIG2-Kompression setzen kann (das ist default in den
Programmen, mit denen ich derlei PDF erzeuge, konkret Acrobat Distiller
oder Acrobats "Optimize PDF"-Feature).

Für Xerox trifft halt schonmal in jedem Fall das da zu:

If a user doesn't trust a JBIG2 vendor to make the critical
decisions necessary for effective lossy or perceptually lossless
compression, lossless would be their safest option.
[...]
Lossy JBIG2, implemented naively by an unqualified vendor, may
significantly degrade image quality. In many document management
applications with record retention policies, such as mortgage
banking and medical fields, lossy JBIG2 coding is problematic and
must be used with caution.
(<http://jbig2.com/jb2com_compression_connection.html>)

Die andere Sache, die ich aber bis eben nicht kapiert habe (und daher
dem Originalartikel auch nicht ganz glauben konnte) ist ja, dass wenn
man weiß, dass JBIG2 *nur* auf 1 Bit-Strichbilder anwendbar ist, man bei
der Betrachtung von Screenshots, auf denen Graustufen (inkl. JPEG-
Artefakten) zu sehen sind, irritiert wird. Dito wenn "TIFF-Scans" auch
JPEG-Artefakte aufweisen (JPEG ist zwar auch ein in TIFF gültiges
Kompressionsverfahren... aber in freier Wildbahn? Hä?)

http://www.dkriesel.com/blog/2013/0802_xerox-workcentres_are_switching_written_numbers_when_scanning

Was Xerox da (Blödes) macht, war mir dann erst nach Blick in den
Original-PDF-Scan und in den TIFF-Scan klar:

http://www.steakbilder.de/dkriesel.com/7535-7pt.pdf
http://www.steakbilder.de/dkriesel.com/7535-zahlenkolonnen-vorher.tif

Die scannen offensichtlich erstmal in Graustufen oder Farbe. Dann haben
sie da einen Algorithmus am Start, der trotz der albern niedrigen
Auflösung von 200 oder 300 ppi rein schwarze Bildstellen erkennen will
und diese dann aus der ursprünglichen Bildebene rauslöst und in ein
1-Bit-Bildobjekt umbettet (im konkreten Fall sogar verdammt viele auf
der Seite platzierte Graustufen- und 1-Bit-Kacheln, die sich überlagern
aber unterschiedliche Bildinhalte haben):

http://kaiser-edv.de/tmp/UbJOAR/Bildschirmfoto%202013-09-08%20um%2022.42.50.png

So, und jetzt wenden sie auf die Graustufenkacheln JPEG als auch ZIP an
(höhö, was auch immer das soll, denn dadurch wird die Dateigröße in der
Regel overhead-bedingt nicht kleiner). Und auf die 1-Bit-Kacheln lassen
sie lossy JBIG2 los. Und das bei einer Auflösung, die *viel* zu niedrig
für so eine Aktion ist.

Abgesehen davon, daß das unter dem Gesichtspunkt der Größenreduktion
eh fraglich ist (ich hab nur stichprobenartig in die PDF-Struktur
geschaut. Aber alle Graustufenobjekte, die ich geprüft habe, waren
komplett weiß. Also überflüssig), entsteht durch Mischmasch von 1 Bit-
und 8-Bit-Elementen im PDF auch wieder visuell evtl. ein Problem: Je
nach PDF-Viewer (oder dann auch Druck-Komponente) wird Strich- und
Graustufen anders dargestellt respektive ausgegeben (gerne auch mal in
Abhängigkeit vom Skalierungsfaktor).

Und dass schließlich die Scan-Möglichkeit "TIFF" zu einem Bild mit
interner JPEG-Kompression führt (mit sichtbaren Artefakten) ist
irgendwie auch unbegreiflich [1]. Wenn ich schlechte Qualität haben
will, dann wähle ich JPEG, wenn ich verlustfreie Kompression haben will,
TIFF. TIFF mit interner JPEG-Kompression ist zwar Teil des aktuellen
TIFF-Standards (aber AFAIK müssen "Basic Reader" JPEG-Kompression nicht
mal unterstützen... und niemand erwartet genau das)

Ich denke, bei Xerox haben sie eher ein ganz massives Problem zwischen
Produktmanagement und Entwicklung, denn was sich bei denen hinter den
Einstellungen versteckt, ist alles weit und breit nicht das, was ein
Anwender erwarten würde.

Gruss,

Thomas

[1] exiftool-Ausgabe zu dem "TIFF-Scan":

File Type : TIFF
MIME Type : image/tiff
Exif Byte Order : Little-endian (Intel, II)
Subfile Type : Single page of multi-page image
Image Width : 1664
Image Height : 2368
Bits Per Sample : 8
Compression : JPEG
Photometric Interpretation : BlackIsZero
Fill Order : Normal
Make : Xerox
Camera Model Name : Xerox WorkCentre 7556
Strip Offsets : 418
Orientation : Horizontal (normal)
Samples Per Pixel : 1
Rows Per Strip : 2368
Strip Byte Counts : 1114275
X Resolution : 200
Y Resolution : 200
Planar Configuration : Chunky
Page Name : Page 1
Resolution Unit : inches
Page Number : 0 0
Software : 0.061.121.08140
Modify Date : 2013:08:02 00:32:53
Host Computer : PowerPC/linux
Target Printer : Xerox Printer
Image Size : 1664x2368

Thomas Kosch

unread,
Sep 9, 2013, 1:33:08 PM9/9/13
to
Danke f�r deine ausf�hrliche Analyse und die Erkl�rung was da wirklich
passiert ist.

Warum bekommt so etwas eigentlich Heise nicht hin?

Thomas Kaiser

unread,
Sep 10, 2013, 2:30:39 PM9/10/13
to
Thomas Kosch schrieb am 09.09.2013 in <news:1l8y35w.1npyb65kj1veoN%no_...@schuckeduster.org>
> Danke für deine ausführliche Analyse und die Erklärung was da wirklich
> passiert ist.
>
> Warum bekommt so etwas eigentlich Heise nicht hin?

Naja, das ist ja schon ein ziemliches Nischenthema. Und sooo viele Leute
haben nun auch nicht Wissen/Instrumentarium, um tief in ein PDF zu
gucken und die ganzen Implikationen bzgl. Farbräumen/-tiefen und
Kompressionsverfahren zu kennen und erst recht zu begreifen :-)

Mich hat auch erstaunt, dass die durchaus kompetenten Reaktionen auf
Xerox' Verlautbarungen (bspw. die von Kurt Pfeifle in Kommentar 7),
eines der Hauptprobleme (viel zu geringe Auflösung und dann noch der
Versuch, Informationen en masse wegzuschmeißen, denn Umwandlung 200 ppi
8 Bit zu 200 ppi 1 Bit ist genau das -- es geht auch anders, siehe [1])
einfach ignorieren:

http://realbusinessatxerox.blogs.xerox.com/2013/08/07/update-on-scanning-issue-software-patches-to-come/

Ich hab mit dem "Entdecker" des Xerox-Dilemma mittlerweile Kontakt
aufgenommen, mich bisserl abgestimmt und noch hier und da ein wenig
nachgehakt -- bzgl. http://www.steakbilder.de/dkriesel.com/7535-7pt.pdf
bspw. (ich faul, ich Copy&Paste):

---------------------------------- 8< ----------------------------------
Ich hab mir die Datei 7535-7pt.pdf nochmal angeschaut. Auf jeder Seite
befinden sich zwei Bildobjekte: Ein Graustufenobjekt, das die gesamte
Seite bedeckt (8-Bit) mit niedriger 100 ppi Auflösung und starken
JPEG-Artefakten, so es denn Inhalt enthält (das ist nur auf den Seiten
38, 41, 42, 43 und 78 überhaupt der Fall. Auf allen anderen Seiten ist
das komplett weiß), und ein zweites Bildobjekt, das das, was der Scanner
als schwarzen Text bzw. Vektor-Abbildungen zu erkennen glaubt, in 1 Bit
mit 200 ppi JBIG2-komprimiert enthält. Am Beispiel der Seiten 43 und 78:

Im Hintergrund liegt jeweils:

http://kaiser-edv.de/tmp/gePdoP/7535-7pt-page-43-grayscale.png (100 ppi)
http://kaiser-edv.de/tmp/gePdoP/7535-7pt-page-78-grayscale.png (100 ppi)

Und drüber dann die JBIG2-komprimierte 1-Bit-Ebene:

http://kaiser-edv.de/tmp/gePdoP/7535-7pt-page-43-bitmap.png
http://kaiser-edv.de/tmp/gePdoP/7535-7pt-page-78-bitmap.png

Ich finde das ganz erstaunlich, daß alles, was der Scanner nicht als
Text oder "rein schwarzes Element" zu erkennen meint, sowohl nochmals in
der Auflösung reduziert wird als auch dann noch mit einer happig miesen
JPEG-Kompression versehen wird. Da wird wirklich ohne Not ganz viel an
Qualität verschenkt. Bzw. müssten die Settings entsprechend benannt sein

[...]

Ach ja: Und das Umwandeln eines eh schon eher niedrig aufgelösten
8-Bit-Scans in einen 1-Bit-Scan für relevante Textstellen ist etwas, bei
dem's mir die Schuhe auszieht. Hier wird massiv Qualität verschenkt,
gerade wenn das Ganze wieder auf einem halbwegs aktuellen Laserdrucker
ausgegeben wird.

Hier auch noch eine kleine Bitte. Dieses PDF hier enthält 6 Seiten, die
bzgl. der Qualität der Ausgabe auf einem Workcentre spannend wären:

http://kaiser-edv.de/tmp/gePdoP/7535-zahlenkolonnen-test.pdf

S. 1: aus dem TIFF-Scan übernommen, Graustufen, 200 ppi, JPEG-kodiert
S. 2: aus dem TIFF-Scan übernommen, 1-Bit-Dithering, 400 ppi, JBIG2
lossless
S. 3: aus dem TIFF-Scan übernommen, 1-Bit-Dithering, 600 ppi, JBIG2
lossless
S. 4: aus dem PDF-Scan übernommen, 1-Bit, 200 ppi, JBIG2 lossless
S. 5/6: die obigen Seiten 43 und 78 aus dem original-PDF-Scan, hybrid,
d.h. 1-Bit 200 ppi und 8-Bit 100 ppi

Ich hab das hier mal rausgelassen (Brother-Laser) und qualitativ schlägt
die 600 ppi Variante die Graustufen als auch Xerox-200-ppi-1-Bit-
Variante bei Weitem. Und auf den Seiten 5 und 6 sind aufgrund
unterschiedlicher Aufrasterung die 8-Bit-Teile der Zahlenkolonnen
visuell komplett unterschiedlich.

Wäre spannend, ob das auf 'ner Xerox genauso aussieht...
---------------------------------- >8 ----------------------------------

Gruss,

Thomas

[1] Wenn man 8 Bit Graustufen in 1 Bit s/w umwandelt, dann kann eine
Erhöhung der Auflösung an der Stelle (und jetzt schließt sich der
Kreis, denn das ist ja was, was ich Marcel vorgeschlagen hatte IIRC)
qualitativ deutlich besser machen:

Was macht offenbar Xerox? Links 8 Bit Scan, rechts das Ergebnis von
einer 1:1 Umwandlung nach 1 Bit anhand Methode "Schwellwert" (nach
meiner Meinung lassen die über den Graustufenscan erst 'nen leichten
Weichzeichner, dann eine die Konturen verstärkende sog. Unscharf-
maskierung drüberlaufen, suchen dann zusammenhängende Pixelhaufen,
die schwarz oder "fast schwarz" sind und wandeln die dann einfach
"auf blöd" um in 1 Bit. Dementsprechend Scheize schaut sowas dann
auch aus (links der 8-Bit-Scan, rechts das Ergebnis des Xeroxschen
PDF-Scans, der die Textelemente in 1 Bit umgewandelt hat):

http://kaiser-edv.de/tmp/tSrRF1/Comparison-Grayscale-Bitmap.png

Würde man hingegen diese Erkennungs-Chose noch identisch durchführen
aber dann alles, was Xerox als "rein schwarz" zu erkennen meint,
zwar in 1 Bit umwandeln aber dabei a) die Auflösung aufblasen und b)
im selben Schritt anstatt "Schwellwert" mit Diffusion Dithering
(bspw. Floyd Steinberg) arbeiten, dann sähe das bspw. so aus:

http://kaiser-edv.de/tmp/tSrRF1/Comparison-Grayscale-Bitmap-rasterized.png

Bzw. verkleinert (Papier oder Bildschirm) dann eben so _visuell_
deutlich korrekter:

http://kaiser-edv.de/tmp/tSrRF1/Bildschirmfoto%202013-09-09%20um%2007.46.57.png

Dann hat man eine ausreichend hohe Auflösung der Textelemente, kann
auf diese weiterhin JBIG2-Kompression anwenden (gerne auch lossy,
denn jetzt ist die Gefahr, daß irgendwelche Glyphen überhalb 3 Pt
substitutiert werden, gebannt) *und* hat auch noch visuell ein viel
besseres Ergebnis, speziell bzgl. der Strichstärke der Glyphen (beim
Xerox-Ansatz verfetten kleine Schriften bzw. Grafikelemente durch
die dusselige Schwellwert-basierende 1-Bit-Umwandlung automatisch).

Einziger Nachteil: Sowas ist nicht mehr so brutal bzgl. Dateigröße
eindampfbar (dafür erfüllt es die Anforderung "Reproduktion", das
wofür der Name Xerox früher mal stand. Und jetzt gehen sie evtl. an
dieser dämlichen Implementierung von JBIG2 und 1-Bit-Reduktion
zugrunde, wenn jeder Depp in den USA, der in den letzten Jahren
eines der WorkCentre rumstehen hatte, auf die Idee kommt, Xerox
wegen egal was für angeblich entstandenem Schaden zu verklagen)

Den Effekt kann man auch in oben referenziertem PDF auf den Seiten
2, 3 und 4 nachvollziehen (gerne auch durch Ausdruck bei exakt 100%)

http://kaiser-edv.de/tmp/gePdoP/7535-zahlenkolonnen-test.pdf

Jörg Wagner

unread,
Sep 10, 2013, 2:45:35 PM9/10/13
to
Thomas Kosch <no_...@schuckeduster.org> wrote:

> Warum bekommt so etwas eigentlich Heise nicht hin?

Weil Usenet die Perle unter den Säuen ist.

Gruß
Jörg

Maurice Bonnet

unread,
Sep 17, 2013, 4:12:41 PM9/17/13
to
Hallo,

Ich habe jetzt mal einen Vergleich zwischen dem Abby FineReader bei der
Arbeit und der Express Version hier auf dem Mac gemacht.

Sind 5 Dokumente:
1) direkt vom Kopierer auf den Rechner gescannt (mit Kopierer, 300dpi) →
dann Abbyy anwenden, 201 kB
2) Fotokopie gezogen, dann diese eingescannt(mit Kopierer, 300 dpi),
Abbyy drauf losgelassen, 182 kB

Fotokopie mit nach Hause:
3) Abbyy Express auf dem Mac mit "automatischen Einstellungen", 502 kB
4) Abbyy Express auf dem Mac mit Einstellung s/w scannen, 314 kB
5) Abbyy Express mit Erhöhung der Kompressionsrate 4 (eine Stufe höher
als Standardeinstellung), 418 kB

https://www.dropbox.com/s/9cv7z5trjvx62kz/Abby%20Test.zip

Die Einstellungen des Abbyys bei der Arbeit kenne ich nicht. Blöd.

Auf alle Fälle wird dort wohl in s/w gescannt.

Die Einstellung bringt es auf dem Mac aber ganz und gar nicht (Bilder
katastrophe).

Ich hätte gerne bessere Bilder als bei der Firmen-Variante und könnte
mir als Output eine Dateigröße so bei 300 kB vorstellen.

Wie bekomme ich Abbyy Express dazu, nur den Text s/w zu scannen, die
Bilder in Graustufen?

Grüße

Maurice

Thomas Kaiser

unread,
Sep 17, 2013, 5:39:21 PM9/17/13
to
Maurice Bonnet schrieb in <news:l1ad3q$vcl$1...@news.albasani.net>
> Ich habe jetzt mal einen Vergleich zwischen dem Abby FineReader bei der
> Arbeit und der Express Version hier auf dem Mac gemacht.

Acrobat Preflight-Berichte für jedes der PDFs hier:

http://kaiser-edv.de/tmp/wYlkJk/

Spannend ist dabei immer das Bildobjekt im PDF. Dessen "Farbtiefe" (8
--> Graustufen, 1 --> Bitmap) und das Kompressionsverfahren (bei 8 Bit
JPEG, bei 1 Bit JBIG2)

> Sind 5 Dokumente:
> 1) direkt vom Kopierer auf den Rechner gescannt (mit Kopierer, 300dpi) →
> dann Abbyy anwenden, 201 kB
> 2) Fotokopie gezogen, dann diese eingescannt(mit Kopierer, 300 dpi),
> Abbyy drauf losgelassen, 182 kB

Beides lausige visuelle Qualität (IMO). 300 ppi, Bitmap und JBIG2:
Erwartungsgemäß kleine Dateigrößen.

Was ich aber spannend finde: Wie sieht die Vorlage (bzw. die Fotokopie)
wirklich aus? Ist das Bild wirklich so grottig aufgerastert? Ich vermute
nein. Und was dort wirklich passiert: Das Bild wird in Graustufen
gescannt, dann läuft ähnlich wie bei Xerox (siehe die Ausführungen hier
im Thread) so 'ne Art Erkennung drüber, was Text und was Bild ist und
dann wird aus dem Graustufenscan heraus eine visuell ätzende Bitmap
erzeugt, bei der Bilder über einen extrem primitiven Dithering
Algorithmus aufgerastert werden.

> Fotokopie mit nach Hause:
> 3) Abbyy Express auf dem Mac mit "automatischen Einstellungen", 502 kB

Graustufen, JPEG, *200* ppi. Weniger Auflösung, mehr Information,
ineffizientere Kompression.

> 4) Abbyy Express auf dem Mac mit Einstellung s/w scannen, 314 kB

Bitmap, 400 ppi, "indizierter Farbraum" (harharr, bei 1 Bit Farbtiefe)
und nicht JBIG2 sondern ZIP (Flatedecode). Zumal wirkt das so, als ob
hier nicht zuerst in Graustufen gescannt und dann nach 1 Bit gewandelt
wurde sondern gleich _falsch_ gescannt wurde.

> 5) Abbyy Express mit Erhöhung der Kompressionsrate 4 (eine Stufe höher
> als Standardeinstellung), 418 kB

Graustufen, 200 ppi, JPEG.

Im Endeffekt vergleichst Du Äpfel mit Birnen bzw. ist es mehr als
spannend, was bei Dir an beiden Lokalitäten *zwischen* Finereader und
dem Scanner geschieht. Sprich: Der Treiber des Scanners und was der an
den Finereader so durchreicht. Davon abgesehen kann es dann natürlich
noch sein, daß der Finereader selbst anders mit dem Ausgangsmaterial
umgeht, je nach Settings und dem, was vom Scanner-Modul (Treiber) kommt.

Jedenfalls ist nach Detailprüfung schon klar, warum die Unterschiede so
drastisch ausfallen. Da wird völlig unterschiedlich gescannt (200, 300,
400 ppi -- und Graustufen vs. Bitmap), kommen unterschiedlichste
Kompressionsverfahren zum Einsatz und im Falle der Windows-Scans ein
wichtiger Zwischenschritt: Scannen in Graustufen, dann intelligentes
Umwandeln in Bitmap und das mittels des hocheffizienten JBIG2-Verfahrens
speichern.

> Die Einstellungen des Abbyys bei der Arbeit kenne ich nicht. Blöd.
>
> Auf alle Fälle wird dort wohl in s/w gescannt.

Glaub ich nicht. Da passiert was Zweistufiges meiner Meinung nach.

> Wie bekomme ich Abbyy Express dazu, nur den Text s/w zu scannen, die
> Bilder in Graustufen?

Gar nicht -- sowas hast Du auch nirgends bei Deinen Ergebnissen (wobei
genau sowas ja geht. Xerox hat ja vorgemacht, wie man damit und zu
geringer Auflösung und dämlicher JBIG2-Anwendung auf die Fresse fallen
kann). Letztlich ist spannend, was bei Dir auf der Arbeit dafür sorgt,
daß aus den Graustufenscans, die der Scanner liefert, eine aufgerasterte
1-Bit-Variante entsteht, die dann im PDF als Bildebene dient.

Auf der Arbeit steht das als Erzeuger im PDF: Producer="ABBYY FineReader
11", bei Dir daheim hingegen: "ScanSnap Manager #iX500 (W)". Und da
liegt wohl auch die Ursache ;-)

Gruss,

Thomas

Thomas Kaiser

unread,
Sep 18, 2013, 5:47:04 AM9/18/13
to
Maurice Bonnet schrieb am 17.09.2013 in <news:l1ad3q$vcl$1...@news.albasani.net>
> 3) Abbyy Express auf dem Mac mit "automatischen Einstellungen", 502 kB
> 4) Abbyy Express auf dem Mac mit Einstellung s/w scannen, 314 kB
> 5) Abbyy Express mit Erhöhung der Kompressionsrate 4 (eine Stufe höher
> als Standardeinstellung), 418 kB

Nachtrag: Welche Version benutzt Du? Ich hab hier die 8.3.393599 (Update
#718/26) und da kann ich nirgends irgendwelche Einstellungen vornehmen.
Laut

https://www.macupdate.com/app/mac/32172/abbyy-finereader-express

gibt's die 8.4 wohl nur noch über den App Store (na wunderbar, da kauft
man den Kram direkt bei denen und ist fortan von der Weiterentwicklung
abgeschnitten, will man nicht wieder für die Vollversion via App Store
blechen -- mal den Support anhauen, was man da machen kann).

Ich hab hier nochmal Tests laufen lassen (Brother MFC 5490CN daheim und
MFC 7360N im Büro -- beide per Ethernet an Fritzbox und vom Mac aus per
WLAN über den Brotherschen TWAIN-Treiber angesprochen). Mit 300 ppi und
Graustufen kommen exzellente Ergebnisse heraus.

Der Finereader erzeugt allerdings am Mac offensichtlich maximal PDF 1.3
(und das ist bzgl. der Kompressionsmöglichkeiten beschränkt: da geht
dann weder JBIG2 noch JPEG2000). Die Bildebene meiner Test-PDFs war
zudem immer ZIP-komprimiert (was bei überwiegend Text auf der Seite und
einem "ruhigen" kontrastreichen Scan bei höherer visueller Qualität auch
noch zu kleineren Dateigrößen im Vergleich zu JPEG führen kann) und die
Erkennungsleistung um Welten besser als die vergleichsweise mit Acrobat
Pro durchgeführten Tests.

Der Clou der Windows-Version dürfte aber sein, daß dort in Graustufen
gescannt wird, dann anschl. das Bild mit einem sehr primitiven Dither-
Algorithmus aufgerastert und in 1 Bit umgewandelt wird und am Ende das
Ganze als PDF 1.5 (JBIG2 geht erst seit PDF 1.4, ab PDF 1.5 kann man
noch zus. Elemente des PDF an sich komprimieren lassen, sog. "Object
Streams") gespeichert wird. Und höchstwahrscheinlich findet die OCR
_vor_ dem Umwandeln nach 1-Bit-Bitmap statt.

Gruss,

Thomas

Maurice Bonnet

unread,
Sep 18, 2013, 5:06:20 PM9/18/13
to
Am 18.09.13 11:47, schrieb Thomas Kaiser:
> Nachtrag: Welche Version benutzt Du? Ich hab hier die 8.3.393599 (Update
> #718/26) und da kann ich nirgends irgendwelche Einstellungen vornehmen.
> Laut

Hier gescannt mit 8.3.341422 718/24

Danke für die 5 Berichte, die mich mir mal anschauen werde.
Interpretation hast du ja schon geliefert. Will trotzdem mal sehen, was
da so alles drinnen steht.

Bei mir ist Abbyy ja beim Erwerb des Scanners dabei gewesen. Deshalb
erscheint wohl auch als Erzeuger ScanSnap Manager.
Abbyy läuft aber auch als Standalone, hat dann aber nicht so viele
Optionen (ScanSnap bietet Konvertierung in Word, Excel und Powerpoint an).

> Mit 300 ppi und
> Graustufen kommen exzellente Ergebnisse heraus.

Ich bin mit dem Ergebnissen visuell und Texterkennung zufrieden. Wie
gesagt: die Dateigröße hätte ich gerne kleiner, gerne auch auf Kosten
der Darstellung der Bilder.

Der Vollständigkeit halber habe ich jetzt noch das OCR durch ExactScan
Pro durchgeführt. Das Scannen ging damit nicht, da der ScanSnap iX500
nicht die Twain-Schnittstelle unterstützt. Habe also mit ScanSnap
Software gescannt (ohne OCR), Einstellung "automatisch" und dann die
Datei ExactScan Pro für OCR übergeben. Ergebnis hier (hat wirklich
abgeschnitten, weiß nicht, ob das ein "Feature" der Demo-Version ist):

https://www.dropbox.com/s/vdgpfd83wl34eqb/ExactScan%20Pro.pdf

Die dazugehörige Vorlage, also der Scan:

https://www.dropbox.com/s/ewk5nnzduzsqy1d/ExactScan%20Prop_Vorlgage.pdf

Nu denn nach deinen Ausführungen:

Abbyy FineReader auf dem Mac ist derzeit auf STand PDF 1.3, womit einige
Optimierungseinschränkungen verbunden sind, die wohl die Windows Version
nutzt.
Die größeren Dateien werde ich wohl verschmerzen können, da
Speicherplatz nicht ein Problem darstellt und wohl auch zukünftig ggf.
durch Wechsel der Festplatte (oder gleich Umstieg auf Fusion DRive mit
Erwerb einer SSD)gut zu lösen sein wird.

Meine Abbyy-Updates kommen über die ScanSnap Updates. Mal schauen, ob
ich darüber ein Update auf 8.4 bekomme. Ein Aktualisierungscheck aus der
Abbyy Software direkr heraus, bringt folgende Meldung bei Abby:

There are no updates currently available for ABBYY Sprint EEMac build
8.3.341422 part#71824

Interessant, da du, Thomas, ja eine scheinbar eine aktuellere Version
benutzt.

Grüße

Maurice

Thomas Kaiser

unread,
Sep 19, 2013, 3:28:27 AM9/19/13
to
Maurice Bonnet schrieb am 18.09.2013 in <news:l1d4ka$4d6$1...@news.albasani.net>
> Am 18.09.13 11:47, schrieb Thomas Kaiser:
>> Nachtrag: Welche Version benutzt Du? Ich hab hier die 8.3.393599
>> (Update #718/26) und da kann ich nirgends irgendwelche Einstellungen
>> vornehmen. Laut
>
> Hier gescannt mit 8.3.341422 718/24
>
> Danke für die 5 Berichte, die mich mir mal anschauen werde.
> Interpretation hast du ja schon geliefert. Will trotzdem mal sehen,
> was da so alles drinnen steht.

Dann kannst Du hier gleich weitermachen. Ist die Ausgabe von Helios'
pdfinfo (nicht zu verwechseln mit XPDF' pdfinfo):

http://kaiser-edv.de/tmp/ppqzom/

Das hat den großen Vorteil, daß es bei platzierten Bildern die Position
(allerdings in PostScript Point) und die ppi ausgibt, so daß einem
Herumwühlen in der PDF-Struktur und Umrechnerei erspart bleibt.

> Bei mir ist Abbyy ja beim Erwerb des Scanners dabei gewesen. Deshalb
> erscheint wohl auch als Erzeuger ScanSnap Manager. Abbyy läuft aber
> auch als Standalone, hat dann aber nicht so viele Optionen (ScanSnap
> bietet Konvertierung in Word, Excel und Powerpoint an).

OK, dann ist klar, wo die auswählbaren Einstellungen herkommen. Wird der
FineReader als eigenständiges Programm denn überhaupt aufgerufen, wenn
Du die OCR aus dem ScanSnap-Dingens anstößt? ABBYY lizensiert ja gerne
einfach ihre OCR-Engine in andere Programme/Produkte hinein.

>> Mit 300 ppi und Graustufen kommen exzellente Ergebnisse heraus.
>
> Ich bin mit dem Ergebnissen visuell und Texterkennung zufrieden. Wie
> gesagt: die Dateigröße hätte ich gerne kleiner, gerne auch auf Kosten
> der Darstellung der Bilder.

Dann wird's schwierig, denn das setzt voraus, daß irgendein Algorithmus
über die Scans flitzt, der _verläßlich_ Text und Bild unterscheiden kann
um im Anschluß die verschiedenen Scaninhalte unterschiedlich zu
bearbeiten. Sowas gibt's in "großen" OCR-Implementierungen (oder wie wir
bei dem Xerox-Debakel gesehen haben auch als ingeneurstechnische Finger-
übung, um abseits OCR Dateikompression bis zur Bildverfälschung zu
betreiben).

Das, was ABBYY unter Windows zu machen scheint, ist übrigens doch nicht
Ergebnis einer solchen Analyse. Die lassen einfach nach der OCR den
Graustufenscan nochmal kontrastoptimieren (damit der Hintergrund
möglichst flächig weiß ist und Fließtext schön schwarz ist) und wandeln
dann nach 1 Bit mittels Dithering um. Die Glyphen bleiben auf dem Weg
klar zu erkennen -- wenngleich irgendwie "rupfig" bzw. ausgefranster als
es sein müsste -- und Bilder werden dadurch grob aufgerastert. Ich
zumindest find diese Variante visuell fürchterlich (bin aber auch
beruflicherweise vorbelastet bzw. komplett versaut, was das Verschenken
von Qualität angeht)

> Der Vollständigkeit halber habe ich jetzt noch das OCR durch ExactScan
> Pro durchgeführt. Das Scannen ging damit nicht, da der ScanSnap iX500
> nicht die Twain-Schnittstelle unterstützt. Habe also mit ScanSnap
> Software gescannt (ohne OCR), Einstellung "automatisch" und dann die
> Datei ExactScan Pro für OCR übergeben. Ergebnis hier (hat wirklich
> abgeschnitten, weiß nicht, ob das ein "Feature" der Demo-Version ist):
>
> https://www.dropbox.com/s/vdgpfd83wl34eqb/ExactScan%20Pro.pdf

*300* ppi, Graustufen, JPEG

> Die dazugehörige Vorlage, also der Scan:
>
> https://www.dropbox.com/s/ewk5nnzduzsqy1d/ExactScan%20Prop_Vorlgage.pdf

*200* ppi, Graustufen, JPEG

Das ist Mist, was da gemacht wurde. Einen 200 ppi Scan JPEG-komprimiert
als Ausgansmaterial nehmen (JPEG-Artefakte sind an der Stelle immer
schlecht), der dann auf 300 ppi aufgeblasen wird (das bedeutet nicht
mehr Qualität sondern weniger, dafür in jedem Fall mehr Dateigröße) und
dann erneute JPEG-Kompression draufloslassen (womit sich dann JPEG-
Artefakte überlagern), bedeutet mit einigem Aufwand die Qualität zu
mindern und die Dateigröße zu erhöhen.

Und zeigt letztlich, daß die beteiligten Komponenten perfekt aufeinander
abgestimmt sein müssen, will man am Ende einen befriedigenden Kompromiß
aus Qualität und Dateigröße.

> Nu denn nach deinen Ausführungen:
>
> Abbyy FineReader auf dem Mac ist derzeit auf STand PDF 1.3, womit
> einige Optimierungseinschränkungen verbunden sind, die wohl die
> Windows Version nutzt.

Nein. Unter Windows findet ein optimaler Umgang mit dem Ausgangsmaterial
statt: 300 ppi Graustufen scannen, Scan optimieren, OCR drauf loslassen,
Textebene in PDF einziehen, anschl. Scan in 1 Bit umwandeln und dann
sehr effizient speichern (erst hier kommt PDF > 1.3 ins Spiel, weil erst
ab PDF 1.4 JBIG2 genutzt werden kann)

Auf dem Mac hast Du diesen optimalen Verarbeitungsweg nicht (warum auch
immer). Zudem scheint die Schnittstelle ScanSnap-Dingens Richtung OCR
nicht optimal zu sein.

> Meine Abbyy-Updates kommen über die ScanSnap Updates. Mal schauen, ob
> ich darüber ein Update auf 8.4 bekomme. Ein Aktualisierungscheck aus der
> Abbyy Software direkr heraus, bringt folgende Meldung bei Abby:
>
> There are no updates currently available for ABBYY Sprint EEMac build
> 8.3.341422 part#71824

Das "Sprint" ist das Spannende. Das ist eine Light-Version, die quasi
nur die Engine enthält. Du hast wohl auch noch FineReader Express
standalone dazugepackt bekommen, das aber wohl auch als Sprint-Version
behandelt wird (Du kannst mir mal die Info.plist aus dem Application
Bundle mailen, dann guck ich da mal rein).

Gruss,

Thomas

kurt.p...@googlemail.com

unread,
Mar 23, 2015, 6:16:08 PM3/23/15
to
Am Sonntag, 8. September 2013 20:56:05 UTC+2 schrieb Thomas Kosch:
> Thomas Kaiser <Thomas...@phg-online.de> wrote:
>
> > Du könntest mal probieren, mit eher hoher Auflösung in Graustufen zu
> > scannen (400 bis 600 ppi, ggf. auch mehr), dann das Bild bisserl autom.
> > optimieren lassen und es anschl. mittels Floyd-Steinberg Dithering mit
> > abermals höherer Auflösung aufzurastern, als 1 Bit-Bild umzuspeichern
> > und idealerweise mit JBIG2-Kompression im PDF zu speichern.
>
> Da währe ich eher vorsichtig nachdem da gerade Xerox mit auf die Fresse
> gefallten ist.
>
> http://heise.de/-1930331

Das BSI hat jetzt JBIG2-Kompression (inkl. der "lossless"-Variante) im Prinzip verboten, wenn es ums "Ersetzende Scannen" geht (dh. rechtssicheres Digitalisieren von Dokumenten mit anschließender Vernichtung der Papieroriginale).

Siehe https://www.bsi.bund.de/DE/Publikationen/TechnischeRichtlinien/tr03138/index_htm.html

Kurt Pfeifle (@pdfkungfoo auf Twitter)

kurt.p...@googlemail.com

unread,
Mar 23, 2015, 6:17:44 PM3/23/15
to
Am Montag, 23. März 2015 23:16:08 UTC+1 schrieb kurt.p...@googlemail.com:
> Am Sonntag, 8. September 2013 20:56:05 UTC+2 schrieb Thomas Kosch:
> > Thomas Kaiser <Thomas...@phg-online.de> wrote:
> >
> > > Du könntest mal probieren, mit eher hoher Auflösung in Graustufen zu
> > > scannen (400 bis 600 ppi, ggf. auch mehr), dann das Bild bisserl autom.
> > > optimieren lassen und es anschl. mittels Floyd-Steinberg Dithering mit
> > > abermals höherer Auflösung aufzurastern, als 1 Bit-Bild umzuspeichern
> > > und idealerweise mit JBIG2-Kompression im PDF zu speichern.
> >
> > Da währe ich eher vorsichtig nachdem da gerade Xerox mit auf die Fresse
> > gefallten ist.
> >
> > http://heise.de/-1930331
>
> Das BSI hat jetzt JBIG2-Kompression (inkl. der "lossless"-Variante) im Prinzip verboten, wenn es ums "Ersetzende Scannen" geht (dh. rechtssicheres Digitalisieren von Dokumenten mit anschließender Vernichtung der Papieroriginale).
>
> Siehe https://www.bsi.bund.de/DE/Publikationen/TechnischeRichtlinien/tr03138/index_htm.html

Haupt-"Schuldiger" daran vermutlich: https://media.ccc.de/browse/congress/2014/31c3_-_6558_-_de_-_saal_g_-_201412282300_-_traue_keinem_scan_den_du_nicht_selbst_gefalscht_hast_-_david_kriesel.html
Reply all
Reply to author
Forward
0 new messages