Thomas Kosch schrieb am 09.09.2013 in <
news:1l8y35w.1npyb65kj1veoN%no_...@schuckeduster.org>
> Danke für deine ausführliche Analyse und die Erklärung was da wirklich
> passiert ist.
>
> Warum bekommt so etwas eigentlich Heise nicht hin?
Naja, das ist ja schon ein ziemliches Nischenthema. Und sooo viele Leute
haben nun auch nicht Wissen/Instrumentarium, um tief in ein PDF zu
gucken und die ganzen Implikationen bzgl. Farbräumen/-tiefen und
Kompressionsverfahren zu kennen und erst recht zu begreifen :-)
Mich hat auch erstaunt, dass die durchaus kompetenten Reaktionen auf
Xerox' Verlautbarungen (bspw. die von Kurt Pfeifle in Kommentar 7),
eines der Hauptprobleme (viel zu geringe Auflösung und dann noch der
Versuch, Informationen en masse wegzuschmeißen, denn Umwandlung 200 ppi
8 Bit zu 200 ppi 1 Bit ist genau das -- es geht auch anders, siehe [1])
einfach ignorieren:
http://realbusinessatxerox.blogs.xerox.com/2013/08/07/update-on-scanning-issue-software-patches-to-come/
Ich hab mit dem "Entdecker" des Xerox-Dilemma mittlerweile Kontakt
aufgenommen, mich bisserl abgestimmt und noch hier und da ein wenig
nachgehakt -- bzgl.
http://www.steakbilder.de/dkriesel.com/7535-7pt.pdf
bspw. (ich faul, ich Copy&Paste):
---------------------------------- 8< ----------------------------------
Ich hab mir die Datei 7535-7pt.pdf nochmal angeschaut. Auf jeder Seite
befinden sich zwei Bildobjekte: Ein Graustufenobjekt, das die gesamte
Seite bedeckt (8-Bit) mit niedriger 100 ppi Auflösung und starken
JPEG-Artefakten, so es denn Inhalt enthält (das ist nur auf den Seiten
38, 41, 42, 43 und 78 überhaupt der Fall. Auf allen anderen Seiten ist
das komplett weiß), und ein zweites Bildobjekt, das das, was der Scanner
als schwarzen Text bzw. Vektor-Abbildungen zu erkennen glaubt, in 1 Bit
mit 200 ppi JBIG2-komprimiert enthält. Am Beispiel der Seiten 43 und 78:
Im Hintergrund liegt jeweils:
http://kaiser-edv.de/tmp/gePdoP/7535-7pt-page-43-grayscale.png (100 ppi)
http://kaiser-edv.de/tmp/gePdoP/7535-7pt-page-78-grayscale.png (100 ppi)
Und drüber dann die JBIG2-komprimierte 1-Bit-Ebene:
http://kaiser-edv.de/tmp/gePdoP/7535-7pt-page-43-bitmap.png
http://kaiser-edv.de/tmp/gePdoP/7535-7pt-page-78-bitmap.png
Ich finde das ganz erstaunlich, daß alles, was der Scanner nicht als
Text oder "rein schwarzes Element" zu erkennen meint, sowohl nochmals in
der Auflösung reduziert wird als auch dann noch mit einer happig miesen
JPEG-Kompression versehen wird. Da wird wirklich ohne Not ganz viel an
Qualität verschenkt. Bzw. müssten die Settings entsprechend benannt sein
[...]
Ach ja: Und das Umwandeln eines eh schon eher niedrig aufgelösten
8-Bit-Scans in einen 1-Bit-Scan für relevante Textstellen ist etwas, bei
dem's mir die Schuhe auszieht. Hier wird massiv Qualität verschenkt,
gerade wenn das Ganze wieder auf einem halbwegs aktuellen Laserdrucker
ausgegeben wird.
Hier auch noch eine kleine Bitte. Dieses PDF hier enthält 6 Seiten, die
bzgl. der Qualität der Ausgabe auf einem Workcentre spannend wären:
http://kaiser-edv.de/tmp/gePdoP/7535-zahlenkolonnen-test.pdf
S. 1: aus dem TIFF-Scan übernommen, Graustufen, 200 ppi, JPEG-kodiert
S. 2: aus dem TIFF-Scan übernommen, 1-Bit-Dithering, 400 ppi, JBIG2
lossless
S. 3: aus dem TIFF-Scan übernommen, 1-Bit-Dithering, 600 ppi, JBIG2
lossless
S. 4: aus dem PDF-Scan übernommen, 1-Bit, 200 ppi, JBIG2 lossless
S. 5/6: die obigen Seiten 43 und 78 aus dem original-PDF-Scan, hybrid,
d.h. 1-Bit 200 ppi und 8-Bit 100 ppi
Ich hab das hier mal rausgelassen (Brother-Laser) und qualitativ schlägt
die 600 ppi Variante die Graustufen als auch Xerox-200-ppi-1-Bit-
Variante bei Weitem. Und auf den Seiten 5 und 6 sind aufgrund
unterschiedlicher Aufrasterung die 8-Bit-Teile der Zahlenkolonnen
visuell komplett unterschiedlich.
Wäre spannend, ob das auf 'ner Xerox genauso aussieht...
---------------------------------- >8 ----------------------------------
Gruss,
Thomas
[1] Wenn man 8 Bit Graustufen in 1 Bit s/w umwandelt, dann kann eine
Erhöhung der Auflösung an der Stelle (und jetzt schließt sich der
Kreis, denn das ist ja was, was ich Marcel vorgeschlagen hatte IIRC)
qualitativ deutlich besser machen:
Was macht offenbar Xerox? Links 8 Bit Scan, rechts das Ergebnis von
einer 1:1 Umwandlung nach 1 Bit anhand Methode "Schwellwert" (nach
meiner Meinung lassen die über den Graustufenscan erst 'nen leichten
Weichzeichner, dann eine die Konturen verstärkende sog. Unscharf-
maskierung drüberlaufen, suchen dann zusammenhängende Pixelhaufen,
die schwarz oder "fast schwarz" sind und wandeln die dann einfach
"auf blöd" um in 1 Bit. Dementsprechend Scheize schaut sowas dann
auch aus (links der 8-Bit-Scan, rechts das Ergebnis des Xeroxschen
PDF-Scans, der die Textelemente in 1 Bit umgewandelt hat):
http://kaiser-edv.de/tmp/tSrRF1/Comparison-Grayscale-Bitmap.png
Würde man hingegen diese Erkennungs-Chose noch identisch durchführen
aber dann alles, was Xerox als "rein schwarz" zu erkennen meint,
zwar in 1 Bit umwandeln aber dabei a) die Auflösung aufblasen und b)
im selben Schritt anstatt "Schwellwert" mit Diffusion Dithering
(bspw. Floyd Steinberg) arbeiten, dann sähe das bspw. so aus:
http://kaiser-edv.de/tmp/tSrRF1/Comparison-Grayscale-Bitmap-rasterized.png
Bzw. verkleinert (Papier oder Bildschirm) dann eben so _visuell_
deutlich korrekter:
http://kaiser-edv.de/tmp/tSrRF1/Bildschirmfoto%202013-09-09%20um%2007.46.57.png
Dann hat man eine ausreichend hohe Auflösung der Textelemente, kann
auf diese weiterhin JBIG2-Kompression anwenden (gerne auch lossy,
denn jetzt ist die Gefahr, daß irgendwelche Glyphen überhalb 3 Pt
substitutiert werden, gebannt) *und* hat auch noch visuell ein viel
besseres Ergebnis, speziell bzgl. der Strichstärke der Glyphen (beim
Xerox-Ansatz verfetten kleine Schriften bzw. Grafikelemente durch
die dusselige Schwellwert-basierende 1-Bit-Umwandlung automatisch).
Einziger Nachteil: Sowas ist nicht mehr so brutal bzgl. Dateigröße
eindampfbar (dafür erfüllt es die Anforderung "Reproduktion", das
wofür der Name Xerox früher mal stand. Und jetzt gehen sie evtl. an
dieser dämlichen Implementierung von JBIG2 und 1-Bit-Reduktion
zugrunde, wenn jeder Depp in den USA, der in den letzten Jahren
eines der WorkCentre rumstehen hatte, auf die Idee kommt, Xerox
wegen egal was für angeblich entstandenem Schaden zu verklagen)
Den Effekt kann man auch in oben referenziertem PDF auf den Seiten
2, 3 und 4 nachvollziehen (gerne auch durch Ausdruck bei exakt 100%)
http://kaiser-edv.de/tmp/gePdoP/7535-zahlenkolonnen-test.pdf