Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Aufgeblähte PDF-Dokumente platzsparend archivieren

21 views
Skip to first unread message

Tilmann Reh

unread,
Dec 6, 2017, 2:52:04 AM12/6/17
to
Guten Morgen,

ich erhalte immer wieder PDF-Dokumente, die durch eingebettete
Schriftarten und/oder Grafiken völlig unnötig und unsinnig aufgebläht
sind (z.B. 1 MB für ein einseitiges Dokument, dessen Inhalt eigentlich
in 20k passen würde).

Ich würde diese Dokumente gerne platzsparend archivieren - dafür reicht
mir die Reduktion auf schwarz/weiß und das Abspeichern mit
Fax-Kompression, d.h. Textsuche ist nicht nötig. Es geht nur um die
visuelle Archivierung.

Eine s/w mit 300 dpi eingescannte Seite belegt je nach Inhalt meist ca.
40-50k, diese Dateigröße wäre schon durchaus zufriedenstellend.

Ich kann ein solches Ergebnis mit etwas Handarbeit auch durchaus
erreichen: Ausdruck seitenweise in PDFCreator als PNG mit 300 dpi, dann
mit dem Bildbetrachter (z.B. Faststone) umwandeln in s/w und erneuter
Ausdruck als PDF. Gibt es für so etwas vielleicht auch eine fertige,
etwas bequemere Lösung? So eine Art "s/w-300dpi-PDF-Druckertreiber"...

(Eben habe ich noch den Fritz!Fax Druckertreiber getestet, damit kann
man in eine .sff Datei drucken und diese schließlich wieder als PDF
ausgeben - das sind nur noch zwei Schritte und es funktioniert auch mit
mehrseitigen Dokumenten; allerdings leider fix mit 200 dpi, was manchmal
ein wenig knapp ist.)

In Zeiten von DMS könnte es doch evtl. so etwas geben, das beliebige
Dokumente (also auch PDF) einfach als "visuelles Äquivalent" optimal
komprimiert abspeichert...

Hat jemand Tips?

Danke,
Tilmann

frank paulsen

unread,
Dec 6, 2017, 3:43:01 AM12/6/17
to
Tilmann Reh <usenet20...@autometer.de> writes:

> Ich kann ein solches Ergebnis mit etwas Handarbeit auch durchaus
> erreichen: Ausdruck seitenweise in PDFCreator als PNG mit 300 dpi, dann
> mit dem Bildbetrachter (z.B. Faststone) umwandeln in s/w und erneuter
> Ausdruck als PDF. Gibt es für so etwas vielleicht auch eine fertige,
> etwas bequemere Lösung? So eine Art "s/w-300dpi-PDF-Druckertreiber"...

mit ghostscript ungefaehr so:

gs -sDEVICE=pngmonod -r300 -o kleines.png dickes.pdf

einen ghostscript hast du schon irgendwo auf deinem rechner, wenn du
pdfcreator installiert hast :)

--
frobnicate foo

Tilmann Reh

unread,
Dec 6, 2017, 4:09:07 AM12/6/17
to
frank paulsen schrieb:

> Tilmann Reh <usenet20...@autometer.de> writes:
>
>> Ich kann ein solches Ergebnis mit etwas Handarbeit auch durchaus
>> erreichen: Ausdruck seitenweise in PDFCreator als PNG mit 300 dpi, dann
>> mit dem Bildbetrachter (z.B. Faststone) umwandeln in s/w und erneuter
>> Ausdruck als PDF. Gibt es für so etwas vielleicht auch eine fertige,
>> etwas bequemere Lösung? So eine Art "s/w-300dpi-PDF-Druckertreiber"...
>
> mit ghostscript ungefaehr so:
>
> gs -sDEVICE=pngmonod -r300 -o kleines.png dickes.pdf

Danke, das automatisiert den ersten Schritt angenehm. Jedenfalls für ein
einseitiges Dokument...

Kann GS bei mehrseitigen Dokumenten entsprechend viele PNGs erzeugen?
Und wie kriege ich die anschließend wieder in ein gemeinsames, gut
komprimiertes PDF?

Gut möglich, daß das alles mit GS recht einfach geht, aber dafür kenne
ich die ganzen Optionen zu wenig... Also sorry, wenn ich Anfängerfragen
stelle.

Tilmann

frank paulsen

unread,
Dec 6, 2017, 7:02:42 AM12/6/17
to
Tilmann Reh <usenet20...@autometer.de> writes:

> frank paulsen schrieb:
>
>> gs -sDEVICE=pngmonod -r300 -o kleines.png dickes.pdf
>
> Danke, das automatisiert den ersten Schritt angenehm. Jedenfalls für ein
> einseitiges Dokument...

ja. wollte eigentlich nur die idee einbringen.

> Kann GS bei mehrseitigen Dokumenten entsprechend viele PNGs erzeugen?

da wirds kniffliger. fuer bis zu 999 seiten:

gs -sDEVICE=pngmonod -r300 -o kleines%03d.png dickes.pdf

oder man nimmt als output etwas, das mehrere seiten in einer datei
unterstuetzt, zum beispiel das altbekannt TIFF

gs -sDEVICE=tiffg3 -o kleines.tif dickes.pdf

> Und wie kriege ich die anschließend wieder in ein gemeinsames, gut
> komprimiertes PDF?

an der stelle war ich heute frueh noch woanders, denn die antwort ist
leider 'nicht mit GS'.

tatsaechlich mache ich das woanders aus anderen gruenden mit
gdal_translate -of pdf small.tif small.pdf

gdal findet man entweder eh auf seinem rechner, oder irgendwie da:
https://trac.osgeo.org/gdal/wiki/DownloadingGdalBinaries

> Gut möglich, daß das alles mit GS recht einfach geht, aber dafür kenne
> ich die ganzen Optionen zu wenig... Also sorry, wenn ich Anfängerfragen
> stelle.

ich schreibe spaeter noch was dazu, warum ich das eh fuer eine schlechte
idee halt :)

--
frobnicate foo

Axel Berger

unread,
Dec 6, 2017, 3:26:43 PM12/6/17
to
Tilmann Reh wrote:
> Ich würde diese Dokumente gerne platzsparend archivieren

Hast Du schon einmal ps2pdf14.bat von Ghostscript drüberlaufen lassen?
Bei mir macht das bei solchen Dokumenten in aller Regel sehr viel aus.

--
/¯\ No | Dipl.-Ing. F. Axel Berger Tel: +49/ 221/ 7771 8067
\ / HTML | Roald-Amundsen-Straße 2a Fax: +49/ 221/ 7771 8069
 X in | D-50829 Köln-Ossendorf http://berger-odenthal.de
/ \ Mail | -- No unannounced, large, binary attachments, please! --

Tilmann Reh

unread,
Dec 7, 2017, 2:14:50 AM12/7/17
to
Axel Berger schrieb:

> Tilmann Reh wrote:
>> Ich würde diese Dokumente gerne platzsparend archivieren
>
> Hast Du schon einmal ps2pdf14.bat von Ghostscript drüberlaufen lassen?
> Bei mir macht das bei solchen Dokumenten in aller Regel sehr viel aus.

Darüber hatten wir ja neulich schonmal...

Ja, das bringt schon etwas - aber häufig noch nicht "genug" [tm].

Tilmann

...der sich fragt, warum es so viele dermaßen kaputte PDF-Erzeuger gibt
und den Anwendern dieser gewaltige Bläh auch meist vollkommen egal ist...

Michael Unger

unread,
Dec 7, 2017, 1:56:29 PM12/7/17
to
On 2017-12-07 08:14, "Tilmann Reh" wrote:

> [...]
>
> ....der sich fragt, warum es so viele dermaßen kaputte PDF-Erzeuger gibt
> und den Anwendern dieser gewaltige Bläh auch meist vollkommen egal ist...

Mir kommen öfter PDF-Dokumente unter, die von Behörden aus "MS Word
201x" direkt erzeugt wurden; die sind zwar meistens sehr kompakt, auf
eine Einbettung der verwendeten Schriftarten wurde aber "großzügig"
verzichtet.

Der Prospekt "Larca-Sparfestival" [1] ist auch so ein spezieller Fall;
Schriften sind meist gleich mehrfach eingebettet, obwohl die
Zeichensätze sicherlich "konsolidiert" werden könnten. (Angaben darüber,
womit das Dokument erzeugt wurde, konnte ich darin nicht finden.)

Michael


[1]
<http://www.larca.de/sparfestival/shop_sparfestival_download.php?datei=sparfestival_1711>

--
Real names enhance the probability of getting real answers.
My e-mail account at DECUS Munich is no longer valid.

Tilmann Reh

unread,
Dec 8, 2017, 3:31:19 AM12/8/17
to
frank paulsen schrieb:

> Tilmann Reh <usenet20...@autometer.de> writes:
>
>> Kann GS bei mehrseitigen Dokumenten entsprechend viele PNGs erzeugen?
>
> da wirds kniffliger. fuer bis zu 999 seiten:
>
> gs -sDEVICE=pngmonod -r300 -o kleines%03d.png dickes.pdf
>
> oder man nimmt als output etwas, das mehrere seiten in einer datei
> unterstuetzt, zum beispiel das altbekannt TIFF
>
> gs -sDEVICE=tiffg3 -o kleines.tif dickes.pdf

TIFF als Zwischenformat ist durchaus OK (mehrere PNG auch).

>> Und wie kriege ich die anschließend wieder in ein gemeinsames, gut
>> komprimiertes PDF?
>
> an der stelle war ich heute frueh noch woanders, denn die antwort ist
> leider 'nicht mit GS'.
>
> tatsaechlich mache ich das woanders aus anderen gruenden mit
> gdal_translate -of pdf small.tif small.pdf
>
> gdal findet man entweder eh auf seinem rechner, oder irgendwie da:
> https://trac.osgeo.org/gdal/wiki/DownloadingGdalBinaries

Danke, das muß ich mir mal ansehen.

>> Gut möglich, daß das alles mit GS recht einfach geht, aber dafür kenne
>> ich die ganzen Optionen zu wenig... Also sorry, wenn ich Anfängerfragen
>> stelle.
>
> ich schreibe spaeter noch was dazu, warum ich das eh fuer eine schlechte
> idee halt :)

Ich bin gespannt!

Natürlich wäre es mir auch lieber, die PDFs einfach nur von dem ganzen
Bläh zu befreien - aber dazu habe ich noch keinen vernünftigen Weg
gefunden. Die Methodik "ausdrucken und einscannen" in digitaler Form
über Grafikdateien ist definitiv nur eine Notlösung, würde aber in
diesem Fall ausreichen.

Tilmann

Axel Berger

unread,
Dec 8, 2017, 4:08:10 AM12/8/17
to
Tilmann Reh wrote:
> Darüber hatten wir ja neulich schonmal...

Stimmt. Ich hatte auch zuerst auf das Datum geschaut, ob da irgendein
Fehler einen alten Thread zurückkippt. Ich glaube, ps2pdf schmeißt schon
alles raus, was keinen echten Inhalt darstellt. Ob dieser Inhalt einen
Sinn ergibt, entscheidet es nicht. Deine Beschreibung klingt nach großen
Bildern in Briefmarkengröße. Nachträglich herunterskalieren kann von
meinen Tools nur die OCR und die macht aus Texten riesige Dateien, weil
man ihr nicht ausreden kann, B/W PNG in Graustufen JPG umzuwandeln.

Für pathologische Fälle, bei denen die Bildextraktion nicht klappt
(sonst brauche ich es nicht), habe ich noch pdftoppm aus den XPDF Tools
im Arsenal:

pdftoppm.exe -r 200 %d %temp%\%@NAME[%d]

Die riesigen unkomprimierten Bilder müssen dann in einem zweiten Schritt
in ein sinnvolles Format überführt werden.

Tilmann Reh

unread,
Dec 8, 2017, 6:52:15 AM12/8/17
to
Axel Berger schrieb:

> [...] Deine Beschreibung klingt nach großen Bildern in
> Briefmarkengröße.

Meist sind es weniger die Grafiken (die kann ich durch nochmaligen
"Ausdruck" per pdfFactory oder PDFCreator gut herabskalieren), sondern
vielmehr massenhaft ungenutzte eingebettete Fonts - die sich aber auch
nicht einfach ohne Zerstörung der Lesbarkeit entfernen lassen.

> Für pathologische Fälle, bei denen die Bildextraktion nicht klappt
> (sonst brauche ich es nicht), habe ich noch pdftoppm aus den XPDF
> Tools im Arsenal:
>
> pdftoppm.exe -r 200 %d %temp%\%@NAME[%d]
>
> Die riesigen unkomprimierten Bilder müssen dann in einem zweiten
> Schritt in ein sinnvolles Format überführt werden.

Das liefert aber m.E. auch wieder nur seitenweise Bitmaps (in einem
ebenfalls etwas blähenden Format) - hier liegt ja dank GS kein Problem mehr.

Benötigt wäre nun noch ein Weg, daraus (z.B. aus mehreren PNGs oder
einem Mehrseiten-TIFF) wieder effizient komprimierte mehrseitige PDFs zu
erzeugen.

Tilmann

Tilmann Reh

unread,
Dec 8, 2017, 10:40:47 AM12/8/17
to
Martin Τrautmann schrieb:

> On Wed, 6 Dec 2017 08:52:03 +0100, Tilmann Reh wrote:
>> Ich würde diese Dokumente gerne platzsparend archivieren - dafür reicht
>> mir die Reduktion auf schwarz/weiß und das Abspeichern mit
>> Fax-Kompression, d.h. Textsuche ist nicht nötig. Es geht nur um die
>> visuelle Archivierung.
>
> Visuell ist nicht platzsparend.

In diesen Fällen schon. Eine Seite mit wenig Text belegt als s/w Scan
ca. 40 kB - gegenüber z.B. 1 MB Original empfinde ich das durchaus als
"platzsparend".

> Und gerade für die Archivierung ist eine Textsuche wünschenswert.

Aber nicht erforderlich, wenn es nur darum geht, /bei Bedarf/ einmal
nachsehen zu können, was man bekommen hat. Das Auffinden der Dokumente
ist unproblematisch und (auch ohne Textsuche) gewährleistet.

> Meine Empfehlung wäre daher das Gegenteil: pdftotext, Abspeichern als
> reine Textdatei, die evtl. auch noch komprimieren.

Das dürfte vom Nachweischarakter her ungefähr auf das Gleiche
hinauslaufen, als wenn man den Text selbst (ab-)getippt hätte - und ist
damit definitiv unzureichend.

Danke trotzdem,
Tilmann
0 new messages