rimuovere pagine bianche da un pdf

fabrizio venerandi

unread,

Apr 9, 2014, 5:34:58 PM4/9/14

to

qualcuno conosce qualche tool per rimuovere pagine bianche da pdf,
meglio se da terminale?
--
quintadicopertina - editoria digitale - http://www.quintadicopertina.com

Trystero

unread,

Apr 9, 2014, 6:52:59 PM4/9/14

to

fabrizio venerandi <f...@tenexxvanti.com> wrote:

> qualcuno conosce qualche tool per rimuovere pagine bianche da pdf,
> meglio se da terminale?

Anteprima
Apri il PDF, selezioni la pagine nella barra laterale con le miniature,
remi il tasto "canc", poi salvi il file.

fabrizio_venerandi

unread,

Apr 10, 2014, 12:19:33 AM4/10/14

to

> Anteprima
> Apri il PDF, selezioni la pagine nella barra laterale con le miniature,
> remi il tasto "canc", poi salvi il file.

scusatemi, mi ero perso un pezzo del messaggio: in automatico.
Deve rilevare le pagine prive di testo e rimuoverle.

...

unread,

Apr 10, 2014, 12:39:40 AM4/10/14

to

Per lavori del genere uso spesso pdftk e i vari pdf2xxx dove xxx è uno tra
txt, ps, html etc...

Ad esempio puoi fare uno script che indicizzi la prima riga di ogni pagina
del file e poi elimini le pagine con contenuto nullo. Con bash si fa in
poche righe

--
so long, and thanks for all the fish

fabrizio_venerandi

unread,

Apr 10, 2014, 12:51:53 AM4/10/14

to

On 10/04/2014 06:39, ... wrote:

> Ad esempio puoi fare uno script che indicizzi la prima riga di ogni pagina
> del file e poi elimini le pagine con contenuto nullo. Con bash si fa in
> poche righe

ecco, potrebbe essere una idea. cosa intendi per "indicizzare" la prima
riga? con pdftk in genere sposto e aggancio pagine ma non l'ho mai usato
per sapere il contenuto di una pagina.

...

unread,

Apr 10, 2014, 1:44:06 AM4/10/14

to

fabrizio_venerandi <fabrizio_...@none.it> wrote:

> ecco, potrebbe essere una idea. cosa intendi per "indicizzare" la prima
> riga? con pdftk in genere sposto e aggancio pagine ma non l'ho mai usato
> per sapere il contenuto di una pagina.

Per quello puoi ad esempio usare una combinazione di pdftk, pdf2txt,
pdfinfo, cat e read

pdfinfo può dirti il numero totale di pagine (utile per impostare
gl'estremi del ciclo).
pdftk può spezzare il file in un file per pagina. pdf2txt trasforma ogni
singola pagina in testo, così puoi agevolmente leggere la prima riga e
verifica se sia vuota (sostituibile con getpdftext.pl)

Ti metti da parte il risultato e di nuovo con pdftk puoi alternativamente
eliminare le pagine vuote o riassemblare solo quelle piene.

P.S. Eventualmente anziché usare read per leggere la prima riga puoi
passare tutto a tr e verificare l'assenza di caratteri stampabili

Message has been deleted

Andrea D'Amore

unread,

Apr 10, 2014, 3:04:55 AM4/10/14

to

On 2014-04-10 04:19:33 +0000, fabrizio_venerandi said:

> scusatemi, mi ero perso un pezzo del messaggio: in automatico.
> Deve rilevare le pagine prive di testo e rimuoverle.

Cercando "command line detect empty pdf page" con Google il primo risultato è
di dave.frop.net, vedo che ce ne sono anche altri.

--
Andrea

Message has been deleted

...

unread,

Apr 10, 2014, 3:53:58 AM4/10/14

to

f a b r i z i o v e n e r a n d i <fabr...@venerandi.boh> wrote:
> Il 10/04/14 07.44, ... ha scritto:

>
>> pdfinfo può dirti il numero totale di pagine (utile per impostare
>> gl'estremi del ciclo).
>> pdftk può spezzare il file in un file per pagina. pdf2txt trasforma ogni
>> singola pagina in testo, così puoi agevolmente leggere la prima riga e
>> verifica se sia vuota (sostituibile con getpdftext.pl)
>
>

> L'idea è interessante... e se c'è una immagine come si comporta pdf2txt?

Penso venga trasformata in pagina vuota. Se la tua esigenza è mantenere
pagine composte solo da un'immagine, potresti raccogliere tutte le pagine
considerate vuote da pdf2txt e verificare i falsi positivi andando a
controllare la pagina singola originale. Non saprei come 'beccare' le foto,
ma penso qualcosa dalle parti di ImageMagik?

P.S. usando tr identifichi tutte le pagine contenenti solo caratteri non
stampabili. Posto che ogni immagine abbia almeno una didascalia, dovresti
evitare eventuali falsi positivi

Andrea D'Amore

unread,

Apr 10, 2014, 4:48:53 AM4/10/14

to

On 2014-04-10 07:23:56 +0000, f a b r i z i o v e n e r a n d i said:

> ho cercato anche io parecchio, quello che citi non è utilizzabile nel mio caso,
> si tratta di documenti multipagina che devo trattare senza perdita, imagemagick
> nel convertire da pdf ha perdite di qualità troppo significative

Quello serve solo per identificare le pagine, poi le rimuovi con pdfkit.
È una operazione in due passaggi.

--
Andrea