Il carattere Form Feed se non ho capito male è quello che si
"vede" come "^L" e nel mio terminale si produce correttamente
con ctrl+v seguito da ctrl+l come hai scritto.
Però quando passo il pdf a pdftotext, quest'ultimo probabilmente
elimina il carattere in questione. O comunque, nel mio documento
in testo semplice, non c'è neanche un form-feed.
Ho tamponato il problema notando che con sed si può limitare
il campo d'azione delle modifiche alle sole righe comprese
tra la riga M e la riga N con un comando del tipo:
sed -n 'M,N{/pattern/p}' testo.txt
Quel comando ad esempio stampa le righe che dalla M alla N
contenengono il "pattern".
Mettendo:
M=1
N=$
Eseguo la stampa di tutte le righe dell'intero documento
che contengono quel pattern. L'opzione -n impedisce la
stampa delle righe che non contengono il pattern.
In questo modo ad esempio posso capire quali sono le righe
da eliminare in tutto il file senza editarlo.
È poi possibile, andando "a tentoni", capire quali valori di M
ed N sono necessari per stampare una successione di righe che
consecutivamente contengono il pattern.
Esempio
N=1
M=$
-----
1
2
3
4
5
6
7
12
3
4
99
8
9
10
11
2
5
1
33
12
13
14
15
----
Questa stampa fatta con sed ci dice che il documento contiene
15 pagine numerate da 1 a 15.
Le righe che contengono i "numeri solitari" che pur contenendo
il pattern (numero solitario) ma rompono la successione da 1 a
15, non sono numerazioni di pagina e dobbiamo preservarle.
Quelle che rispettano la successione invece le dobbiamo rimuovere.
Quindi in prima battuta cerco N e M tali per cui vengono stampate
solo le righe che rispettano la successione, quindi nell'esempio
da 1 a 7.
Dipende da come è fatto il documento... mettiamo che siano
M=1 e N=100
sed -n '1,100{/pattern/p}'
---
1
2
3
4
5
6
7
---
Per cui posso eliminarle effettivamente con lo stesso comando sed,
ma togliendo l'opzione -n e mettendo l'opzione -i che edita il file
e sostituento la "p" con "d" cioè delete line.
sed -i '1,100{/pattern/d}'
questo mi elimina le numerazioni delle pagine da 1 a 7.
Poi modifico M e N per andare ad intercettare la pagina successiva
cioè "8" fino alla "11".
Ovvio che è un lavoro a tentativi perchè non conosco il numero
effettivo della riga da eliminare... Ecco perchè parlavo di "cat -n"
Ad ogni modo grazie per la risposta...
Ciao!
le righe da eliminare