pulizia di file html

Ammammata

unread,

Jun 1, 2017, 8:42:02 AM6/1/17

to

buon pomeriggio

ho sottomano alcune migliaia di piccoli file html, sostanzialmente con la
stessa struttura, che vorrei pulire e rinominare

pulire:
la parte che mi interessa è una <table> che inizia sempre alla riga 493 e
che finisce... quando finisce: qui devo conservare solo la parte testuale

rinominare:
il nome del file, oltre a numerosi caratteri inutili, contiene un
progressivo che vorrei mantenere al quale aggiungere il testo della riga
499 che ogni tanto va a capo sulla 500; l'estensione infine passerebbe da
html a txt

cosa c'è in giro che possa fare quasi automaticamente questo?

--
/-\ /\/\ /\/\ /-\ /\/\ /\/\ /-\ T /-\
-=- -=- -=- -=- -=- -=- -=- -=- - -=-
>>>>> http://www.bb2002.it :) <<<<<
........... [ al lavoro ] ...........
--
Newsgroup robomoderato - gli articoli vengono approvati automaticamente

ciccio_the_best

unread,

Jun 1, 2017, 11:00:03 AM6/1/17

to

Ammammata <amma...@tiscalinet.it> ha scritto:

> buon pomeriggio
>
> ho sottomano alcune migliaia di piccoli file html, sostanzialmente con la
> stessa struttura, che vorrei pulire e rinominare
>
> pulire:
> la parte che mi interessa è una <table> che inizia sempre alla riga 493 e
> che finisce... quando finisce: qui devo conservare solo la parte testuale
>
> rinominare:
> il nome del file, oltre a numerosi caratteri inutili, contiene un
> progressivo che vorrei mantenere al quale aggiungere il testo della riga
> 499 che ogni tanto va a capo sulla 500; l'estensione infine passerebbe da
> html a txt
>
> cosa c'è in giro che possa fare quasi automaticamente questo?

sed o AWK al bisogno.

Sandro kensan

unread,

Jun 2, 2017, 3:18:02 PM6/2/17

to

On 01/06/2017 14:41, Ammammata wrote:
> buon pomeriggio
>
> ho sottomano alcune migliaia di piccoli file html, sostanzialmente con la
> stessa struttura, che vorrei pulire e rinominare
>
> pulire:
> la parte che mi interessa è una <table> che inizia sempre alla riga 493 e
> che finisce... quando finisce: qui devo conservare solo la parte testuale
>
> rinominare:
> il nome del file, oltre a numerosi caratteri inutili, contiene un
> progressivo che vorrei mantenere al quale aggiungere il testo della riga
> 499 che ogni tanto va a capo sulla 500; l'estensione infine passerebbe da
> html a txt
>
> cosa c'è in giro che possa fare quasi automaticamente questo?

La cosa migliore è uno script php che esamina il DOM in modo da estrarti
la tabella senza errori. Poi se la struttura è fissa puoi andare di
regular expression che però falliscono miseramente se ci sono delle
eccezioni.

--
Sandro kensan www.kensan.it & www.qiqi.it geek site
Saluto gli agenti della NSA - Hello NSA - www.nsa.gov

Ammammata

unread,

Jun 7, 2017, 6:24:02 AM6/7/17

to

Il giorno Fri 02 Jun 2017 09:16:03p, *Sandro kensan* ha inviato su
it.comp.www.html il messaggio news:epdrrj...@mid.individual.net.
Vediamo cosa ha scritto:

> La cosa migliore Ã¨ uno script php che esamina il DOM

The DOM extension allows you to operate on XML documents through the DOM
API with PHP.
Address : <http://php.net/manual/en/intro.dom.php>

qui dice che il DOM è un XML... oppure va bene anche per HTML?

--
/-\ /\/\ /\/\ /-\ /\/\ /\/\ /-\ T /-\
-=- -=- -=- -=- -=- -=- -=- -=- - -=-
>>>>> http://www.bb2002.it :) <<<<<
........... [ al lavoro ] ...........

Alessandro Pellizzari

unread,

Jun 8, 2017, 3:06:02 AM6/8/17

to

On 07/06/17 11:21, Ammammata wrote:

> The DOM extension allows you to operate on XML documents through the DOM
> API with PHP.
> Address : <http://php.net/manual/en/intro.dom.php>
>

> qui dice che il DOM � un XML... oppure va bene anche per HTML?

Un HTML ben formato e` praticamente un XML.

L'estensione DOM per PHP riconosce gran parte dell'HTML, anche non
perfettamente formato, a volte, e infatti ha una funzione loadHTML()

Non supporta pienamente tutte le novita` di HTML5, ma a volte basta
disattivare la segnalazione degli errori e sperare che riconosca tutto.

L'HTML e` una brutta bestia da parsare...

Bye.

Ammammata

unread,

Jun 13, 2017, 10:42:02 AM6/13/17

to

Il giorno Thu 08 Jun 2017 09:01:02a, *Alessandro Pellizzari* ha inviato su
it.comp.www.html il messaggio news:epsb1f...@mid.individual.net.
Vediamo cosa ha scritto:

>
> L'HTML e` una brutta bestia da parsare...
>
>

mi sa che ritornerò al buon vecchio QB così me lo scrivo per benino e son
sicuro che farà proprio quello che voglio :)

--
/-\ /\/\ /\/\ /-\ /\/\ /\/\ /-\ T /-\
-=- -=- -=- -=- -=- -=- -=- -=- - -=-
>>>>> http://www.bb2002.it :) <<<<<
........... [ al lavoro ] ...........

fmig...@gmail.com

unread,

Jun 13, 2017, 1:18:02 PM6/13/17

to

Il giorno martedì 13 giugno 2017 16:42:02 UTC+2, Ammammata ha scritto:
> Il giorno Thu 08 Jun 2017 09:01:02a, *Alessandro Pellizzari* ha inviato su
> it.comp.www.html il messaggio news:epsb1f...@mid.individual.net.
> Vediamo cosa ha scritto:
>
> >
> > L'HTML e` una brutta bestia da parsare...
> >
> >
>
> mi sa che ritornerò al buon vecchio QB così me lo scrivo per benino e son
> sicuro che farà proprio quello che voglio :)

Ma studiati il PHP che per i piccoli script di utilità è perfetto e a differenza di QB è multipiattaforma.

Ti do una traccia*

http://php.net/manual/en/function.opendir.php

http://php.net/manual/en/function.file-get-contents.php

http://php.net/manual/en/function.preg-grep.php

http://php.net/manual/en/function.file-put-contents.php

e un pomeriggio di frustrazione con catarsi finale**.

* Potrai fare uno script in php altrettanto valido senza usare nessuna delle funzioni elencate, il mio è solo un suggerimento.

** Solo se lo script funzionerà senza distruggere l'intero contenuto dell'hd, altrimenti niente catarsi.

Sandro kensan

unread,

Jun 14, 2017, 9:00:02 AM6/14/17

to

On 13/06/2017 16:39, Ammammata wrote:
> Il giorno Thu 08 Jun 2017 09:01:02a, *Alessandro Pellizzari* ha inviato su
> it.comp.www.html il messaggio news:epsb1f...@mid.individual.net.
> Vediamo cosa ha scritto:
>
>>
>> L'HTML e` una brutta bestia da parsare...
>>
>>
>
> mi sa che ritornerò al buon vecchio QB così me lo scrivo per benino e son
> sicuro che farà proprio quello che voglio :)

Io uso spesso le funzioni php per la gestione e la modifica del DOM, il
basic non ti permette questo, ti sconsiglio di fare hack sul file html
per cercare la tua tabella come puoi farlo con il quick basic o con lo
stesso php. Impara a gestire il DOM e non te ne pentirai, non andare di
regular expression.

--
Sandro kensan www.kensan.it & www.qiqi.it geek site
Saluto gli agenti della NSA - Hello NSA - www.nsa.gov

Alessandro Pellizzari

unread,

Jun 14, 2017, 11:18:01 AM6/14/17

to

On 14/06/17 13:55, Sandro kensan wrote:

>> Il giorno Thu 08 Jun 2017 09:01:02a, *Alessandro Pellizzari* ha inviato su
>> it.comp.www.html il messaggio news:epsb1f...@mid.individual.net.
>> Vediamo cosa ha scritto:

>>> L'HTML e` una brutta bestia da parsare...

> Impara a gestire il DOM e non te ne pentirai, non andare di
> regular expression.

Mi rendo conto che il mio commento di chiusura non era molto chiaro. :)

Intendevo dire: non iniziare nemmeno a cercare di parsare HTML. Sara` la
tua morte. Usa qualcosa di gia` pronto e spera che funzioni.

L'alternativa piu` sicura e` forse usare un browser headless tipo
chrome-headless o firefox headless, fargli parsare la pagina e poi
chiedergli il DOM ripulito, ma e` pesantino. :)

Bye.

RedWiz

unread,

Jun 14, 2017, 11:30:02 AM6/14/17

to

Cos'ha secondo te tidy che non va, rispetto ai browser headless?

Alessandro Pellizzari

unread,

Jun 14, 2017, 1:18:02 PM6/14/17

to

On 14/06/17 16:24, RedWiz wrote:

> Il Wed, 14 Jun 2017 16:16:47 +0100, Alessandro Pellizzari ha scritto:

> Cos'ha secondo te tidy che non va, rispetto ai browser headless?

Non uso tidy da un po', ma l'ultima volta "puliva troppo". Toglieva tag
che invece i browser riuscivano a correggere mettendo quello di chiusura
nel posto giusto (o abbastanza vicino).

E all'epoca non supportava alcuni tag HTML5, ma probabilmente hanno
sistemato diverse cose nel frattempo.

A favore dei browser c'e` che vengono seguiti e aggiornati da team molto
numerosi, e sono "costretti" a sOpportare HTML scritto male. :)

Bye.

ciccio_the_best

unread,

Jun 16, 2017, 5:06:02 AM6/16/17

to

Alessandro Pellizzari <shur...@amiran.it> ha scritto:

> On 14/06/17 16:24, RedWiz wrote:
>
> > Il Wed, 14 Jun 2017 16:16:47 +0100, Alessandro Pellizzari ha scritto:
>
> > Cos'ha secondo te tidy che non va, rispetto ai browser headless?
>
> Non uso tidy da un po', ma l'ultima volta "puliva troppo". Toglieva tag
> che invece i browser riuscivano a correggere mettendo quello di chiusura
> nel posto giusto (o abbastanza vicino).
>
> E all'epoca non supportava alcuni tag HTML5, ma probabilmente hanno
> sistemato diverse cose nel frattempo.

Hanno sistemato infatti, tidy supporta tranquillamente l'HTML5.

http://www.html-tidy.org/