Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

pulizia di file html

19 views
Skip to first unread message

Ammammata

unread,
Jun 1, 2017, 8:42:02 AM6/1/17
to
buon pomeriggio

ho sottomano alcune migliaia di piccoli file html, sostanzialmente con la
stessa struttura, che vorrei pulire e rinominare

pulire:
la parte che mi interessa è una <table> che inizia sempre alla riga 493 e
che finisce... quando finisce: qui devo conservare solo la parte testuale

rinominare:
il nome del file, oltre a numerosi caratteri inutili, contiene un
progressivo che vorrei mantenere al quale aggiungere il testo della riga
499 che ogni tanto va a capo sulla 500; l'estensione infine passerebbe da
html a txt

cosa c'è in giro che possa fare quasi automaticamente questo?

--
/-\ /\/\ /\/\ /-\ /\/\ /\/\ /-\ T /-\
-=- -=- -=- -=- -=- -=- -=- -=- - -=-
>>>>> http://www.bb2002.it :) <<<<<
........... [ al lavoro ] ...........
--
Newsgroup robomoderato - gli articoli vengono approvati automaticamente

ciccio_the_best

unread,
Jun 1, 2017, 11:00:03 AM6/1/17
to
Ammammata <amma...@tiscalinet.it> ha scritto:

> buon pomeriggio
>
> ho sottomano alcune migliaia di piccoli file html, sostanzialmente con la
> stessa struttura, che vorrei pulire e rinominare
>
> pulire:
> la parte che mi interessa è una <table> che inizia sempre alla riga 493 e
> che finisce... quando finisce: qui devo conservare solo la parte testuale
>
> rinominare:
> il nome del file, oltre a numerosi caratteri inutili, contiene un
> progressivo che vorrei mantenere al quale aggiungere il testo della riga
> 499 che ogni tanto va a capo sulla 500; l'estensione infine passerebbe da
> html a txt
>
> cosa c'è in giro che possa fare quasi automaticamente questo?

sed o AWK al bisogno.

Sandro kensan

unread,
Jun 2, 2017, 3:18:02 PM6/2/17
to
On 01/06/2017 14:41, Ammammata wrote:
> buon pomeriggio
>
> ho sottomano alcune migliaia di piccoli file html, sostanzialmente con la
> stessa struttura, che vorrei pulire e rinominare
>
> pulire:
> la parte che mi interessa è una <table> che inizia sempre alla riga 493 e
> che finisce... quando finisce: qui devo conservare solo la parte testuale
>
> rinominare:
> il nome del file, oltre a numerosi caratteri inutili, contiene un
> progressivo che vorrei mantenere al quale aggiungere il testo della riga
> 499 che ogni tanto va a capo sulla 500; l'estensione infine passerebbe da
> html a txt
>
> cosa c'è in giro che possa fare quasi automaticamente questo?

La cosa migliore è uno script php che esamina il DOM in modo da estrarti
la tabella senza errori. Poi se la struttura è fissa puoi andare di
regular expression che però falliscono miseramente se ci sono delle
eccezioni.

--
Sandro kensan www.kensan.it & www.qiqi.it geek site
Saluto gli agenti della NSA - Hello NSA - www.nsa.gov

Ammammata

unread,
Jun 7, 2017, 6:24:02 AM6/7/17
to
Il giorno Fri 02 Jun 2017 09:16:03p, *Sandro kensan* ha inviato su
it.comp.www.html il messaggio news:epdrrj...@mid.individual.net.
Vediamo cosa ha scritto:

> La cosa migliore è uno script php che esamina il DOM

The DOM extension allows you to operate on XML documents through the DOM
API with PHP.
Address : <http://php.net/manual/en/intro.dom.php>

qui dice che il DOM è un XML... oppure va bene anche per HTML?

--
/-\ /\/\ /\/\ /-\ /\/\ /\/\ /-\ T /-\
-=- -=- -=- -=- -=- -=- -=- -=- - -=-
>>>>> http://www.bb2002.it :) <<<<<
........... [ al lavoro ] ...........

Alessandro Pellizzari

unread,
Jun 8, 2017, 3:06:02 AM6/8/17
to
On 07/06/17 11:21, Ammammata wrote:

> The DOM extension allows you to operate on XML documents through the DOM
> API with PHP.
> Address : <http://php.net/manual/en/intro.dom.php>
>
> qui dice che il DOM � un XML... oppure va bene anche per HTML?

Un HTML ben formato e` praticamente un XML.

L'estensione DOM per PHP riconosce gran parte dell'HTML, anche non
perfettamente formato, a volte, e infatti ha una funzione loadHTML()

Non supporta pienamente tutte le novita` di HTML5, ma a volte basta
disattivare la segnalazione degli errori e sperare che riconosca tutto.

L'HTML e` una brutta bestia da parsare...

Bye.

Ammammata

unread,
Jun 13, 2017, 10:42:02 AM6/13/17
to
Il giorno Thu 08 Jun 2017 09:01:02a, *Alessandro Pellizzari* ha inviato su
it.comp.www.html il messaggio news:epsb1f...@mid.individual.net.
Vediamo cosa ha scritto:

>
> L'HTML e` una brutta bestia da parsare...
>
>

mi sa che ritornerò al buon vecchio QB così me lo scrivo per benino e son
sicuro che farà proprio quello che voglio :)

--
/-\ /\/\ /\/\ /-\ /\/\ /\/\ /-\ T /-\
-=- -=- -=- -=- -=- -=- -=- -=- - -=-
>>>>> http://www.bb2002.it :) <<<<<
........... [ al lavoro ] ...........

fmig...@gmail.com

unread,
Jun 13, 2017, 1:18:02 PM6/13/17
to
Il giorno martedì 13 giugno 2017 16:42:02 UTC+2, Ammammata ha scritto:
> Il giorno Thu 08 Jun 2017 09:01:02a, *Alessandro Pellizzari* ha inviato su
> it.comp.www.html il messaggio news:epsb1f...@mid.individual.net.
> Vediamo cosa ha scritto:
>
> >
> > L'HTML e` una brutta bestia da parsare...
> >
> >
>
> mi sa che ritornerò al buon vecchio QB così me lo scrivo per benino e son
> sicuro che farà proprio quello che voglio :)

Ma studiati il PHP che per i piccoli script di utilità è perfetto e a differenza di QB è multipiattaforma.

Ti do una traccia*

http://php.net/manual/en/function.opendir.php

http://php.net/manual/en/function.file-get-contents.php

http://php.net/manual/en/function.preg-grep.php

http://php.net/manual/en/function.file-put-contents.php

e un pomeriggio di frustrazione con catarsi finale**.


* Potrai fare uno script in php altrettanto valido senza usare nessuna delle funzioni elencate, il mio è solo un suggerimento.

** Solo se lo script funzionerà senza distruggere l'intero contenuto dell'hd, altrimenti niente catarsi.

Sandro kensan

unread,
Jun 14, 2017, 9:00:02 AM6/14/17
to
On 13/06/2017 16:39, Ammammata wrote:
> Il giorno Thu 08 Jun 2017 09:01:02a, *Alessandro Pellizzari* ha inviato su
> it.comp.www.html il messaggio news:epsb1f...@mid.individual.net.
> Vediamo cosa ha scritto:
>
>>
>> L'HTML e` una brutta bestia da parsare...
>>
>>
>
> mi sa che ritornerò al buon vecchio QB così me lo scrivo per benino e son
> sicuro che farà proprio quello che voglio :)

Io uso spesso le funzioni php per la gestione e la modifica del DOM, il
basic non ti permette questo, ti sconsiglio di fare hack sul file html
per cercare la tua tabella come puoi farlo con il quick basic o con lo
stesso php. Impara a gestire il DOM e non te ne pentirai, non andare di
regular expression.
--
Sandro kensan www.kensan.it & www.qiqi.it geek site
Saluto gli agenti della NSA - Hello NSA - www.nsa.gov

Alessandro Pellizzari

unread,
Jun 14, 2017, 11:18:01 AM6/14/17
to
On 14/06/17 13:55, Sandro kensan wrote:

>> Il giorno Thu 08 Jun 2017 09:01:02a, *Alessandro Pellizzari* ha inviato su
>> it.comp.www.html il messaggio news:epsb1f...@mid.individual.net.
>> Vediamo cosa ha scritto:

>>> L'HTML e` una brutta bestia da parsare...

> Impara a gestire il DOM e non te ne pentirai, non andare di
> regular expression.

Mi rendo conto che il mio commento di chiusura non era molto chiaro. :)

Intendevo dire: non iniziare nemmeno a cercare di parsare HTML. Sara` la
tua morte. Usa qualcosa di gia` pronto e spera che funzioni.

L'alternativa piu` sicura e` forse usare un browser headless tipo
chrome-headless o firefox headless, fargli parsare la pagina e poi
chiedergli il DOM ripulito, ma e` pesantino. :)

Bye.

RedWiz

unread,
Jun 14, 2017, 11:30:02 AM6/14/17
to
Cos'ha secondo te tidy che non va, rispetto ai browser headless?

Alessandro Pellizzari

unread,
Jun 14, 2017, 1:18:02 PM6/14/17
to
On 14/06/17 16:24, RedWiz wrote:

> Il Wed, 14 Jun 2017 16:16:47 +0100, Alessandro Pellizzari ha scritto:

> Cos'ha secondo te tidy che non va, rispetto ai browser headless?

Non uso tidy da un po', ma l'ultima volta "puliva troppo". Toglieva tag
che invece i browser riuscivano a correggere mettendo quello di chiusura
nel posto giusto (o abbastanza vicino).

E all'epoca non supportava alcuni tag HTML5, ma probabilmente hanno
sistemato diverse cose nel frattempo.

A favore dei browser c'e` che vengono seguiti e aggiornati da team molto
numerosi, e sono "costretti" a sOpportare HTML scritto male. :)

Bye.

ciccio_the_best

unread,
Jun 16, 2017, 5:06:02 AM6/16/17
to
Alessandro Pellizzari <shur...@amiran.it> ha scritto:

> On 14/06/17 16:24, RedWiz wrote:
>
> > Il Wed, 14 Jun 2017 16:16:47 +0100, Alessandro Pellizzari ha scritto:
>
> > Cos'ha secondo te tidy che non va, rispetto ai browser headless?
>
> Non uso tidy da un po', ma l'ultima volta "puliva troppo". Toglieva tag
> che invece i browser riuscivano a correggere mettendo quello di chiusura
> nel posto giusto (o abbastanza vicino).
>
> E all'epoca non supportava alcuni tag HTML5, ma probabilmente hanno
> sistemato diverse cose nel frattempo.

Hanno sistemato infatti, tidy supporta tranquillamente l'HTML5.

http://www.html-tidy.org/
0 new messages