Ciao, Carlo
Eh no, si parla espressamente di "..estrarre dal sito Pagine Gialle.."
Ma comunque, anche se quelli pescassero dal cd-rom, non e' quello che volevo
sapere sapere
La mia curiosita' era sul come fare per 'inviare un comando' ad una pagina
html e come fare per 'interpretare' il risultato che verra' restituito,
pensando al fatto che l'uscita potrebbe cambiare (banner, pubblicita', campi
diversi per categorie, ecc..)
Ciao
RobertoA
> Eh no, si parla espressamente di "..estrarre dal sito Pagine Gialle.."
> Ma comunque, anche se quelli pescassero dal cd-rom, non e' quello che
> volevo sapere sapere
> La mia curiosita' era sul come fare per 'inviare un comando' ad una pagina
> html e come fare per 'interpretare' il risultato che verra' restituito,
> pensando al fatto che l'uscita potrebbe cambiare (banner, pubblicita',
> campi diversi per categorie, ecc..)
> Ciao
> RobertoA
(Mazza o non Mazza) Ci sono esempi nei messaggi precedenti.
(es.) oggetto:Re: files html, leggere contenuto inviato il: sabato 21
febbraio 2009 13:52 da: kkkxxx
Oltre ad altri sull stesso "tema"...
http://groups.google.com/group/it.comp.appl.access/browse_thread/thread/75097110c9b2d9f2/b0d6a50cfa0cf51c?lnk=gst&q=mazza+tabella+html#b0d6a50cfa0cf51c
Ciao.
--
Sergio MAZZA
> Il nostro software è in gradi di estrarre "aziende" dal sito di "Pagine
> Gialle" e "Pagine Bianche"
> Basta impostare i criteri della ricerca come ad esempio "abbiagliamento
> bambino + roma"
> Dopo aver premuto invio il software estrae:
> Ragione sociale - Cap - Comune - Provincia - Indirizzo - Tel - Fax - Email
E' più semplice di quanto pensi. Se vai su paginegialle.it e rifai la
ricerca dell'esempio, vedi che l'indirizzo è così composto:
http://www.paginegialle.it/pgol/5-abbigliamento%20bambino/3-roma
dal che si intuisce che se parti dalle stringhe sulla maschera, prima
le converti in entità html, componi l'url ed apri uno stream,
caricando la risposta (che è testo) in una stringa, che si parsa
comodamente.
Questo è il codice html da filtrare in corrispondenza del primo
risultato... non occorrono neppure le regexp per ottenere un csv, o
qualcosa di accodabile ad una tabella:
<div class="client-identifying-pg">
<h3 class="org">Arrigoni Giuseppa Abbigliamento Donna E Bambino</h3>
<div class="fix-float-identifying-pg">
<address>
<p>
<span class="postal-code">00179</span>
<span class="locality">Roma</span>
<span class="region">(RM)</span>
</p>
<p class="street-address">282, VIA LATINA</p>
<p class="tel">
<span class="type">tel: </span>06 7800716</p>
</address>
Anche la riga con indicata la pagina successiva è già pronta per
essere letta ed usata per ricominciare il ciclo dalla pagina 2...
<p class="pagination-changing">1 [... omissis...] a href="http://
www.paginegialle.it/pgol/5-abbigliamento bambino/3-roma/p-2?"
title="successiva">
In pratica ricomponi la stringa che hai usato come URL e appendi /p-
[numeropagina]
Ovviamente se paginegialle.it cambia la struttura delle pagine, il
parsing dovrà essere aggiornato di conseguenza.
> poteva funzionare, perche' in effetti potrebbe essere parecchio utile per
> generare delle liste mirate a certe zone /operatori professionali
Sì, ad es. le agenzie assicurative (abbastanza strutturate)
generalmente sono ghiotte di elenchi come questi.
Ciao