Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Db Extractor - per Pagine Gialle

346 views
Skip to first unread message

RobertoA

unread,
Mar 26, 2009, 4:34:11 AM3/26/09
to
Non c'entra una mazza con Access, pero' il fatto che ci sia un 'Db
Extractor' diciamo che mi autorizza di striscio a postare qua
Allora, mi arriva stamattina in mezzo alla solita immondizia 'sto messaggio
qua
------------------------------------
Il nostro software č in gradi di estrarre "aziende" dal sito di "Pagine
Gialle" e "Pagine Bianche"
Basta impostare i criteri della ricerca come ad esempio "abbiagliamento
bambino + roma"
Dopo aver premuto invio il software estrae:
Ragione sociale - Cap - Comune - Provincia - Indirizzo - Tel - Fax - Email
------------------------------------
Dopo mezzo secondo era gia' nella 'posta eliminata'
Pero' ripensandoci sono poi andato a riprenderlo e stavo pensando come
poteva funzionare, perche' in effetti potrebbe essere parecchio utile per
generare delle liste mirate a certe zone /operatori professionali
Che ne dite, come fare per ottenere un risultato tipo quello descritto?
Ciao e grazie
RobertoA


Carlo Costarella

unread,
Mar 26, 2009, 5:39:47 AM3/26/09
to

"RobertoA" <amor...@tiscalinet.it> ha scritto nel messaggio
news:49cb...@newsgate.x-privat.org...
Credo si faccia uso del cd rom (gratuito) incluso in tutti gli elenchi
distribuiti. In circolazione ve ne sono oltre 5 milioni (a detta loro) di
copie.
Leggi qui:
http://www.paginebianche.it/extra/prodotti4.html

Ciao, Carlo


RobertoA

unread,
Mar 26, 2009, 11:17:52 AM3/26/09
to

Eh no, si parla espressamente di "..estrarre dal sito Pagine Gialle.."
Ma comunque, anche se quelli pescassero dal cd-rom, non e' quello che volevo
sapere sapere
La mia curiosita' era sul come fare per 'inviare un comando' ad una pagina
html e come fare per 'interpretare' il risultato che verra' restituito,
pensando al fatto che l'uscita potrebbe cambiare (banner, pubblicita', campi
diversi per categorie, ecc..)
Ciao
RobertoA


Sergio MAZZA

unread,
Mar 26, 2009, 11:46:30 AM3/26/09
to
"RobertoA" <amor...@tiscalinet.it> ha scritto nel messaggio
news:49cb993e$1...@newsgate.x-privat.org...

> Eh no, si parla espressamente di "..estrarre dal sito Pagine Gialle.."
> Ma comunque, anche se quelli pescassero dal cd-rom, non e' quello che
> volevo sapere sapere
> La mia curiosita' era sul come fare per 'inviare un comando' ad una pagina
> html e come fare per 'interpretare' il risultato che verra' restituito,
> pensando al fatto che l'uscita potrebbe cambiare (banner, pubblicita',
> campi diversi per categorie, ecc..)
> Ciao
> RobertoA


(Mazza o non Mazza) Ci sono esempi nei messaggi precedenti.
(es.) oggetto:Re: files html, leggere contenuto inviato il: sabato 21
febbraio 2009 13:52 da: kkkxxx

Oltre ad altri sull stesso "tema"...
http://groups.google.com/group/it.comp.appl.access/browse_thread/thread/75097110c9b2d9f2/b0d6a50cfa0cf51c?lnk=gst&q=mazza+tabella+html#b0d6a50cfa0cf51c

Ciao.
--
Sergio MAZZA

Panathos

unread,
Apr 4, 2009, 12:52:48 PM4/4/09
to
On 26 Mar, 10:34, "RobertoA" <amoro...@tiscalinet.it> wrote:

> Il nostro software è in gradi di estrarre "aziende" dal sito di "Pagine


> Gialle" e "Pagine Bianche"
> Basta impostare i criteri della ricerca come ad esempio "abbiagliamento
> bambino + roma"
> Dopo aver premuto invio il software estrae:
> Ragione sociale - Cap - Comune - Provincia - Indirizzo - Tel - Fax - Email

E' più semplice di quanto pensi. Se vai su paginegialle.it e rifai la
ricerca dell'esempio, vedi che l'indirizzo è così composto:

http://www.paginegialle.it/pgol/5-abbigliamento%20bambino/3-roma

dal che si intuisce che se parti dalle stringhe sulla maschera, prima
le converti in entità html, componi l'url ed apri uno stream,
caricando la risposta (che è testo) in una stringa, che si parsa
comodamente.

Questo è il codice html da filtrare in corrispondenza del primo
risultato... non occorrono neppure le regexp per ottenere un csv, o
qualcosa di accodabile ad una tabella:

<div class="client-identifying-pg">
<h3 class="org">Arrigoni Giuseppa Abbigliamento Donna E Bambino</h3>
<div class="fix-float-identifying-pg">
<address>
<p>
<span class="postal-code">00179</span>
<span class="locality">Roma</span>
<span class="region">(RM)</span>
</p>
<p class="street-address">282, VIA LATINA</p>
<p class="tel">
<span class="type">tel: </span>06 7800716</p>
</address>

Anche la riga con indicata la pagina successiva è già pronta per
essere letta ed usata per ricominciare il ciclo dalla pagina 2...

<p class="pagination-changing">1 [... omissis...] a href="http://
www.paginegialle.it/pgol/5-abbigliamento bambino/3-roma/p-2?"
title="successiva">

In pratica ricomponi la stringa che hai usato come URL e appendi /p-
[numeropagina]

Ovviamente se paginegialle.it cambia la struttura delle pagine, il
parsing dovrà essere aggiornato di conseguenza.


> poteva funzionare, perche' in effetti potrebbe essere parecchio utile per
> generare delle liste mirate a certe zone /operatori professionali

Sì, ad es. le agenzie assicurative (abbastanza strutturate)
generalmente sono ghiotte di elenchi come questi.

Ciao

0 new messages