--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.
-- ========================================================================= Marco Brandizi <marco.b...@gmail.com> http://www.marcobrandizi.info
Il buon vecchio scraperwiki.com ?
È molto che non lo uso ma era un valido strumento.
2. Insisti un po', lo scraping è una sciagura che può e deve essere sconfitta :-)
Grazie a tutti per le dritte. Sto provando a usare il plugin di web scraper, sebbene faccia un po' fatica a capire come programmarlo.Il fatto è che i dati sono pubblici ma, come spesso succede in questo paese, sono difficilmente maneggiabili.
A me sembra paradossale che si pubblichi un dato inpedendo di riprodurlo. Cmq a me serve solo l'indirizzo, il nome dei locali non mi interessa.
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo argomento, visita https://groups.google.com/d/topic/spaghettiopendata/K7r_nkm6wmw/unsubscribe.
Per annullare l'iscrizione a questo gruppo e a tutti i suoi argomenti, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per ulteriori opzioni, visita https://groups.google.com/d/optout.
Sì, comunque il trucco per tirar giù quelle pagine è semplice... Il form html invia i parametri di query in post, ma il php che gestisce le richieste va a leggerli anche in get, quindi basta costruire opportunamente gli url con i parametri giusti per accedere a tutte le righe delle tre tabelle... Una volta scaricate tutte le pagine html (qualche migliaio), si estraggono le tabelle, di ricompongono e si ricostruiscono i tre csv completi... Che poi compongono un semplice db relazionale con tre tabelle collegate tra loro...
--
ALESSIO CIMARELLI
a.k.a. jenkin
Data scientist, web developer e giornalista scientifico free-lance
Blog: dataninja.it
Associazione: accatagliato
Telefono: +39 3343367454
Mail: alessio....@gmail.com
PGP pub key: 0x46bd7d12
Twitter: @jenkin27 | Skype: alessio.cimarelli
About.me
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo argomento, visita https://groups.google.com/d/topic/spaghettiopendata/K7r_nkm6wmw/unsubscribe.
Per annullare l'iscrizione a questo gruppo e a tutti i suoi argomenti, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.