Un consiglio per lo scraping

120 views
Skip to first unread message

Riccardo Saporiti

unread,
Apr 1, 2015, 1:10:53 PM4/1/15
to spaghett...@googlegroups.com
Ciao a tutti,
sto lavorando ad un progetto di data journalism per il quale ho la necessità di scrapare un po' di dati da un sito.
Sapreste darmi qualche consiglio su quale possa essere un software (o comunque un modo) per riuscire a farlo?
Tenete conto che, nonostante mi pavoneggi usando Linux Ubuntu, sono molto, molto newbie.
Grazie (e se ho sbagliato a postare qui scusate e cancellate il messaggio)

eccoilmoro

unread,
Apr 1, 2015, 4:02:17 PM4/1/15
to spaghett...@googlegroups.com
Ciao, prova questo https://import.io

F

Marco Brandizi

unread,
Apr 1, 2015, 4:16:17 PM4/1/15
to spaghett...@googlegroups.com
1. Chiedi ai tizi del sito se hanno i dati
2. Insisti un po', lo scraping è una sciagura che può e deve essere sconfitta :-)
3. https://github.com/ContentMine/quickscrape
4. Per chi programma in Java: http://jsoup.org
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

-- 

=========================================================================
Marco Brandizi <marco.b...@gmail.com> 
http://www.marcobrandizi.info

Daniele Del Pinto

unread,
Apr 1, 2015, 6:06:55 PM4/1/15
to spaghett...@googlegroups.com
io ho installato questo plugin di chrome e non mi sembra male


ci sono anche dei video esplicativi

Matteo Fortini

unread,
Apr 2, 2015, 2:34:24 AM4/2/15
to spaghett...@googlegroups.com

Anche kimonolabs.com spesso è utile


--

Christian Morbidoni

unread,
Apr 2, 2015, 2:59:46 AM4/2/15
to spaghett...@googlegroups.com

Il buon vecchio scraperwiki.com ?
È molto che non lo uso ma era un valido strumento.

Riccardo Saporiti

unread,
Apr 2, 2015, 8:50:23 AM4/2/15
to spaghett...@googlegroups.com
Grazie a tutti per le dritte. Sto provando a usare il plugin di web scraper, sebbene faccia un po' fatica a capire come programmarlo.
Il fatto è che i dati sono pubblici ma, come spesso succede in questo paese, sono difficilmente maneggiabili.

Daniele Del Pinto

unread,
Apr 2, 2015, 9:04:54 AM4/2/15
to spaghett...@googlegroups.com

2. Insisti un po', lo scraping è una sciagura che può e deve essere sconfitta :-)

ahahha... in effetti non hai torto. :-) 

Maurizio Napolitano

unread,
Apr 2, 2015, 11:14:57 AM4/2/15
to Spaghetti Open Data
... anche se non mi garba lo strumento, lo sai vero che Google
Spreadsheet ha una funzione di scraping da XML e HTML?
importHTML ma vale solo per la tabelle
https://support.google.com/docs/answer/3093339?hl=it

... per il resto scraperwiki tutta la vita :)

Ciao

Stefano

unread,
Apr 2, 2015, 11:25:25 AM4/2/15
to spaghett...@googlegroups.com
Il giorno 2 aprile 2015 14:50, Riccardo Saporiti <riccardo...@gmail.com> ha scritto:
Grazie a tutti per le dritte. Sto provando a usare il plugin di web scraper, sebbene faccia un po' fatica a capire come programmarlo.
Il fatto è che i dati sono pubblici ma, come spesso succede in questo paese, sono difficilmente maneggiabili.

Ci fai dare una occhiata? :)

C'è anche https://morph.io/ che è l'erede di Scraperwiki classico...

Ciao,
Stefano 

Riccardo Saporiti

unread,
Apr 2, 2015, 11:28:59 AM4/2/15
to spaghett...@googlegroups.com
Allora, i dati li trovate qui:
Si tratta dell'elenco di tutti i bar e tabaccherie italiani nelle quali è installata una slot machine. La mia idea è quella di scraparli, geolocalizzarli e poi metterli su una mappa.

Maurizio Napolitano

unread,
Apr 2, 2015, 11:44:37 AM4/2/15
to Spaghetti Open Data
Come il lavoro fatto da Cimarelli e Mastrolonardo con Slot Invaders -
http://slotinvaders.it


... tempo fa avevo creato questo, ma solo perchè su slotinvaders non
c'erano ancora i dati aggiornati su Trento
http://de.straba.us/slotmachines_trento/
http://www.slideshare.net/napo/slotmachine-trento
creato su richiesta di un gruppo di attivisti trentini per
sensibilizzare sul tema delle slot machines

Guglielmo Celata

unread,
Apr 2, 2015, 12:55:13 PM4/2/15
to spaghett...@googlegroups.com

> Il giorno 02/apr/2015, alle ore 17:24, Stefano <sab...@gmail.com> ha scritto:
>
> Il fatto è che i dati sono pubblici ma, come spesso succede in questo paese, sono difficilmente maneggiabili.
>
http://www.agenziadoganemonopoli.gov.it/wps/wcm/connect/internet/ed/note+legali

"Ogni diritto sui contenuti (a titolo esemplificativo testi, immagini e architettura del sito) è riservato ai sensi della normativa vigente.
I contenuti delle pagine del sito non possono, né totalmente né in parte, essere copiati, riprodotti, trasferiti, caricati, pubblicati o distribuiti in qualsiasi modo senza il preventivo consenso scritto dell'Agenzia delle Dogane, fatta salva la possibilità di immagazzinarli nel proprio computer o di stampare estratti delle pagine di questo sito unicamente per utilizzo personale."

A me pare che sia una nota di copyright abbastanza netta. Poi, magari non vale, perché se sono dati pubblici, allora sono aperti.
Però un parere di qualche azzeccagarbugli lo sentirei.

signature.asc

Riccardo Saporiti

unread,
Apr 2, 2015, 12:59:49 PM4/2/15
to spaghett...@googlegroups.com

A me sembra paradossale che si pubblichi un dato inpedendo di riprodurlo. Cmq a me serve solo l'indirizzo, il nome dei locali non mi interessa.

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo argomento, visita https://groups.google.com/d/topic/spaghettiopendata/K7r_nkm6wmw/unsubscribe.
Per annullare l'iscrizione a questo gruppo e a tutti i suoi argomenti, invia un'email a spaghettiopend...@googlegroups.com.

Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per ulteriori opzioni, visita https://groups.google.com/d/optout.

jenkin

unread,
Apr 3, 2015, 4:41:28 AM4/3/15
to spaghett...@googlegroups.com
Ciao Riccardo,

leggo solo ora, le nostre inchieste su quei dati vanno avanti da più di un anno e mezzo sotto il nome di slot Invaders, dai un'occhiata al sito indicato da maurizio, ma anche su Dataninja.it... Tu cosa avevi in mente? Mettere tutti gli esercizi su una mappa è impossibile, sono più di 100k e hai solo indirizzi non sempre precisi e puliti. Lo abbiamo fatto solo su Genova nell'estate del 2013... :-)

Comunque in questo caso lo scraping è semplice, basta chiedere a noi! :-) Abbiamo l'intero archivio del 2012 e 2013, mentre la prossima settimana tiro giù anche quello del 2014 (ho tutti gli script in python già pronti).

Per quanto riguarda la licenza di riutilizzo, c'è comunque una importante questione di privacy, perché le concessioni scadono e c'è diritto di oblio, tanto è vero che sul sito dell'aams non ci sono gli anni precedenti a quello appena finito... Noi abbiamo usato i dati granulari e pubblicato quelli aggregati, in accordo con l'aams, che abbiamo avvertito alla pubblicazione della prima inchiesta su Wired.

Se ti interessa il tema, scrivimi pure una mail o continuiamo a parlarne qui... :-)

Patrick Hausmann

unread,
Apr 3, 2015, 7:36:51 AM4/3/15
to spaghett...@googlegroups.com
Ciao Riccardo,

qui una possibilità con R [ www.r-project.org  ]:

## Elenco soggetti per esercizi
## Provincia: Varese
## Anno '0' = 2014

library('rvest')

url_part_01 <- "http://www.agenziadoganemonopoli.gov.it/wps/wcm/connect/Internet/ed/Monopoli/Giochi/Apparecchi_intr/Elenco_soggetti_Ries/?pagina="
url_part_02 <- "&id_pagina=&prov=VA&anno=0&tipo_app=&el=2&CACHE=NONE"

x <- lapply(as.list(1:27), function(page) {
  data_url_page <- html(paste0(url_part_01, page, url_part_02))
  html_table(html_node(data_url_page, "table.tabella_d.reduce70"))
})

x <- do.call("rbind", x)
x$ANNO <- 2014
write.csv2(x, file ="Varese_2014.csv")

#######

Un simile code abbiamo usato per Confiscatibene. Dopo pasqua scriverò un blog post.

Ciao,
Patrick

Alessio Cimarelli

unread,
Apr 3, 2015, 12:36:34 PM4/3/15
to spaghett...@googlegroups.com

Sì, comunque il trucco per tirar giù quelle pagine è semplice... Il form html invia i parametri di query in post, ma il php che gestisce le richieste va a leggerli anche in get, quindi basta costruire opportunamente gli url con i parametri giusti per accedere a tutte le righe delle tre tabelle... Una volta scaricate tutte le pagine html (qualche migliaio), si estraggono le tabelle, di ricompongono e si ricostruiscono i tre csv completi... Che poi compongono un semplice db relazionale con tre tabelle collegate tra loro...

-- 
ALESSIO CIMARELLI
a.k.a. jenkin

Data scientist, web developer e giornalista scientifico free-lance

Blog: dataninja.it
Associazione: accatagliato
Telefono: +39 3343367454
Mail: alessio....@gmail.com
PGP pub key: 0x46bd7d12
Twitter: @jenkin27 | Skype: alessio.cimarelli

About.me
   

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo argomento, visita https://groups.google.com/d/topic/spaghettiopendata/K7r_nkm6wmw/unsubscribe.
Per annullare l'iscrizione a questo gruppo e a tutti i suoi argomenti, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.

Laura Camellini

unread,
Apr 9, 2015, 5:10:30 AM4/9/15
to spaghett...@googlegroups.com
Solo una segnalazione per lo scraping, ammetto di aver usato per lo più import.io nella mia breve esperienza ma questo articolo può essere interessante per chi conosce node.js


http://www.smashingmagazine.com/2015/04/08/web-scraping-with-nodejs/

Laura Camellini

unread,
Apr 9, 2015, 5:18:37 AM4/9/15
to spaghett...@googlegroups.com
ImportHTML lavora sulle tabelle, importXML è un po' più versatile e usa xpath (my favorite)

Ciao,
LauraC
Reply all
Reply to author
Forward
0 new messages