how to scrape http://www.futurefilmfestival.org/ data ?

27 views

Skip to first unread message

Nicola Ghirardi

unread,

Apr 9, 2013, 5:55:59 PM4/9/13

to spaghett...@googlegroups.com

Qulcuno saprebbe aiutarmi?
Vorrei fare scraping dei dati da questa pagina(sito sarebbe bello):
http://www.futurefilmfestival.org/
Programmo in java e un po di php, ma vorrei imparare python.
Ho trovato questa modellazione dei dati, la potrei espandere.
http://www.jedfilm.com/film-environment/use-case-scenario1
Vorrei utilizzarla per publicare un po di opendata sull'evento.
L'alternativa è l'inserimento manuale àlawiki.
Graziee!

Alfredo Serafini

unread,

Apr 10, 2013, 12:57:14 AM4/10/13

to spaghett...@googlegroups.com

ciao Nicola!

"cinema ontology" mi sembra molto interessante come cosa :-)

se vuoi giocare un po' con python suggerirei scrapy, l'ho provato poco-poco per lo scorso hackathon e mi sembra molto molto ben fatto, ed utilizzabile su una tua macchina, a differenza di scraperwiki, che è credo più utile se ci si vuole scambiare qualche procedura (e dal mio punto di vista ha la pecca di non supportare scala ;-) ).

Con scrapy puoi mettere in piedi un tuo workflow, usa un sistema basato su convenzioni e grossomodo asiconcrono, integra le belle librerie python per htttp etc etc.

Io mi figuro un workflow del genere:

1) analisi dei path principali del festival (cose tipo /eventi/nomeEvento, /film/nomeFilm)

2) scrittura crawler da homepage dei link, creando liste (una per ogni categoria precedente)

3) scrittura crawler/scraper per ogni tipologia di pagina. Qui occhio che forse potrebbe servire bonificare un po' il codice html