how to scrape http://www.futurefilmfestival.org/ data ?

22 views
Skip to first unread message

Nicola Ghirardi

unread,
Apr 9, 2013, 5:55:59 PM4/9/13
to spaghett...@googlegroups.com
Qulcuno saprebbe aiutarmi?
Vorrei fare scraping dei dati da questa pagina(sito sarebbe bello):
http://www.futurefilmfestival.org/
Programmo in java e un po di php, ma vorrei imparare python.
Ho trovato questa modellazione dei dati, la potrei espandere.
http://www.jedfilm.com/film-environment/use-case-scenario1
Vorrei utilizzarla per publicare un po di opendata sull'evento.
L'alternativa è l'inserimento manuale àlawiki.
Graziee!

Alfredo Serafini

unread,
Apr 10, 2013, 12:57:14 AM4/10/13
to spaghett...@googlegroups.com
ciao Nicola!

"cinema ontology" mi sembra molto interessante come cosa :-)

se vuoi giocare un po' con python suggerirei scrapy, l'ho provato poco-poco per lo scorso hackathon e mi sembra molto molto ben fatto, ed utilizzabile su una tua macchina, a differenza di scraperwiki, che è credo più utile se ci si vuole scambiare qualche procedura (e dal mio punto di vista ha la pecca di non supportare scala ;-) ).
Con scrapy puoi mettere in piedi un tuo workflow, usa un sistema basato su convenzioni e grossomodo asiconcrono, integra le belle librerie python per htttp etc etc.

Io mi figuro un workflow del genere:
1) analisi dei path principali del festival (cose tipo /eventi/nomeEvento, /film/nomeFilm)
2) scrittura crawler da homepage dei link, creando liste (una per ogni categoria precedente)
3) scrittura crawler/scraper per ogni tipologia di pagina. Qui occhio che forse potrebbe servire bonificare un po' il codice html
4) export nel formato che ti pare. Da quanto ho capito vuoi generare RDF/OWL?

domanda: ma li usi per te o puoi esporli poi open?

Al di là delle mie divagazioni: cosa ti serve esattamente?
saluti! :-)
Reply all
Reply to author
Forward
0 new messages