Dati sulla ricerca finanziata europea: mi date un aiuto per scaricarli?

55 views
Skip to first unread message

Alberto

unread,
Feb 10, 2015, 1:38:29 PM2/10/15
to spaghett...@googlegroups.com
Ciao spaghettopoli,

ho in mente un hackathon che spacca per SOD15, ma mi servono dei dati. In particolare, quelli sui progetti europei del settimo programma quadro (FP7). La Commissione ha fatto un open data "finto": fai una query e scarichi i risultati in CSV o XML, ma i dati "sugosi" (quanto costa ciascun progetto? chi fa parte del consorzio?) non si scaricano, vi si può accedere dal livello inferiore. Per esempio, supponendo che volessi scaricare i dati sui progetti di innovazione fatti in Albania, è abbastanza facile arrivare ad un elenco:

http://cordis.europa.eu/search/result_en?q=contenttype%3D%27project%27%20AND%20programme/code%3D%27FP7%27%20AND%20sicCode/code%3D%27ITT%27%20AND%20%28address/country%3D%27AL%27%20OR%20relatedRegion/region/euCode%3D%27AL%27%29

Ma poi se scarico i risultati, mi trovo un elenco di titoli di progetti. Le informazioni più interessanti sono accessibili cliccando sull'hyperlink del titolo, per esempio

http://cordis.europa.eu/project/rcn/89487_en.html

Vedo due possibilità:
  1. scraping (uffa, però!)
  2. Nel menu a sinistra c'è un link "Edit query" (si clicca sul simbolo della matita). Io sono un povero ignorante, ma a occhio quella sembra una query SQL:

contenttype='project' AND programme/code='FP7' AND sicCode/code='ITT' AND (address/country='AL' OR relatedRegion/region/euCode='AL')

Secondo voi c'è modo di dire a SQL "passami tutti i campi dei record che ti sto chiedendo, non solo il titolo"?

Sennò, qualche mago di ScraperWiki mi dà una mano a tirare giù i progetti? :-/


Paolo Mainardi

unread,
Feb 10, 2015, 2:20:05 PM2/10/15
to spaghett...@googlegroups.com

Oh che bello, grande idea, appena ho un attimo mi ci butto dentro.

Sorry for typos, sent by mobile.

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

andy

unread,
Feb 10, 2015, 3:32:01 PM2/10/15
to spaghett...@googlegroups.com
Ciao Alberto,

Notte



--
Andrea Borruso
website: http://blog.spaziogis.it
GEO+ geomatica in Italia http://bit.ly/GEOplus 
38° 7' 48" N, 13° 21' 9" E, EPSG:4326
--

"cercare e saper riconoscere chi e cosa,
 in mezzo all’inferno, non è inferno, 
e farlo durare, e dargli spazio"

Italo Calvino

Alberto

unread,
Feb 10, 2015, 4:23:37 PM2/10/15
to spaghett...@googlegroups.com
YESSS!!! Grazie Andrea.

C'è quasi tutto, in due files:

Alcuni dettagli:

  1. a parte il leader del consorzio, gli altri soggetti sono identificati per nome e non per codice, e quindi è alto il rishio di typos e casini vari. Però il problema viene molto attenuato dal fatto che i soggetti sono joinabili ai progetti usando due codici di progetto.
  2. il numero di progetti non torna: il sito di CORDIS dà 22 604 progetti FP7, mentre il sito open data ne tira fuori 25 660.
  3. Il file con le organizzazioni ha oltre 130 000 record. Però ogni organizzazione sia riportata una volta per ciascun progetto a cui partecipa.

Ho tutto quello che mi serve. Vado a scrivere la proposta di hackathon!

Marco Brandizi

unread,
Feb 10, 2015, 6:01:57 PM2/10/15
to spaghett...@googlegroups.com
Figo! Questa è un'altra cosa che varrebbe la pena di fare in formato LOD: http://www.spaghettiopendata.org/content/linkiamo-i-dati
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

-- 

=========================================================================
Marco Brandizi <marco.b...@gmail.com> 
http://www.marcobrandizi.info

Stefano Durì

unread,
Feb 17, 2015, 12:26:06 PM2/17/15
to spaghett...@googlegroups.com
sto cominciando a esaminare i dati, perché non mi dispiacerebbe ripulirli prima di SOD15. Le organizzazioni sono 135911. Le ripetizioni all'interno di progetti (= rcn, nome e country duplicati) sono solo 34, quindi le righe uniche sono 135877 e le org uniche (con ampio beneficio d'inventario, visto che non sono presenti identificativi univoci) sono 32467. I progetti a cui partecipano sono 25788. 
Nei prox giorni provo a vedere se si riesce, almeno per le righe relative a org italiane (2776, col caveat di cui sopra), a normalizzare la parte dell'indirizzo

Alberto

unread,
Feb 17, 2015, 2:36:16 PM2/17/15
to spaghett...@googlegroups.com
Dio te ne renda merito, Stefano! Riesci a inventarti un modo per farlo via script? (se sì... non ha senso pulire solo le righe italiane!)

Stefano Durì

unread,
Feb 17, 2015, 4:53:41 PM2/17/15
to spaghett...@googlegroups.com
sfortunatamente non vado oltre l'Italia. Sarebbe stato così semplice codificare le località usando la classificazione NUTS...

Alberto

unread,
Feb 17, 2015, 6:33:40 PM2/17/15
to spaghett...@googlegroups.com
Peccato! L'analisi di rete, per questi dati, non ha senso fatta per paese, perché i consorzi sono tipicamente molto internazionali (d'oh). Tutti i legami tra organizzazioni italiane sono mediate dalla partecipazione a progetti a cui partecipano insieme a partners stranieri, che a loro volta partecipano ad altri progetti con altre organizzazioni italiane.

Stefano Durì

unread,
Feb 18, 2015, 2:16:08 AM2/18/15
to spaghett...@googlegroups.com
certo, la partnership deve normalmente comprendere soggetti di paesi diversi. Il lavoro che sto facendo può solo aiutare a localizzare i soggetti sul territorio (a me serve per selezionare i soggetti emiliani, in particolare). Per l'analisi di rete sarebbe invece importante identificare correttamente le organizzazioni, compito che appare abbastanza tedioso e complicato

Andrea Nelson Mauro

unread,
Feb 18, 2015, 6:35:51 AM2/18/15
to spaghett...@googlegroups.com
Matteo Fortini e Giulia Annovi insieme ad altri amici avevano lavorato sui fondi per la ricerca all'hackathon del festival del giornalismo 2014

Andrea Maurino

unread,
Feb 18, 2015, 6:48:13 AM2/18/15
to spaghett...@googlegroups.com
alberto mi posso sbagliare ma in questo dataset c'è l'elenco completo dei pogetti fp7 solo ict con una riga per ogni partecipante al progetto [1]
il partecipante è descritto tramite il pic number che è assegnato dalla commissione quando si fa una proposta europea; di conseguenza i dati sono gli stessi a meno di situazione paticolari come cambio di nome dell'azienda. li ci sono anche i dati di origine e posizionamento geografico delle aziende
 è solo per un settore...ma sembrano quelli meglio curati
 
[1]
--

Stefano Durì

unread,
Feb 18, 2015, 9:21:04 AM2/18/15
to spaghett...@googlegroups.com
sì, sono decisamente più curati. Oltre a mostrare il codice id dell'organizzazione, usano la NUTS liv 3, che in Italia individua la provincia. 
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopendata+unsubscribe@googlegroups.com.

Alberto

unread,
Feb 18, 2015, 6:49:34 PM2/18/15
to spaghett...@googlegroups.com
Ottimo suggerimento. A Bologna vedremo insieme come lavorare; se siamo in 5-6 possiamo anche sviluppare due linee in parallelo.

IMHO la localizzazione dei partners non è molto rilevante per il tipo di domande che ci stiamo facendo...
Reply all
Reply to author
Forward
0 new messages