Groups keyboard shortcuts have been updated
Dismiss
See shortcuts

[SOD15] Hackathon sull'analisi di rete dei finanziamenti alla ricerca: alcuni elementi di attenzione

69 views
Skip to first unread message

Alberto

unread,
Mar 25, 2015, 4:44:16 AM3/25/15
to spaghett...@googlegroups.com
Scrivo qui perché non so come raggiungere i 25 (!) che si sono iscritti a A chi vanno i finanziamenti europei alla ricerca?

Ho fatto un po' di lavoro preliminare sui dati. E ho fatto bene, perché il dataset è piuttosto grande: il grafo "madre", organizzazioni connesse ai progetti a cui partecipano, ha 57.644 nodi, di cui circa 32.000 sono organizzazioni e circa 25.000 progetti, connessi da 135.911 archi. Proiettando su un grafo in cui le organizzazioni sono connesse ad altre organizzazioni, e ogni arco rappresenta un progetto, mi ritrovo con un grafo di 32.000 nodi ma quasi 900.000 archi (è una rete di affiliazione, e queste sono reti molto dense). Il prossimo passo, che farò prima di SOD se non succede qualche catastrofe, è ridurre quest'ultimo grafo in modo che due organizzazioni possano essere connesse da un solo arco, che riassume in sè le informazioni su tutti i progetti. Anche il grafo ridotto sarà piuttosto grande: ovviamente mantiene i 32.000 nodi, e mi immagino circa 200.000 archi.

Quindi.
  1. se volete fare del lavoro con software che non sia Tulip (sto guardando te, Matteo Fortini) vi consiglio di attivarvi prima. I files della Commissione, ripuliti, sono su GitHub, ma ci vuole un po' di tempo per imbastire il grafo. Anche, banalmente di computazione: io probabilmente ho usato modi molto inefficienti, perché sono un programmatore da ridere, ma per fare girare lo script che costruisce il grafo principale ci ho messo parecchie ore. Tulip non è molto forte nell'esportazione, ma foorse posso esportarvi qualcosa di già fatto in GML. Nel caso, chiedete.
  2. Grafi fatti così sono molto difficili da visualizzare. Questo hackathon avrebbe molto bisogno di visualizzatori. Forse ce ne sono già tra gli iscritti, non vi conosco tutti. Alessio Jenkin, non è che puoi  dedicarci un pochino di tempo? Altri?

Matteo Fortini

unread,
Mar 25, 2015, 10:32:16 AM3/25/15
to spaghett...@googlegroups.com, Alberto Cottica
Alberto,
ho un po' giocato con i tuoi dati e ho semplificato la rete, nel file allegato trovi un graphml in cui il campo weight è il numero di progetti in cui hanno collaborato, dimmi se ti torna, dovrebbe essere corretto.

A presto!

Matteo

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.
FP7Simplified.zip

Stefano Durì

unread,
Mar 25, 2015, 11:07:57 AM3/25/15
to spaghett...@googlegroups.com
io non sono riuscito a finire il lavoro di ripulitura del file delle organizzazioni. Credo che qualcosina migliorerebbe, anche solo normalizzando i nomi di org con molte partecipazioni, ad es. il CNRS, che è scritto almeno in due modi diversi ed è ai primi posti per numero di progetti. Una cosa che non capisco però è questa: perché volete inserire esplicitamente nel grafo i collegamenti fra org, che - mediati da progetti - esistono già? 

Stefano Durì

unread,
Mar 26, 2015, 9:38:51 AM3/26/15
to spaghett...@googlegroups.com
Ho trovato un attimo per ripulire il file delle organizzazioni in modo da avere il minor numero possibile (corretto, sperabilmente) di organizzazioni uniche. 
Step principali e risultati (a meno di errori marchiani, as usual) 
Righe iniziali del file organisationsfp7.csv: 135911 - eliminate doppie (i.e. con stesso codice progetto e nome org) -> 135794
- join con file di org partecipanti a prog di ICT -> le org che matchano acquisiscono un PartnerID
- round 1: sort sul nome e assegnazione id unico a org con stesso nome -> id unici = 32254
- round 2: sort su url ed assegnazione id unico a org con stesso url -> id unici = 31267
- round 3: sort su PartnerID e assegnazione id unico a org con stesso PID -> id unici = 31236
Gli archi diventano 135338

qualsiasi suggerimento/segnalazione di errore è apprezzato

Cima Sergio

unread,
Mar 26, 2015, 10:21:27 AM3/26/15
to spaghett...@googlegroups.com
Ciao, a Scienza in rete ci occupiamo da tempo dei dati FP7 cha abbiamo sistemato e pubblicato qui: 
Abbiamo lavorato anche sui grafi ma alla fine abbiamo preferito fare una dashboard con il conteggio dei partner per progetto. Proprio oggi carichiamo anche noi su Github. Facciamo rete se vi serve!
Ciao
Sergio

Alberto Cottica

unread,
Mar 27, 2015, 6:22:45 AM3/27/15
to spaghett...@googlegroups.com
Grazie a tutti. Domani mattina facciamo il punto della situazione, e vediamo anche in quanti siamo e se vale la pena di lavorare in parallelo.

karloff

unread,
Mar 28, 2015, 12:10:38 PM3/28/15
to spaghett...@googlegroups.com
Se vi può interessare, ho trovato il file excel con tutte le tabelle presenti nell'ultimo Monitoring Report ufficiale

(non è ancora uscito l'ultimo report, atteso in questi giorni, qullo disponibile è relativo alla storia dei finanziamenti dal 2007 al 2012, http://ec.europa.eu/research/evaluations/index_en.cfm?pg=fp7-monitoring)

FP7 E-Corda statistics-up date June 2013 - ISERD


(ne ho fatto copia in google drive qui https://drive.google.com/file/d/0B7uqBjb23qPXd2t2dVJLT29uaWc/view?usp=sharing)


Interessanti sono le tabelle B4-B6 che presentano le top50 organizations che hanno avuto accesso ai finanziamenti, che a quanto pare sono state anche classificate secondo le seguenti categorie
  • Higher or secondary education (HES)
  • Private for profit (excluding education) (PRC)
  • Public body (excluding research and education) (PUB)
  • Research organisations (REC)
  • Other (OTH)

nella banca dati E-Corda, da cui sono state estratte.

Salta all'occhio che non coincide con i nostri dati il numero di progetti che fanno capo al CNRS o al CNR italiano (ma i dati qui presenti sono solo fino al 2012), quindi il criterio di accorpamento dei soggetti finanziati utilizzato per queste tabelle sembra essere diverso dal nostro.



Laura Camellini

unread,
Mar 28, 2015, 1:34:00 PM3/28/15
to spaghett...@googlegroups.com

Ciao karloff,

sarebbe utile sfruttare il file xls che hai indicato come pattern per filtrare la mole di dati che abbiamo e trarne visualizzazioni più ricche di significato.

Il 28/mar/2015 17:10 "karloff" <karl....@gmail.com> ha scritto:
>
> Salta all'occhio che non coincide con i nostri dati il numero di progetti che fanno capo al CNRS o al CNR italiano (ma i dati qui presenti sono solo fino al 2012), quindi il criterio di accorpamento dei soggetti finanziati utilizzato per queste tabelle sembra essere diverso dal nostro.

A una prima occhiata ti do' ragione, i numeri su cui abbiamo lavorato oggi non sono questi, toccherà limare un po' per capire come è possibile.

Grazie del contributo,
LauraC

Cima Sergio

unread,
Mar 28, 2015, 2:26:14 PM3/28/15
to spaghett...@googlegroups.com
Sempre se può essere di aiuto, abbiamo pubblicato tutte le operazioni fatte in Refine sui dati Cordis. Come vedere le organizzazioni sono catalogate malissimo, con svariati errori, ma credo lo sappiate già :)

- https://github.com/Scienzainrete/irm 

Qui alcune analisi e viz pubblicate su Scienza in rete: 
Ricerca scientifica: 
Italia chiama Europa - http://goo.gl/J6h2lC
Ricerca scientifica: Milano chiama Europa - http://goo.gl/J3qKSk
La mappa della ricerca italiana - http://goo.gl/YtdIJK

Ciao
Sergio
Reply all
Reply to author
Forward
0 new messages