Confrontare le reti di collaborazione tra FP7 e Horizon2020 – per finire l'hackathon

160 views
Skip to first unread message

Alberto

unread,
May 7, 2016, 1:32:32 PM5/7/16
to Spaghetti Open Data
Ciao a tutti,

a SOD16 abbiamo appena scoperto che la struttura del grafo delle collaborazioni di Horizon 2020 è simile a quella già trovata per FP7. Per un paragone rigoroso e un'analisi espandibile e raffinabile, abbiamo bisogno di fare un po' di cose. 
  1. Stefano Durì: scusa, ma ci servi di nuovo. Avremmo bisogno che tu applicassi ai dati FP7 lo stesso processo che hai applicato a H2020. Abbiamo provato a modificare i nostri script e farli girare sui dati dell'anno scorso, ma la logica con cui hai costruito gli edges è completamente diversa. Se poi vuoi ci sentiamo, ovviamente! Ti devo una cena, e scusami davvero  :-/
  2. Francesca: se ti interessa esplorare i temi della collaborazione nei partenariati H2020, per favore studiati l'architettura di H2020 a partire dai CORDIS Reference Data.
  3. Federico: per favore inizia un documento di raccomandazione alla Commissione Europea sul rilascio dei dati sui progetti di ricerca finanziata "linked ready". Google, Hackpad, Titanpad, quello che ti pare, poi ci lavoriamo insieme con il resto del gruppo. 
  4. Io mi impegno a tenere il pallino, finire l'analisi e caricare la documentazione su GitHub. Le repo su GitHub è qui; Federico, forse il vostro lavoro merita una repo a parte. 
  5. A proposito di questo, chi vuole essere iscritto al nostro GitHub mi faccia un fischio. Siamo qui: https://github.com/spaghetti-open-data
Se vi siete persi SOD16 ma avete tempo e voglia di lavorare a questa cosa mi scriva e vediamo di trovarvi qualche cosa da fare. :-)

Stefano Durì

unread,
May 7, 2016, 3:13:29 PM5/7/16
to Spaghetti Open Data
è un po' un casino. Dovrei riuscire a lavorarci su entro qualche giorno

Alberto

unread,
May 8, 2016, 6:09:16 AM5/8/16
to Spaghetti Open Data
Ma certo :-)

Alberto

unread,
May 8, 2016, 5:36:24 PM5/8/16
to Spaghetti Open Data
  • Ok, ho messo su GitHub il primo passo dell'analisi su H2020 e documentato un minimo. 
  • Ho assegnato il progetto al team generale ("Hackers") di SOD su GitHub. Federico e Massimo, voi siete già membri. Chi vuole dare una mano mi comunichi il suo account GitHub, che lo aggiungo. 
  • Ho anche creato un primo issue (il solito). Stefano, sei sicuro di non volerci raggiungere su GitHub? In questo modo potrei taggarti nelle issues etc. 

Stefano Durì

unread,
May 9, 2016, 4:57:07 AM5/9/16
to Spaghetti Open Data
account github=stefanoduri, ma non lo uso quasi mai. Può anche essere una buona ragione per ricominciare

Alberto

unread,
May 9, 2016, 8:26:33 AM5/9/16
to Spaghetti Open Data
Che rintronato. Ho scoperto che c'eri già.

Ok, allora:
  • Stefano, Federico, Massimo e io siamo già nel team assegnato al progetto.
  • Ho invitato Marco Calderisi, come da sua richiesta.
  • Francesca, cosa ne dici di crearti anche tu un account GitHub, così ti aggiungiamo al team e la finisco di ammorbare la mailing list?

Francesca Gleria

unread,
May 9, 2016, 6:03:09 PM5/9/16
to spaghett...@googlegroups.com
si  buona idea mi tocca proprio diventare meno imbranata - per i miei tempi ho la solita settimana di scadenze mortali - ma intanto sistemo gitHub ed entro nel 21° secolo - poi nel fine settimana do un occhio a CORDIS e faccio i compiti inoltro la mail anche a Giacomo che magari dà un occhio anche  lui

ciao belli f.

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.



--
Cellulare 380.4908599  Casa 0461.982380 Lavoro 0461 494436

Stefano Durì

unread,
May 13, 2016, 1:34:19 PM5/13/16
to Spaghetti Open Data
ho caricato i 3 file (con progetti, org e edges) relativi a fp7. Sono un po' abbandonati nel nulla, ma insomma vedrete voi come organizzare il repo. Non si possono editare e quindi a me sfugge come si possono spostare in qualche folder. Per chi usa spesso Github sarà banale, immagino
Le strutture sono un po' differenti rispetto a quelle preparati per sod16, ma la logica è la stessa

Francesca De Chiara

unread,
May 13, 2016, 2:05:43 PM5/13/16
to Spaghetti Open Data
grazie, 
francescadechiara,

ciao,

Alberto Cottica

unread,
May 15, 2016, 3:36:53 PM5/15/16
to spaghett...@googlegroups.com

Grazie Stefano. Ci guardo domani.

Alberto

unread,
May 17, 2016, 2:19:23 AM5/17/16
to Spaghetti Open Data
Ciao gente. Ieri ho fatto un po' di lavoro sui nuovi dati FP7 prodotti da Stefano. Alla fine ho fatto il commit su GitHub, ma mi manca un passaggio (la rete delle partnership stabili) per arrivare alla confrontabilità con quanto fatto su Horizon2020 a SOD16. Se riesco faccio già oggi.

Stefano: pensavo che sarebbe interessante se tu documentassi il processo di riaggregazione dei dati che hai montato. Se non ho capito male da Matteo F, Kettle tiene traccia di tutti i passaggi che fai sui dati, giusto? Quindi ci saranno dei files Kettle che mangiano i dati grezzi e sputano i tuoi dati elaborati. 

Per caricare i files, io farei così: scaricati l'applicazione desktop GitHub; duplica il repository in locale; creati un tuo branch; poi fai tutto quello che devi fare in locale, sul tuo hard drive. Crea una cartella "Kettle", per esempio. Quando fai il commit; GitHub duplica sul tuo branch quello che vede nella directory corrispondente del tuo disco rigido. Quando hai finito, mandami una pull request. 

In realtà potresti fare il commit anche sul master, ma tanto vale approfittarne per imparare a usare in modo ordinato GitHub. Se hai bisogno dimmi qualcosa. 

Francesca, fra un po' tocca a te fare un po' di analisi. 

Francesca Gleria

unread,
May 17, 2016, 2:25:55 AM5/17/16
to spaghett...@googlegroups.com
​Ci sta lavorando  Giacomo che è un professionista (per fortuna​!) non ho capito se ha condiviso qualcosa nel gruppo. lo sento oggi e vediamo che succede. pesos

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

Giacomo Gamba

unread,
May 18, 2016, 5:05:32 AM5/18/16
to Spaghetti Open Data
Ciao a tutti,
Francesca mi ha chiesto a SOD16 di dare un'occhiata a questo thread. Mi son scaricato i vari dataset, sono molto interessanti e ricchi, anche se non perfetti, ma quando mai lo sono.
Quel che sto facendo è andare a tentativi provando varie strade, per familiarizzare con i dati. 

Tuttavia per fare una buona analisi serve prima di tutto una buona domanda. 
Non avendo conoscenza di dominio adeguata e non avendo seguito l'hackaton è difficile per me capire cosa cercare. Scusate in anticipo, probabilmente son cose che avete già ripetuto mille volte, ma me le son proprio perse.
Qual'è la buona domanda a cui si sta cercando di rispondere? 
Francesca: quali sono possibili domande a cui ti interessava dare risposta?

Intanto su github mi trovate come 'giackgamba', non sono un pythoniano, per cui difficilmente posso darvi una mano su quello, utilizzo principalmente R. Nei prossimi giorni posso cominciare col pubblicare l'analisi esplorativa che ho fatto, se interessa (probabilmente non aggiunge nulla di nuovo, per voi).

A presto!

GG

Francesca Gleria

unread,
May 18, 2016, 5:20:39 AM5/18/16
to spaghett...@googlegroups.com
Bravo Giacomo !!! 

propongo che ci si trovi  magari in biblioteca (il luogo del delitto) (come è la comnnessione) e lavoriamo un po' assieme che magari ci vengono idee. 

Quando ?  

venerdì  nel pomeriggio se vuoi/puoi 

se qualcuno di voi altri è rintracciabile on line magari  vi chiediamo delle cose  se ci vengono domande.  

Alberto

unread,
May 18, 2016, 11:22:26 AM5/18/16
to Spaghetti Open Data
Ciao Giacomo, benvenuto. Ti ho invitato al team SOD su GitHub. Mi raccomando, fatti un branch tuo e fai il commit lì, perché anch'io sto smanettando sulla repo. Sto per arrivare a un punto dove si possa fare un primo paragone tra FP7 e H2020. Resistete. 

Francesca Gleria

unread,
May 18, 2016, 12:42:03 PM5/18/16
to spaghett...@googlegroups.com
​:) ​

Il giorno 18 maggio 2016 17:22, Alberto <alberto...@gmail.com> ha scritto:
Ciao Giacomo, benvenuto. Ti ho invitato al team SOD su GitHub. Mi raccomando, fatti un branch tuo e fai il commit lì, perché anch'io sto smanettando sulla repo. Sto per arrivare a un punto dove si possa fare un primo paragone tra FP7 e H2020. Resistete. 

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

Stefano Durì

unread,
May 18, 2016, 2:58:48 PM5/18/16
to Spaghetti Open Data
per quanto riguarda kettle, direi che è abbastanza inutile mettere da qualche parte i vari job, perché sono incomprensibili a meno di usare proprio kettle per aprirli. Comunque, si tratta di roba banale: mi sono limitato a creare il file delle organizzazioni e quello dei progetti. Sul primo ho cercato di individuare le org uniche, attribuendo poi a tutte un id. Poi ho ricavato gli edge tra l'id delle org e quello dei progetti. 
Direi che a questo punto sospendo l'attività e vi auguro buon lavoro, limitandomi a seguirvi in lettura. Il tempo è poco e devo/voglio dedicarlo ad altro.

Alberto

unread,
May 18, 2016, 5:33:07 PM5/18/16
to Spaghetti Open Data
Sì, Stefano, si pensava proprio a quello. D'altra parte io ho caricato le prospettive Tulip, che si aprono solo se usi Tulip. Comunque poco male, grazie per il tuo lavoro. Traduco questa spiegazione in inglese e la inserisco nel wiki. 

Alberto

unread,
May 19, 2016, 5:18:14 AM5/19/16
to Spaghetti Open Data
Ragazzi, ci siamo. Ho fatto un commit con le prospettive di Tulip e alcune immagini. 

Se caricate le due prospettive (ovviamente serve Tulip) e fate girare lo script nell'ultimo tab a destra, la console vi stampa l'elenco delle due Death Star. 

Spero di avere fatto tutto bene, perché FP7 e H2020 sono un po' diversi. Adesso serve un po' di analisi da parte di chi conosce il mondo dei finanziamenti europei alla ricerca. Francesca, Francesca, Giacomo e chi vuole, ci date uno sguardo? Io posso fare ulteriori elaborazioni su richiesta, ma ovviamente mi viene scomodo essere con voi in biblioteca. Le prime due immagini (FP7 prima, H2020 poi) sono colorate per grado, quindi connettività. Nelle seconde due  (FP7 prima, H2020 poi),  nodi verdi sono "intermediati", cioè accedono alla "scena" dei finanziamenti europei attraverso UN SOLO partner stabile. Questi partner stabili ( "intermediari") sono colorati in rosso. Gli altri non sono né intermediati né intermediari. 

Entrambi i grafi comprendono
  1. solo la componente gigante 
  2. del grafo che si ottiene prendendo i progetti partiti nei primi 28 mesi di ciascun programma quadro.





Francesca Gleria

unread,
May 20, 2016, 11:54:40 AM5/20/16
to spaghett...@googlegroups.com
ciao  siamo qui  Giacomo ed io.
guardiamo reference data per H2020 (intanto per capire cosa c'è dentro)
Giacomo ha fatto un po' di esplorativa con R

sarebbe molto utile avere un codice che mi aggrega i progetti  in macro gruppi
c'è quel sic code che effettivamente  permetterebbe un po' di "riassunto macro" degli ambirti di attività dei progetti
ma non è collegato alla tabella dei dati
a meno che non dovesse essere quella colonna subject nel file progetti 
che però è vuota 

Riuscire a capire in che campo operano sti progetti è importante per qualsiasi analisi e confronto
perché i numeri sono troppo grossi e c'è una certa variabilità che c'è dentro:

per es:

5000 progetti con  1 - 5 organizzazioni
2000 5 - 15
...
1 153 organizzazioni

sono numeri troppo grossi per farsi delle idee di analisi 
per cui tutti i codici  che permettono di fare  sottoclassi sono preziosi 
e sono sicura che  chi gestisce H202  sti codici ce li ha se no come fanno a fare report "generali?" 
li mettessero in circolo sarebbe gentile

se si sa cosa fanno sti progetti (più o meno) allora è anche più facile andare a confrontare modelli di interazione fra i partner e poter dire per es. (una prima domanda  che potrebbe venire in mente) quanto pesa il settore agricolo su come si sono distribuite le risorse e sui vari network di organizzazioni che ci finiscono dentro.
anche perché il peso dei vari settori  probabilmente ha delle relazioni con i Paesi (politiche economiche dei paesi) e quindi anche con il peso dei diversi paesi nella distribuzione delle risorse (intese come scelte di policy concrete) 

bisogna trovare  aggregazioni che riducano la complessità

Si potrebbe anche lavorare sulle descrizioni testuali degli "obiettivi" per estrarre delle classi significative da assegnare a progetti e/o partner ecc.   ma è il solito lavoraccio sui testi e di sicuro qualcuno nella community  ci sa lavorare ;)

intanto questo !  date consigli se leggendo vi viene in mente qualcosa  siamo qui ancora una mezzoretta

cià f&g
 

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

Francesca Gleria

unread,
May 20, 2016, 12:20:35 PM5/20/16
to spaghett...@googlegroups.com
abbiamo messo uno due testi degli obiettivi su dandelion  vengono fuori cose - ovvio - ma tocca capire  come si usa per tirarne fuori qualcosa di utilizzabile. 

Francesca Gleria

unread,
May 20, 2016, 12:27:05 PM5/20/16
to spaghett...@googlegroups.com
giacomo dice che per es. riesce ad aggregare i codici dei topics - però bisogna anche vedere che informazioni aggregate si riesca ad avere  riducendo il numero dei topics - cioè se le spieghi dei topics sono utili - se sono troppo "inside" diventano difficili da riusare 

Francesca Gleria

unread,
May 20, 2016, 12:30:21 PM5/20/16
to spaghett...@googlegroups.com
l'altro modo se non si riesce agilmente ad aggregare è fare a pezzetti le frequenze e analizzare cosa c'è dentro ai gruppi ad es. cosa cìè nel gruppo dei tanti che prendono meno e cosa c'è nel gruppo dei pochi che prendono tanto.

Alberto

unread,
May 21, 2016, 7:54:00 AM5/21/16
to Spaghetti Open Data
Ciao Francesca e Giacomo e tutti.

Se non ho capito male, le informazioni che vi interessano sono in tre campi: "programme", "topics" e "call". Quello che si può fare è sceglierne uno e poi costruire grafi in cui i partenariati portano l'informazione su questi campi. Per esempio "X e Y sono partners in un progetto sulla call  Z, o sull'argomento W". Questo riduce il grafo, perché butta via tutto quello che non pertiene a quella particolare call o argomento. Cosa vorreste esplorare esattamente?

Però attenzione: qui stiamo facendo reti. La bellezza non è contare quanti progetti ci sono di un tipo o di un altro, ma scoprire ciò che la forma del grafo ci può rivelare. Per esempio, salta fuori che in H2020 c'è una dinamica di intermediazione che andrebbe capita meglio. La sto scrivendo qui



Alberto

unread,
May 21, 2016, 9:54:50 AM5/21/16
to Spaghetti Open Data
Ah, non vi ho spiegato i colori.
  • Verdi chiaro: intermediati. Si attaccano alla componente gigante del grafo dei partenariati stabili attraverso UN SOLO partner. Sono 470 su 2,069. 
  • Rossi: intermediari. Hanno almeno un partner stabile che passa solo attraverso di loro per accedere a fondi europei. Sono 240 su 2,069
  • Verdi scuro: non intermediati. Hanno almeno due partners stabili attraverso cui sono connessi alla componente gigante. Sono 1,359.

Francesca Gleria

unread,
May 21, 2016, 10:48:17 AM5/21/16
to spaghett...@googlegroups.com
un'approccio non esclude l'altro - come con il suino con i dati non si butta via niente - avere un po' di riduzione di complessità (sopratutto per me che è la prima volta che vendo dati su h2020) aiuta a fare quello che proponi te. 

se anche riduci ai 470 parternariati stabili  con un solo  partner su 2069.  sono comunque 470 e per dire qualcosa su 470  tocca sapere un po' come quel gruppo si differenzia dagli altri oltre al fatto di essere intermediati. quali sono le variabili che spiegano perché questi lo sono e non altri?  (argomento? ampiezza? paese del intermediario? ecc...) 

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

Alberto

unread,
May 21, 2016, 3:05:43 PM5/21/16
to Spaghetti Open Data
Beh, facciamo così. Guarda i metadati (https://open-data.europa.eu/en/data/dataset/cordisref-data) e dimmi in particolare cosa ti interessa. I topics? Le calls? I programmes?

Io provo a tirarti le reti separate, e poi tu ti guardi quelle che ti interessano. OK?

Stefano Durì

unread,
May 22, 2016, 3:10:50 AM5/22/16
to Spaghetti Open Data
credo che i progetti con partecipante unico (e i relativi edge) vadano trattati come un gruppo a sé stante: sono in massima parte concentrati in pochi programmi che, appunto, prevedono o consentono esplicitamente un solo beneficiario, mentre nella grande maggioranza dei programmi di finanziamento la partecipazione di un gruppo di partner è obbligatoria. Dal punto di vista della network analysis, in particolare, questi progetti sono un peso morto e forse andrebbero proprio filtrati a priori.

Alberto

unread,
May 22, 2016, 9:40:22 AM5/22/16
to Spaghetti Open Data
Quasi d'accordo, Stefano. Io ho pensato di contare gli elementi isolati, perché fare girare la conoscenza scientifica in Europa è presumibilmente uno degli obiettivi di policy della Commissione. Quindi, è bene chiarire: X soggetti hanno preso fondi, ma solo Y sono stati coinvolti in reti di collaborazione.

Di fatto, puoi generalizzare questa idea in una specie di scala di partecipazione. Ho già fatto questi calcoli e messo i risultati qui: https://github.com/spaghetti-open-data/eu-research-funding-network/wiki/How-large-is-the-community-of-European-funded-research%3F

Alberto

unread,
Jun 8, 2016, 9:28:19 AM6/8/16
to Spaghetti Open Data
Message has been deleted
Message has been deleted

Stefano Durì

unread,
Jun 9, 2016, 11:50:25 AM6/9/16
to Spaghetti Open Data
i problemi di doppioni non si riescono a eliminare tutti in modo automatico, data la strampalata combinatoria di denominazioni anche solo leggermete diverse e la presenza/assenza di identificativi e url. Si potrebbe combinare l'approccio "deterministico" con uno basato su una funzione che calcola una misura aggregata di distanza degli elementi senza id da quelli con gli id, in modo da attribuire ai primi gli id dei secondi più "simili" oppure un id arbitrario se non ce ne sono. Con Knime è possibile calcolare separatamente le distanze (da 0=identico a 1=totalmente diverso) ad es. sui campi nome, comune, indirizzo di un indirizzario e ottenere una misura aggregata calcolata in questo modo (invento):
- se distanzaComune > 0.1 => distanzaTotale = 1   [ perché se il comune è sbagliato allora non ci siamo proprio ]
- altrimenti distanzaTotale = 0.1*distanzaComune + 0.7*distanzaNome + 0.3*distanzaIndirizzo 

In base al valore di distanzaTotale minimo viene scelto il corrispondente più papabile e poi si scartano tutti i papabili distanti più di un valore trigger arbitrario
Ho fatto un esperimento mettendo un valore soglia di 0.17. Qui il risultato https://docs.google.com/spreadsheets/d/1iPpBHo9viAYAe1J0QZsuYJyu63zLoci1bMDwiVnmU7M/edit?usp=sharing
A sinistra ci sono le org senza id, a destra le più "simili" con id

Stefano Durì

unread,
Jun 10, 2016, 1:31:54 AM6/10/16
to Spaghetti Open Data
naturalmente non è un "valore trigger" visto che non fa scattare un bel niente, ma un "valore soglia", un cutoff 
Reply all
Reply to author
Forward
0 new messages