Hai ragione tu, Stefano, stavo giusto smanettando.
Il campo che abbiamo usato per joinare i due files è "rcn". Mi sono lasciato trarre in inganno dal fatto che su GitHub abbiamo lasciato
la tua versione dei files dati, che segue una logica diversa.
Quindi la logica è:
- creo i nodi-progetto dai files di progetto
- mi passo le partecipazioni uniche. A ogni riga del file orgs mi creo il nodo di quella organizzazione se già non c'è. Poi creo un arco da quel nodo al nodo-progetto che ha quel codice rcn.
Ho notato che il file H2020organizations.csv ha un camp che si chiama 'id', che a occhio è il codice PIC. Questo risolve in un colpo solo tutti i problemi di dedup!
Però tu hai più occhio di me per l'ordine dei dati, quindi è importante che gli dia una guardata. Poi, se mi dici "il file è già abbastanza pulito, scaricatelo così com'è" per me va bene.
Nota a margine: più ci penso più credo che avrebbe senso fare un lavoro comparativo tra FP7 (o meglio, per simmetria, i suoi primi anni) e H2020. Per studiarci FP7 posso partire anche dal grafo progetti-organizzazioni costruito l'anno scorso, e poi filtrare per la proprietà "data" dei nodi-progetto, quindi confermo: priorità a montare dei file dati di H2020. Però una versione pulita dei dati FP7 non sarebbe per niente inutile – tanto più che in quel caso i codici PIC non c'erano. Ho fatto la deduplicazione con OpenRefine e l'aiuto di Matteo Fortini, ma abbiamo lavorato di vanga dove tu lavori di bisturi!