--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.
Utilissimo Nicola!
Grazie
--
Grazie a tutti delle segnalazioni. Devo dire che tendo a vedere la cosa dal lato dei potenziali utilizzi dei dati esistenti (questo doc è particolarmente interessante al riguardo).
Qui di seguito qualche altro spezzone di ragionamento. Ragiono sempre a budget zero, cioé supponendo di non acquistare nessuno stock di dati, altrimenti è troppo facile.
Se volessi ad es. analizzare la gestione degli appalti nel comune X dovrei
trovare e scaricare il file xml pubblicato dal comune
trasformare il file in modo da ottenere tre dataset: GARE, IMPRESE e PARTECIPAZIONI (o anche solo GARE e PARTECIPAZIONI denormalizzate, come nei miei spreadsheet)
scaricare i file delle attestazioni, cercare le imprese utilizzando il CF e ricavare qualche dato di localizzazione da collegare anche questo a IMPRESE
integrare le informazioni sulle gare sopra soglia cercando su TED il nome del comune, scrapando i risultati e unendoli via CIG alla relativa riga del dataset GARE
cercare sul web con il cf e parte del nome le imprese che mi interessano, unendo via CF il dataset che ne risulta (strutturato a piacere) a IMPRESE
Le attività 4 e 5 sembrano difficili da automatizzare e sono realizzabili manualmente solo per dataset di dimensioni ridotte.
Se ho come obbiettivo quello di rispondere alle query di utenti che, ad es., cercano potenziali clienti pubblici / fornitori devo necessariamente aggregare molti dataset. Sarò quindi vincolato a pochi tipi di source, abbastanza poveri di dati e, come si è notato, di qualità non semprem eccelsa.
Il processo ovviamente cambia: per ogni tipo di file devo prevedere
sistema di individuazione dei source
storage dei source in un'area dedicata
controllo, normalizzazione, salvataggio della versione corretta nel formato prescelto
Il sourcefile conterrà tre tipi di dati:
a) dati anagrafici del soggetto pubblico
b) dati anagrafici dell'impresa
c) dati caratteristici dell'operazione
I dati a) e b) dovranno rispondere a schemi predefiniti e identici per tutti i tipi di file, mentre i c) varieranno a seconda del tipo di operazione
caricamento nella piattaforma prescelta
Le cose poi cambiano a seconda che io preveda di gestire tutto il processo centralmente o di consentire il caricamento di dataset da parte di terzi, nel qual caso diventa critico il controllo della struttura e della qualità dei file in entrata.
Uno dei problemi da affrontare è quello dell'aggiornamento o dell'integrazione dei dati. Esempio
- t0: pubblicato il bando sulla GUUE
- t1: pubblicato l'esito della gara, inclusi i dati dei partecipanti e degli aggiudicatari
- t2: ottengo dati aggiuntivi sulle imprese partecipanti
- t3: ottengo dati aggiornati sulle imprese partecipanti da altra fonte, parzialmente in overlapping con quelli che ho già
Sembra necessario, almeno nel caso delle imprese, ricorrere a qualche forma di "versioning" dei dati.
E siamo solo all'inizio del ragionamento