Dataset: proposta metodologica per l'analisi dei dataset

70 views
Skip to first unread message

Andrea Borruso

unread,
May 30, 2013, 9:47:23 AM5/30/13
to opendat...@googlegroups.com
Buon pomeriggio,
il lavoro sui dataset è ancora in fase iniziale ma è partito.

Per alcuni dei dataset analizzati, perché non fare qualcosa di simile a quella che ho fatto con il mio post?
Preso un dataset di qualità, potremmo pulirlo, rielaborarlo e proporlo in una veste più adatta agli OpenData.

Il problema è che i dataset di qualità non sembrano tanti. In ogni caso, è un invito a concretizzare il lavoro di analisi e produrre una sorta di specifiche tecniche.

Saluti,

Andrea

Davide Taibi

unread,
May 31, 2013, 7:40:44 AM5/31/13
to opendat...@googlegroups.com
Ottimo suggerimento! Concordo con te nell'utilità di fare delle proposte su come elaborare i dataset presenti attualmente.

Da una rapida visione dei dataset disponibili, si evidenzia, però, una certa difficoltà a trovare dati "di qualità" da ripulire. Non dico che i dati presenti sono inutili ma sarebbe, quanto meno, opportuna una integrazione. Faccio un esempio, consideriamo i dati elettorali, sono presenti dei dati aggregati, e dal mio punto di vista sarebbe opportuno integrare questi dati con le posizioni delle sezioni in modo da potere fornire anche una distribuzione territoriale del voto.
Con questo non voglio dire che gli Open Data sono utili solo se contengono dei riferimenti geografici però, la maggiorparte dei progetti di successo fanno riferimento a visualizzazione dei dati e distribuzione di valori (rappresentanti finanziamenti, indici demografici, ecc...) su base territoriale. In effetti, anche i dataset che vengono resi disponibili in formato open da altri comuni in genere forniscono anche coordinate geografiche o almeno l'indirizzo delle strutture a cui fanno riferimento. Sarebbe bello ad esempio avere, non solo i dati aggregati sulla dispersione scolastica ma anche la lista degli asili, delle scuole, e la loro posizione geografica (o quanto meno l'indirizzo).

Andrea Borruso

unread,
May 31, 2013, 9:05:16 AM5/31/13
to opendat...@googlegroups.com
Ciao Davide,


Il giorno venerdì 31 maggio 2013 13:40:44 UTC+2, Davide Taibi ha scritto:
Da una rapida visione dei dataset disponibili, si evidenzia, però, una certa difficoltà a trovare dati "di qualità" da ripulire. Non dico che i dati presenti sono inutili ma sarebbe, quanto meno, opportuna una integrazione. Faccio un esempio, consideriamo i dati elettorali, sono presenti dei dati aggregati, e dal mio punto di vista sarebbe opportuno integrare questi dati con le posizioni delle sezioni in modo da potere fornire anche una distribuzione territoriale del voto. 
Con questo non voglio dire che gli Open Data sono utili solo se contengono dei riferimenti geografici però, la maggiorparte dei progetti di successo fanno riferimento a visualizzazione dei dati e distribuzione di valori (rappresentanti finanziamenti, indici demografici, ecc...) su base territoriale. In effetti, anche i dataset che vengono resi disponibili in formato open da altri comuni in genere forniscono anche coordinate geografiche o almeno l'indirizzo delle strutture a cui fanno riferimento. Sarebbe bello ad esempio avere, non solo i dati aggregati sulla dispersione scolastica ma anche la lista degli asili, delle scuole, e la loro posizione geografica (o quanto meno l'indirizzo).

non posso che essere d'accordo, è difficile fare questo lavoro con questi dati.

Ed è necessario che qualcuno del Comune si faccia parte attiva in questi scambi di queste settimane. Io ho già chiesto al Dott. Meli di inviarmi uno stralcio del nuovo dataset sui siti turistici, ma ad oggi non ho avuto alcuna risposta. Riproverò.

Saluti,

Ciro Spataro

unread,
May 31, 2013, 4:48:07 PM5/31/13
to opendat...@googlegroups.com
http://portscu.comune.palermo.it/portscu/jsp/home.jsp?modo=tabella

Avete detto elenco scuole di Palermo con indicazione di via e nome scuola?

Andrea Borruso

unread,
Jun 1, 2013, 3:06:01 AM6/1/13
to opendat...@googlegroups.com
Ciao Ciro,


Il giorno venerdì 31 maggio 2013 22:48:07 UTC+2, Ciro Spataro ha scritto:
http://portscu.comune.palermo.it/portscu/jsp/home.jsp?modo=tabella

Avete detto elenco scuole di Palermo con indicazione di via e nome scuola?


a chi dobbiamo scrivere per farci fare un banalissimo export di questi 435 record? A te, a Meli?

Non credo abbia senso perdere tempo con uno scraping di questo sito, il dato è già pronto, basta soltanto un export e potrebbe essere un buon dataset "navescuola" da pubblicare in OpenData.

Con questi dati pubblicati in maniera più accessibile si potrebbero realizzare mappe tematiche mooolto più utilizzabili di queste

Buona domenica,

a

Andrea Borruso

unread,
Jun 1, 2013, 3:15:45 AM6/1/13
to opendat...@googlegroups.com
Ciao,

L'invito a rendere open quell'archivio secondo me però rimante forte.

Che ne pensate?

Ciro Spataro

unread,
Jun 1, 2013, 4:52:59 PM6/1/13
to opendat...@googlegroups.com
a chi chiedere lo devo capire,
credo/immagino/penso a qualche collega della pubblica istruzione.
Lunedì faccio qualche telefonata

Davide Taibi

unread,
Jun 3, 2013, 7:06:49 AM6/3/13
to opendat...@googlegroups.com
Nell'analizzare i dataset esistenti nella sezione Open Data del comune di Palermo, mi è venuta in mente una idea per valorizzare in qualche modo i dati che sono stati pubblicati fino adesso.
Visto che la  maggior parte dei dati attualmente pubblicati riguarda dati di tipo statistico, e considerato che spesso tali dati sono consolidati in quanto si riferiscono ad anni passati, e come tali non subiranno più modifiche, ho pensato che potrebbe essere utile fornire questi dati in un formato differente come ad esempio Json-stat, che ne pensate?
Io ho iniziato a fare delle prove con i dati relativi ai censimenti ed in effetti trasformare una tabella excel in Json-stat consente ad esempio di utilizzare le api di goolge chart per creare dei grafici sui dati. Di fatto mi sembra un approccio interesante per valorizzare e rendere realmente riusabile l'insieme dei dati pubblicati.
A presto,

  Davide

Andrea Borruso

unread,
Jun 3, 2013, 4:45:52 PM6/3/13
to opendat...@googlegroups.com
Ciao Davide,


Il giorno lunedì 3 giugno 2013 13:06:49 UTC+2, Davide Taibi ha scritto:
Nell'analizzare i dataset esistenti nella sezione Open Data del comune di Palermo, mi è venuta in mente una idea per valorizzare in qualche modo i dati che sono stati pubblicati fino adesso.

sono d'accordo in linea generale.
 
Visto che la  maggior parte dei dati attualmente pubblicati riguarda dati di tipo statistico, e considerato che spesso tali dati sono consolidati in quanto si riferiscono ad anni passati, e come tali non subiranno più modifiche, ho pensato che potrebbe essere utile fornire questi dati in un formato differente come ad esempio Json-stat, che ne pensate?
Io ho iniziato a fare delle prove con i dati relativi ai censimenti ed in effetti trasformare una tabella excel in Json-stat consente ad esempio di utilizzare le api di goolge chart per creare dei grafici sui dati. Di fatto mi sembra un approccio interessante per valorizzare e rendere realmente riusabile l'insieme dei dati pubblicati.


Nello specifico la cosa però non mi convince molto e potrei sbagliarmi. Non ho visto tutti i dati pubblicati, ma una decina di quelli "statistici" mi sembrano dati di quasi nessun valore e che non andrebbero pubblicati in questa sezione. Si tratta spesso di dati aggregati, e strutturati per la stampa.
L'idea di predisporre i dati per strumenti belli come quelli di cui parli mi piace molto dal punto di vista generale, ma mi sembra un passo falso, perché abiliterebbero una bella visualizzazione di dati poco utili.

Non mi prendere per criticone, cambio idea facilmente ;)

Notte,

a
 

Davide Taibi

unread,
Jun 4, 2013, 4:08:28 AM6/4/13
to opendat...@googlegroups.com
 Ciao Andrea,

  sono d'accordo con te sul fatto che molti dei dati aggregati presenti attualmente sono poco utili, e la trasformazione di questi dati potrebbe essere solo una perdita di tempo fine a se stessa. Concordo anche sul fatto che certi dati non dovrebbero stare lì, perchè sono stati creati con obiettivi differenti di quello che l'Open Data propone  :-)

Ho notato però che anche alcuni comuni, come ad esempio Firenze, accanto a dati georeferenziati e dettagliati, pubblica anche dati aggregati, come ad esempio il dataset dei risulati delle elezioni politiche:
http://opendata.comune.fi.it/amministrazione/dataset_0309.html

In questa ottica ho pensato che, fermo restando la necessità di migliorare la tipologia dei dati da pubblicare, si poteva, per alcuni dataset, rendere disponibile un formato elaborabile automaticamente e non una tabella formattata adatta solo alla stampa.

Aperto a qualunque tipo di critica, penso sia importante parlarne e condividere i differenti punti di vista! :-)

  Davide

Andrea Borruso

unread,
Jun 4, 2013, 4:16:56 AM6/4/13
to opendat...@googlegroups.com
Ciao Davide,


Il giorno martedì 4 giugno 2013 10:08:28 UTC+2, Davide Taibi ha scritto:
Ho notato però che anche alcuni comuni, come ad esempio Firenze, accanto a dati georeferenziati e dettagliati, pubblica anche dati aggregati, come ad esempio il dataset dei risulati delle elezioni politiche:
http://opendata.comune.fi.it/amministrazione/dataset_0309.html

conosco bene quel sito e sono in contatto con uno dei suoi curatori, dopo essere stato nello stesso tavolo di relatori alla recente conferenza OpenGeoData di Roma. Non lo scrivo per spararmi stupide pose, ma soltanto per fare presente che ci possiamo mettere facilmente in contatto, qualora dovesse servire.

Il Comune di Firenza fa benissimo a farlo, e lo dovrebbe fare pure Palermo. Lo fanno per "avvicinare" di più gli utenti a questo mondo, ma tutto avrebbe meno forza se non avessero tutto il resto alle spalle.

Ma magari la strategia che proponi premia. Partiamo da una che si "vede" e magari questo aiuta a fare crescere la consapevolezza.

Hai già scelto qualche dataset campione? Hai un URL da inviarci per farci emozionare? ;)

Buona giornata e grazie,

a
 

Davide Taibi

unread,
Jun 4, 2013, 5:22:46 PM6/4/13
to opendat...@googlegroups.com
Ciao Andrea,

   ancora niente di pronto ma avevo iniziato a lavorare sui dati dei censimenti, giusto per partire da qualcosa :-)
Il file di dati lo trovi in allegato, appena ho i primi grafici ti invio la URL.
A presto,

  Davide
censimento_palermo.json

Davide Taibi

unread,
Jun 4, 2013, 6:15:44 PM6/4/13
to opendat...@googlegroups.com
Ciao Andrea,
   adesso non riesco a darti un link ma ti allego un file di esempio. Se carichi questo file e il file di dati precedentemente inviato in una stessa cartella di un web server, potrai visualizzare un semplice grafico a barre dei dati relativi agli utlimi censimenti.
L'aspetto positivo che vedo in questo approccio è questo: dalla tabella di dati pubblicata in xls utile solo per la stampa, siamo passati al formato json-stat che può essere elaborato in diversi modi (visualizzazione tabellare, grafico e quant'altro).

  Davide
example.htm

Andrea Borruso

unread,
Jun 5, 2013, 9:03:07 AM6/5/13
to opendat...@googlegroups.com
Ciao Davide,


Il giorno mercoledì 5 giugno 2013 00:15:44 UTC+2, Davide Taibi ha scritto:
adesso non riesco a darti un link ma ti allego un file di esempio. Se carichi questo file e il file di dati precedentemente inviato in una stessa cartella di un web server, potrai visualizzare un semplice grafico a barre dei dati relativi agli utlimi censimenti.

eccoti un URL http://goo.gl/mMTfj
 
L'aspetto positivo che vedo in questo approccio è questo: dalla tabella di dati pubblicata in xls utile solo per la stampa, siamo passati al formato json-stat che può essere elaborato in diversi modi (visualizzazione tabellare, grafico e quant'altro).

Correggimi se sbaglio, il problema del file da cui sei partito non è tanto che sia in XLS, quanto quello che non sia strutturato per essere subito letto da qualcosa utile a fare visualizzazione come le tue. Insomma hai fatto quello che hai fatto, soprattutto facendo pulizia, poi è chiaro che il json (in generale) sia un formato ottimale per gli obiettivi di cui parli.

Ma tornando al tuo esempio e al tuo lavoro, che ne pensi di aggiungere una sezione nel nostro documento che sottolinei l'importanza di "mostrare" a che servono gli OpenData, montare un paio di esempi come il tuo e descriverne i requisti (in modo che possano essere replicati)?

Ma come è possibile che siamo rimasti in due? Ci dovremmo vedere, anche un hangout.

Grazie sempre e alla prossima,

a

Davide Taibi

unread,
Jun 5, 2013, 4:34:39 PM6/5/13
to opendat...@googlegroups.com
Grazie Andrea per avere messo tutto online.

Il giorno mercoledì 5 giugno 2013 15:03:07 UTC+2, Andrea Borruso ha scritto:
Ciao Davide,

Il giorno mercoledì 5 giugno 2013 00:15:44 UTC+2, Davide Taibi ha scritto:
adesso non riesco a darti un link ma ti allego un file di esempio. Se carichi questo file e il file di dati precedentemente inviato in una stessa cartella di un web server, potrai visualizzare un semplice grafico a barre dei dati relativi agli utlimi censimenti.

eccoti un URL http://goo.gl/mMTfj
 
L'aspetto positivo che vedo in questo approccio è questo: dalla tabella di dati pubblicata in xls utile solo per la stampa, siamo passati al formato json-stat che può essere elaborato in diversi modi (visualizzazione tabellare, grafico e quant'altro).

Correggimi se sbaglio, il problema del file da cui sei partito non è tanto che sia in XLS, quanto quello che non sia strutturato per essere subito letto da qualcosa utile a fare visualizzazione come le tue. Insomma hai fatto quello che hai fatto, soprattutto facendo pulizia, poi è chiaro che il json (in generale) sia un formato ottimale per gli obiettivi di cui parli.


Esattamente! molti dei file xls pubblicati attualmente vanno bene solo per essere stampati, difficilmente possono essere impiegati per una elaborazione se non si trasformano prima in qualcosa di più strutturato.

 

Ma tornando al tuo esempio e al tuo lavoro, che ne pensi di aggiungere una sezione nel nostro documento che sottolinei l'importanza di "mostrare" a che servono gli OpenData, montare un paio di esempi come il tuo e descriverne i requisti (in modo che possano essere replicati)?


Ottima idea. Vediamo di scrivere qualcosa anche a riguardo. A tal proposito concordo anche con Marco, in quanto tali requisiti potrebbero far parte delle linee guida o quanto meno nelle linee guida potrebbe esserci un riferimento.
 
Ma come è possibile che siamo rimasti in due? Ci dovremmo vedere, anche un hangout.


Non vorrei che i tecnicismi abbiamo spaventato un pò :-)  Però se si legge bene, al di là di qualche aspetto tecnico, l'attenzione è stata posta principalmente all'analisi dell'esistente al fine di valorizzarlo.
 
Grazie sempre e alla prossima,

a

A presto, penso anche io sia necessario incontrarci,
Ciao

  Davide
Reply all
Reply to author
Forward
0 new messages