OpenDataGround (se qualcuno vuole farsi un giro)

Andrea Raimondi

unread,

Jul 3, 2013, 6:34:51 AM7/3/13

to spaghett...@googlegroups.com

Se qualcuno volesse farci un giro, questo è OpenDataGround, una piattaforma che abbiamo sviluppato qui a EvoDevo per la pubblicazione e le gestione degli open datastore. Il sample esposto si basa sui dati del comune di Firenze.
http://dati.opendataground.it/florence

Ovviamente sono attive le chiamate rest da modello CKAN:
http://dati.opendataground.it/florence/api/1/rest/dataset
http://dati.opendataground.it/florence/api/2/rest/dataset
http://dati.opendataground.it/florence/api/2/rest/dataset/(ID_DATASET)

Graditissimi commenti, review ma sopratutto critiche.

Andrea

Michele Barbera

unread,

Jul 3, 2013, 11:08:33 AM7/3/13

to spaghett...@googlegroups.com

Ciao Andrea,

prima di tutto davvero complimenti per l'ottimo e interessante lavoro!

Visto che chiedi critiche e che so bene quanto è utile e fa piacere ricevere feedback, tento una critica (costruttiva) sperando di fare cosa gradita.

Non capisco quale sia il vantaggio - e anzi mi pare potenzialmente dannoso - di pubblicare i dati in formato RDF quando in realtà si tratta di una conversione puramente sintattica. Così lo vedo soltanto come un formato di serializzazione del CSV come qualsiasi altro, peraltro molto più difficile da gestire con gli strumenti attuali di un semplice json o csv.

Mi spiego, una tripla del tipo:

<http://lab.evodevo.it:8081/OpenDataGround/ontologies/Owner4Dataset209#record_13>

<http://lab.evodevo.it:8081/OpenDataGround/ontologies/Owner4Dataset209#tonnellate_di_rifiuti_Anno_2002>

"14"

Non è semanticamente più ricca di:

["record_13", "tonnellate_di_rifiuti_Anno_2002", "14"]

o di qualsiasi altro formato di rappresentazione che possiamo inventarci o che già esiste.

Al di la delle comprensibili ragioni di marketing, suppongo che l'unico motivo per cui mi pare possa aver senso fare una cosa del genere sta nel fatto, che essendo l'architettura del SW a strati, il layer della semantica (cioè una vera modellazione dei dati) potrebbe essere aggiunto in un altro momento e magari anche in un altro luogo.

Vero e assolutamente "Web". Ma qual'è il vantaggio di partire da quella rappresentazione e non da qualunque altra?

E dove sta invece lo svantaggio? Perché mi sembra potenzialmente dannoso?

E' una questione di percezione e di educazione all'uso e al valore dei Linked Data. Come ha già ricordato Matteo (Brunati), c'è stata una interessante flame war sulle mailing list linked data del w3c, attorno al fatto che una errata percezione di cosa significhi Linked Data può avere degli effetti negativi sul "mercato" (o meglio sulla community).

Se io, come data provider, erroneamente, faccio l'equivalenza Linked Data = Semantic Web = RDF e investo nel pubblicare dataset in quella forma, senza alcun ritorno sulla community, mi convinco e convinco gli sviluppatori che Linked Data non serve a niente. Inoltre faccio passare l'erroneo messaggio che basta avere un output in RDF per guadagnarsi la tanto agognata stellina.

Nota bene che non sono affatto un talebano dei Linked Data, tant'è che io stesso sto lavorando in una rappresentazione semplificata del grafo, che *non* usa RDF (e qui ci penseranno Matteo o Irene a bastonarmi :-) ). Trovo però che l'aspetto saliente sia quello di aggiungere valore a chi quei dati poi deve riutilizzarli, altrimenti tanto vale evitare di confondergli le idee.

Un discorso simile vale per molti (ma non tutti) dataset "semantici" già pubblicati in vari portali italiani (e per alcuni non sono, io per primo, privo di colpe :-) ).

Scusa la lungaggine e ripeto, spero che la critica sia costruttiva!

A presto e buon lavoro,

michele

Irene Celino

unread,

Jul 3, 2013, 11:43:19 AM7/3/13

to spaghett...@googlegroups.com

beh, michele, visto che vuoi essere bastonato... :-P
devo dire che non sono d'accordo con te e, paradossalmente, per le stesse ragioni che tu esponi.

siccome *non* è vero che linked data = rdf, non vedo nessun problema se qualcuno pubblica dati in rdf *senza* proclamare di aver esposto linked data.
forse mi sbaglio, ma non ho visto da nessuna parte sul sistema di evodevo il claim di aver esposto linked data.

il fatto ci sia anche il formato rdf insieme agli altri nemmeno mi sembra un problema.
anche il formato json potrebbe essere generato a partire da csv, quindi? perchè non mettere anche rdf, per quanto sia solo un formato "convertito"?

sono d'accordo che, intanto che c'erano, potevano mettere namespace dereferenziabili, ma anche così non ci vedo nulla di male (ho passato anni a gestire rdf che non erano linked data...).

piuttosto, mi verrebbe da contestare l'uso di rdf/xml anzichè turtle. questo sì che fa scappare a gambe levate tutti quanti!

quanto alla possibile errata percezione relativa alla agognata stellina, credo che non sia un problema di chi espone i dati, ma della comunità del semantic web (di cui faccio parte anch'io) che negli anni si è fatta un pessimo marketing e ha creato tante sigle e nomi diversi che hanno creato solo confusione.

diciamo che questo open data ground (tra l'altro, bel lavoro andrea!), nella sua versione rdf, è un esempio di semantic web, molto in senso syntactic, un po' in senso semantic e molto poco in senso web...

my 2c

irene

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più i suoi messaggi, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per ulteriori opzioni, visita https://groups.google.com/groups/opt_out.

--

http://about.me/iricelino/

" If you understand what you're doing,
you're not learning anything. "

Michele Barbera

unread,

Jul 3, 2013, 12:55:32 PM7/3/13

to spaghett...@googlegroups.com

oh nooo! Avevo risposto e poi ho fatto confusione con la Web UI e ho perso il messaggio :-((((

Non è che per caso l'ho mandato personalmente a te Irene?

ciao,

michele

Irene Celino

unread,

Jul 3, 2013, 1:28:47 PM7/3/13

to spaghett...@googlegroups.com

michele ha erroneamente mandato solo a me un messaggio per tutta la lista.

michele: ci ragiono un po' e poi (forse) ti rispondo.

---------- Messaggio inoltrato ----------
Da: Michele Barbera <bar...@spaziodati.eu>
Date: 03 luglio 2013 18:49
Oggetto: Re: [SOD] Re: OpenDataGround (se qualcuno vuole farsi un giro)
A: irene....@gmail.com

Si me le sono cercate :-)

sono stato volutamente un po' provocatorio (come faccio sempre) perché il tema mi pare importante.

Che la colpa delle errate percezioni sia nostra (nel senso di community sw) non ci piove, e le tue osservazioni sul fatto che qualunque formato, a parità di semantica è generabile da qualunque altro è assolutamente vero.

Non penso che però si possano trascurare due elementi importanti:

- lo (scarso) stato di maturità degli strumenti SW/LD e la maggiore complessità del formato RDF

- la familiarità ancora molto limitata dei developer e dei decisori pubblici con queste tecnologie

questi due fatti hanno inevitabilmente delle conseguenze. Il fatto che ci sia o meno il claim mi pare poco rilevante, sta di fatto che per il 99,5 dei manager IT della PA che non leggono questa lista

LD==RDF. Il buon Napo ci potrà confermare che siccome LD va di moda, allora nei progetti bisogna far di tutto pur di ficcare RDF da tutte le parti (e basta la sigla, poi tanto cosa c'e' dentro non lo guarda nessuno), con conseguente smarrimento dei developer che poi non sanno che pesci prendere.

Useranno JSON o CSV ignorando RDF dici tu. Ma quante volte questo si trasformerà nella inamovibile convinzione che LD, SW, RDF e tutte quelle robe li sono giocattoli complicati che mi hanno fatto perdere tempo e che se mi leggevo l'xlsx facevo prima? Si vede che cose come i file di configurazione di Mozilla in RDF o mostruosità come Fresnel mi hanno spaventato in passato e dopo aver benedetto YAML e i file di testo ho fatto tanta fatica a tornare a "fidarmi" di tutte le tecnologie che ruotano intorno al SW. Sono pazzo? E' irrazionale? Si, è certamente irrazionale, ma è un dato di fatto.

Se invece, da developer "vergine" mi avvicino a questo mondo vedendo i Linked Data della Camera allora godo e mi convinco. Allora mi è chiaro quale sia il valore aggiunto per me, come consumatore. Allora si, sono disposto a sopportare lo sforzo di compilarmi un wrapper ruby su una libreria C con 200.000 dipendenze perché mi serve un parser RDF che supporti la feature xy. Perché il valore aggiunto è chiaro e immediatamente visibile.

E tanto per essere chiaro e non essere frainteso: il lavoro di Andrea è eccellente e ancora complimenti! ho solo colto la palla al balzo per trattare un tema che mi prude da un po'.

A presto,

m.

Il giorno mercoledì 3 luglio 2013 17:43:19 UTC+2, Irene Celino (iricelino) ha scritto:

beh, michele, visto che vuoi essere bastonato... :-P
devo dire che non sono d'accordo con te e, paradossalmente, per le stesse ragioni che tu esponi.

siccome *non* è vero che linked data = rdf, non vedo nessun problema se qualcuno pubblica dati in rdf *senza* proclamare di aver esposto linked data.
forse mi sbaglio, ma non ho visto da nessuna parte sul sistema di evodevo il claim di aver esposto linked data.

il fatto ci sia anche il formato rdf insieme agli altri nemmeno mi sembra un problema.
anche il formato json potrebbe essere generato a partire da csv, quindi? perchè non mettere anche rdf, per quanto sia solo un formato "convertito"?

sono d'accordo che, intanto che c'erano, potevano mettere namespace dereferenziabili, ma anche così non ci vedo nulla di male (ho passato anni a gestire rdf che non erano linked data...).
piuttosto, mi verrebbe da contestare l'uso di rdf/xml anzichè turtle. questo sì che fa scappare a gambe levate tutti quanti!

quanto alla possibile errata percezione relativa alla agognata stellina, credo che non sia un problema di chi espone i dati, ma della comunità del semantic web (di cui faccio parte anch'io) che negli anni si è fatta un pessimo marketing e ha creato tante sigle e nomi diversi che hanno creato solo confusione.

diciamo che questo open data ground (tra l'altro, bel lavoro andrea!), nella sua versione rdf, è un esempio di semantic web, molto in senso syntactic, un po' in senso semantic e molto poco in senso web...

my 2c
irene

Andrea Raimondi

unread,

Jul 8, 2013, 5:38:16 AM7/8/13

to spaghett...@googlegroups.com

Ciao Michele, Ciao Irene
sinceramente non potevo sperare in commenti migliori. Michele so bene che questi temi ti stanno a cuore, e apprezzo la forte criticità dsull'argomento perchè, in effetti, il pericolo di un'errata percezione ora è alto, e rischia di rovinare il mercato che con fatica si sta venendo a creare.

Ci tengo subito a dire, mea culpa di non averlo fatto prima, che ODG è ancora in fase sviluppo. Qui a EvoDevo seguiamo anche molti altri progetti questo 2013, ed essenso in pochi abbiamo dovuto congelare per qualche mese lo sviluppo della piattaforma. Quando, mesi fa, abbiamo implementato il modulo di conversione formati (RDF compreso, ancora la V2 di CKAN non aveva fatto uscire il suo) stavamo cercando di automatizzare la serializzazione a partire dai CSV. Ovviamente, ma come ha anticipato Michele, il layer di modellazione dati è ancora in fase di test. Per questa ragione non lo abbiamo ancora inserito nella beta.

A prescindere dalla piattaforma concordo sull'errata equivalenza RDF=lInked data, soprattutto perchè, a mio parere, esistono altre soluzioni. Ciò non toglie che probabilmente l'owl rimane il formato semantico più efficiente, permettendo una modellazione (per nulla semplice se la vuoi fare bene) molto dettagliata e dinamica dei dati. In ogni caso, e qua mi scatta la curiosità verso la soluzione "semplificata" di Michele, ci sono altre soluzioni leggere ma altrettanto efficaci come il JSONLD (sul quale sto lavorando da un pò). Credo con Irene che la questione della percezione sia un lavoro continuo che interessa e conivolge in primis la comunità di chi si occupa, come noi, di queste cose. E ha ricadute su di essa. Questo significa però solamente che ogni passo in avanti che si fà comporta la responsabilità di avanzare verso una certa direzione o verso un'altra. La direzione che suggerisce Michele, quella di "aggiungere valore a chi quei dati poi deve riutilizzarli", è quella verso la quale personalmente auspico anche io. E mi rendo conto che generare confusione sui Linked significa ritardare lo sviluppo di un datamarket solido e di data marketplace di qualità. Credo, ad esempio, che sfide come quelle di Dandelion in Italia (si, sono un fan) o Enigma.io in USA indichino un percorso molto lungimirante ma sopratutto possibile di sviluppo nell'utilizzo di dati pubblici, privati o open che siano.

Siccome il mio compito, quando lavoro con le amministrazioni, è quello di aiutarle nelle fasi di avviamento all'apertura dei dati, personalmente cerco di limitare la spinta markettara verso l'equivalenza LD=RDF. Ed è anche per questo che, come faceva notare Irene, non c'è nessun claim LD=RDF sul nostro lavoro; ma non perchè l'equivalenza sia sbagliata in sè, ma perchè invece di puntare immediatamente ai Linked ci sono alcuni step prioritari che possono allargare lo spazio della semantica e favorire la diffusione sul mercato di modelli Linked diversi dall'RDF. In questo modo, credo, si può evitare il monopolio di un formato privilegiato e si permette lo sviluppo di soluzioni sematiche per ogni gusto, uso e consumo. E si fa crescere la comunità e, auspicabilmente ma non immediatamente, il mercato. Accordarsi sugli standard serve solamente ad allineare le amministrazioni su un timing di rilascio/produzione/pubblicazione dati comune. Se così non fosse, la possibilità di un mercato dati affidabile sarebbe minata in partenza.

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
A questo proposito segnalo che l'INPS ha ora le API online
http://www.inps.it/portale/default.aspx?sID=%3b0%3b7719%3b8567%3b&lastMenu=8567&iMenu=1&iNodo=8567&p4=2&bi=22&link=API%20INPS
Potete anche tirarvi giù un bulk modellato con un approccio piuttosto sperimentale, ma credo efficacie. Anzi Michele e Irene, vi invito a farti un giro sui dati. Per esempio, sono sicuro che li a SpazioDati ci possiate fare qualcosa di vertente e fico ;) Se poi avete bisogno di qualche chiarimento su questi dati potete contattarmi quando preferite. Buon divertimento!
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

In ogni caso grazie moltissimo dei commenti e delle critiche costruttive. Mi ha fatto molto piacere questo scambio sul tema Linked, specie con voi due :)

Andrea

Il giorno mercoledì 3 luglio 2013 17:08:33 UTC+2, Michele Barbera ha scritto:

Ciao Andrea,

prima di tutto davvero complimenti per l'ottimo e interessante lavoro!

Visto che chiedi critiche e che so bene quanto è utile e fa piacere ricevere feedback, tento una critica (costruttiva) sperando di fare cosa gradita.

Non capisco quale sia il vantaggio - e anzi mi pare potenzialmente dannoso - di pubblicare i dati in formato RDF quando in realtà si tratta di una conversione puramente sintattica. Così lo vedo soltanto come un formato di serializzazione del CSV come qualsiasi altro, peraltro molto più difficile da gestire con gli strumenti attuali di un semplice json o csv.

Mi spiego, una tripla del tipo:

<http://lab.evodevo.it:8081/OpenDataGround/ontologies/Owner4Dataset209#record_13>
<http://lab.evodevo.it:8081/OpenDataGround/ontologies/Owner4Dataset209#tonnellate_di_rifiuti_Anno_2002>
"14"

Non è semanticamente più ricca di:
["record_13", "tonnellate_di_rifiuti_Anno_2002", "14"]

o di qualsiasi altro formato di rappresentazione che possiamo inventarci o che già esiste.

Al di la delle comprensibili ragioni di marketing, suppongo che l'unico motivo per cui mi pare possa aver senso fare una cosa del genere sta nel fatto, che essendo l'architettura del SW a strati, il layer della semantica (cioè una vera modellazione dei dati) potrebbe essere aggiunto in un altro momento e magari anche in un altro luogo.
Vero e assolutamente "Web". Ma qual'è il vantaggio di partire da quella rappresentazione e non da qualunque altra?

E dove sta invece lo svantaggio? Perché mi sembra potenzialmente dannoso?

E' una questione di percezione e di educazione all'uso e al valore dei Linked Data. Come ha già ricordato Matteo (Brunati), c'è stata una interessante flame war sulle mailing list linked data del w3c, attorno al fatto che una errata percezione di cosa significhi Linked Data può avere degli effetti negativi sul "mercato" (o meglio sulla community).
Se io, come data provider, erroneamente, faccio l'equivalenza Linked Data = Semantic Web = RDF e investo nel pubblicare dataset in quella forma, senza alcun ritorno sulla community, mi convinco e convinco gli sviluppatori che Linked Data non serve a niente. Inoltre faccio passare l'erroneo messaggio che basta avere un output in RDF per guadagnarsi la tanto agognata stellina.

Nota bene che non sono affatto un talebano dei Linked Data, tant'è che io stesso sto lavorando in una rappresentazione semplificata del grafo, che *non* usa RDF (e qui ci penseranno Matteo o Irene a bastonarmi :-) ). Trovo però che l'aspetto saliente sia quello di aggiungere valore a chi quei dati poi deve riutilizzarli, altrimenti tanto vale evitare di confondergli le idee.

Un discorso simile vale per molti (ma non tutti) dataset "semantici" già pubblicati in vari portali italiani (e per alcuni non sono, io per primo, privo di colpe :-) ).

Scusa la lungaggine e ripeto, spero che la critica sia costruttiva!

A presto e buon lavoro,
michele

Il giorno mercoledì 3 luglio 2013 12:34:51 UTC+2, Andrea Raimondi ha scritto:

Il giorno mercoledì 3 luglio 2013 12:34:51 UTC+2, Andrea Raimondi ha scritto:

Michele Barbera

unread,

Jul 8, 2013, 9:41:05 AM7/8/13

to spaghett...@googlegroups.com

Ciao Andrea,

sono contento che tu abbia letto la mia critica in senso costruttivo, certe volte mi rileggo e mi rendo conto che potrebbero sembrare critiche fini a se stesse!

Anch'io questa volta mi prendo tempo, i temi sono complessi e interessanti, e non sarebbe per niente male parlarne a una tavola rotonda, o davanti a una birra fresca ;-)

Fantastica l'API bulk dell'INPS, grazie. La provo di sicuro e ti faccio sapere. Non sai quanto tempo si perde a scaricare i dati, che dovrebbe essere la parte semplice!

A questo proposito, un altro tema (off-topic) che mi sta a cuore e di cui mi piacerebbe discutere, è quello della qualità e della frequenza di aggiornamento dei dati. Tanto per fare un esempio, un po' di tempo fa ho trovato diversi errori evidenti in alcuni dataset del ministero della Sanità, ho provato a scrivere due o tre mail ma non ho mai ricevuto alcuna risposta. Lo stesso con alcuni portali comunali e regionali.

Il fatto è che se devi utilizzare professionalmente questi dati e non hai alcuna garanzia di poter parlare con un responsabile, ne di quando e quanto spesso i dati verranno aggiornati, il gioco si fa molto rischioso e non credo che vedremo presto dei veri riutilizzi a parte qualche app "dimostrativa".