Come fare la descrizione di un dataset?

471 views
Skip to first unread message

Alberto

unread,
Jul 15, 2014, 11:56:54 AM7/15/14
to spaghett...@googlegroups.com
Ciao a tutti,

in questi giorni il gruppo di OpenPompei sta lavorando giorno e soprattutto notte per vedere se riusciamo a pubblicare un paio di dataset open su Pompei, piccolissimi ma sugosi perché sono dati di appalti (incrociate le dita, vediamo se ce lo lasciano fare!). Non stiamo ancora facendo un sito OD, faremo solo una pagina prototipo all'interno del sito di Pompei. 

Ci farebbe comodo avere un template per descrivere i dataset, giusto per avere metadati decorosi. Mi consigliate qualcosa? 

Paolo Mainardi

unread,
Jul 15, 2014, 11:59:55 AM7/15/14
to spaghett...@googlegroups.com
Secondo me questo formato: http://data.okfn.org/doc/data-package come insegna il buon @aborruso :)


--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.



--
 
 Twinbit

Paolo Mainardi 
Twinbit Founder - CTO

www:      twinbit.it 
mobile:   (+39) 3401678089 
skype:    paolo_mainardi 
linkedinpaolomainardi 
twitter:  @paolomainardi 
blog:     paolomainardi.com 

Francesco Piero Paolicelli

unread,
Jul 15, 2014, 12:06:29 PM7/15/14
to spaghett...@googlegroups.com

Trovi alcuni tutorial ed anche esempi metadati.

Oppure:

Trovi tabelle di esempi con checklist per la metadatizzazione


Inviato da iPhone
--

Irene Celino

unread,
Jul 15, 2014, 12:08:14 PM7/15/14
to spaghett...@googlegroups.com
se vuoi mettere metadati di base per descrivere un dataset lo standard de facto è DCAT: http://www.w3.org/TR/vocab-dcat/
come segnalava credo matteo, recentemente hanno anche fatto l'estensione per descrivere i data portal DCAT-AP: https://joinup.ec.europa.eu/asset/dcat_application_profile/asset_release/dcat-application-profile-data-portals-europe-final
http://about.me/iricelino/

    " If you understand what you're doing,
           you're not learning anything. "

sabas88

unread,
Jul 15, 2014, 12:10:29 PM7/15/14
to spaghett...@googlegroups.com
+1
Se mirate a rilasciare solo dati tabulari, TSV + schema.
@aborruso mi ha contagiato.


Il giorno 15 luglio 2014 17:59, Paolo Mainardi <pa...@twinbit.it> ha scritto:

Diego Valerio Camarda

unread,
Jul 15, 2014, 12:25:23 PM7/15/14
to spaghett...@googlegroups.com
io quoto assolutamente Irene!

un piccolo record RDF che descrive il dataset mi sembra la cosa più carina (considerando che poi in effetti lo si può trattare come un semplice XML descrittivo) 
se il dataset lo si condivide in ZIP si può includere il file RDF che lo descrive e si fa un lavoro: portabile, multilingua, interoperabile, machine readable! 

poi se i dataset sono pochi, e potete quindi farlo a mano, io aggiungerei un paio di classificazioni eurovoc e avete fatto tombola :)

se volete vi aiuto pure... più di questo pur per spingere RDF no so che altro fare :)) 



----------
Diego Valerio Camarda
dcam...@regesta.com - www.regesta.com

Alberto

unread,
Jul 15, 2014, 1:06:48 PM7/15/14
to spaghett...@googlegroups.com
Grazie intanto a tutti. Sto guardando datapackage, e fin qui ci arrivo. La cosa RDF di Irene e Diego credo piacerà molto a Alfredo. 

Diego, forse ti prendo in parola per quella cosa. Ti posso scrivere in mail privata? 

Irene Celino

unread,
Jul 15, 2014, 1:16:18 PM7/15/14
to spaghett...@googlegroups.com
beh, giusto per convincerti: che io sappia, ckan (e altri software per fare open data portal) usano proprio dcat per descrivere i dataset e senza far vedere l'rdf all'utente... :-)
se googli per "dcat editor" trovi cose come http://metasolutions.se/2014/03/dcat-editor-based-on-rdforms/ oppure http://rdforms.com/editors/dcat/


Il giorno 15 luglio 2014 19:06, Alberto <alberto...@gmail.com> ha scritto:
Grazie intanto a tutti. Sto guardando datapackage, e fin qui ci arrivo. La cosa RDF di Irene e Diego credo piacerà molto a Alfredo. 

Diego, forse ti prendo in parola per quella cosa. Ti posso scrivere in mail privata? 

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.



--

Paolo Mainardi

unread,
Jul 15, 2014, 1:26:59 PM7/15/14
to spaghett...@googlegroups.com
DKAN supporta anche nativamente "dcat" sia come RDFa (in pagina) sia come RDF :)

Alberto

unread,
Jul 15, 2014, 1:30:45 PM7/15/14
to spaghett...@googlegroups.com, pa...@twinbit.it
Ma quindi voi  (Irene e Diego) descrivereste in RDF un dataset in, poniamo, JSON? Non vi dà problemi il fatto che il dataset sotto non sia linked?

Nicola Vitucci

unread,
Jul 15, 2014, 2:17:49 PM7/15/14
to spaghett...@googlegroups.com
Alberto: in RDF puoi descrivere praticamente quello che vuoi e DCAT è
fatto apposta per descrivere qualsiasi tipo di dataset (ci sono altri
vocabolari più specifici per dataset già in RDF), ma se vuoi mantenere
il tuo pacchetto "uniforme" (per esempio se è già in JSON) l'approccio
suggerito su http://data.okfn.org/doc/data-package mi sembra molto valido.

Nicola
> --
> Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti
> Open Data" di Google Gruppi.
> Per annullare l'iscrizione a questo gruppo e non ricevere più le sue
> email, invia un'email a spaghettiopend...@googlegroups.com
> <mailto:spaghettiopend...@googlegroups.com>.

Diego Valerio Camarda

unread,
Jul 15, 2014, 3:35:37 PM7/15/14
to spaghett...@googlegroups.com
Alberto scrivimi pure in privato, se si tratta di un paio di record RDF il tempo lo trovo di sicuro!

come ha fatto presente Nicola, si tratta proprio di descrivere il dataset, non i singoli dati in esso contenuti, quindi non ci sono problemi se si tratta di JSON, CSV o lampade a petrolio

lo facciamo in json-ld (http://json-ld.org/) e sono tutti contenti (i fissati come me e quelli che vogliono dati freschi e semplici da consumare)

fammi sapere,

a presto,
diego




----------
Diego Valerio Camarda
dcam...@regesta.com - www.regesta.com


Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per ulteriori opzioni, visita https://groups.google.com/d/optout.

Diego Valerio Camarda

unread,
Jul 15, 2014, 3:41:09 PM7/15/14
to spaghett...@googlegroups.com
Irene, carino quello che segnali http://rdforms.com/editors/dcat/ , fa risparmiare un sacco di tempo!

si può partire da quello e aggiungere qualche tripla di interlinking e soprattutto... fare fuori i blank nodes!

io preferisco di molto avere IRI che non si deferenziano che blank nodes... tu no? :)

----------
Diego Valerio Camarda
dcam...@regesta.com - www.regesta.com


Francesco Piero Paolicelli

unread,
Jul 15, 2014, 3:51:35 PM7/15/14
to spaghett...@googlegroups.com
Arabo

Inviato da iPhone

Nicola Vitucci

unread,
Jul 15, 2014, 3:51:35 PM7/15/14
to spaghett...@googlegroups.com
Nel caso foste interessati alla descrizione di dataset RDF, rilancio con
questo:

http://lab.linkeddata.deri.ie/ve2/

Ho visto che c'è anche su rdforms ma non so quale dei due sia più
aggiornato... Sospetto che, essendo voiD creato da DERI, il secondo sia
più completo :-)

Nicola

Il 15/07/2014 21:40, Diego Valerio Camarda ha scritto:
> Irene, carino quello che segnali http://rdforms.com/editors/dcat/ , fa
> risparmiare un sacco di tempo!
>
> si può partire da quello e aggiungere qualche tripla di interlinking e
> soprattutto... fare fuori i blank nodes!
>
> io preferisco di molto avere IRI che non si deferenziano che blank
> nodes... tu no? :)
>
> ----------
> Diego Valerio Camarda
> dcam...@regesta.com <mailto:dcam...@regesta.com> - www.regesta.com
> <http://www.regesta.com>
>
>
> Il giorno 15 luglio 2014 21:35, Diego Valerio Camarda
> <dcam...@regesta.com <mailto:dcam...@regesta.com>> ha scritto:
>
> Alberto scrivimi pure in privato, se si tratta di un paio di record
> RDF il tempo lo trovo di sicuro!
>
> come ha fatto presente Nicola, si tratta proprio di descrivere il
> dataset, non i singoli dati in esso contenuti, quindi non ci sono
> problemi se si tratta di JSON, CSV o lampade a petrolio
>
> lo facciamo in json-ld (http://json-ld.org/) e sono tutti contenti
> (i fissati come me e quelli che vogliono dati freschi e semplici da
> consumare)
>
> fammi sapere,
>
> a presto,
> diego
>
>
>
>
> ----------
> Diego Valerio Camarda
> dcam...@regesta.com <mailto:dcam...@regesta.com> - www.regesta.com
> <http://www.regesta.com>
>
>
> Il giorno 15 luglio 2014 20:17, Nicola Vitucci
> <nicola....@gmail.com <mailto:nicola....@gmail.com>> ha scritto:
>
> Alberto: in RDF puoi descrivere praticamente quello che vuoi e
> DCAT è
> fatto apposta per descrivere qualsiasi tipo di dataset (ci sono
> altri
> vocabolari più specifici per dataset già in RDF), ma se vuoi
> mantenere
> il tuo pacchetto "uniforme" (per esempio se è già in JSON)
> l'approccio
> suggerito su http://data.okfn.org/doc/data-package mi sembra
> molto valido.
>
> Nicola
>
> Il 15/07/2014 19:30, Alberto ha scritto:
> > Ma quindi voi (Irene e Diego) descrivereste in RDF un dataset in,
> > poniamo, JSON? Non vi dà problemi il fatto che il dataset sotto non sia
> > linked?
> >
> > --
> > Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti
> > Open Data" di Google Gruppi.
> > Per annullare l'iscrizione a questo gruppo e non ricevere più le sue
> > email, invia un'email a spaghettiopend...@googlegroups.com
> <mailto:spaghettiopendata%2Bunsu...@googlegroups.com>
> > <mailto:spaghettiopend...@googlegroups.com
> <mailto:spaghettiopendata%2Bunsu...@googlegroups.com>>.
> > Visita questo gruppo all'indirizzo
> > http://groups.google.com/group/spaghettiopendata.
> > Per altre opzioni visita https://groups.google.com/d/optout.
>
> --
> Hai ricevuto questo messaggio perché sei iscritto al gruppo
> "Spaghetti Open Data" di Google Gruppi.
> Per annullare l'iscrizione a questo gruppo e non ricevere più le
> sue email, invia un'email a
> spaghettiopend...@googlegroups.com
> <mailto:spaghettiopendata%2Bunsu...@googlegroups.com>.
> Visita questo gruppo all'indirizzo
> http://groups.google.com/group/spaghettiopendata.
> Per ulteriori opzioni, visita https://groups.google.com/d/optout.
>
>
>

Diego Valerio Camarda

unread,
Jul 15, 2014, 4:00:59 PM7/15/14
to spaghett...@googlegroups.com
نيكولاس، ومع ذلك، تحتاج إلى إفراغ مجموعات البيانات المرتبطة على وجه التحديد، وأعتقد DCAT هو أكثر فائدة في هذه الحالة، أليس كذلك؟

الفراغ هو مخطط RDF المفردات للتعبير عن مجموعات البيانات الوصفية RDF. الغرض منه هو كجسر بين الناشرين والمستخدمين للبيانات RDF، مع تطبيقات تتراوح بين اكتشاف البيانات إلى فهرسة وأرشفة قواعد البيانات.


solo per Francesco ;)

Nicola però void serve per i dataset specificatamente linked, credo che DCAT sia più utile in questo caso, no?

VoID is an RDF Schema vocabulary for expressing metadata about RDF datasets. It is intended as a bridge between the publishers and users of RDF data, with applications ranging from data discovery to cataloging and archiving of datasets.

 

----------
Diego Valerio Camarda
dcam...@regesta.com - www.regesta.com


Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Nicola Vitucci

unread,
Jul 15, 2014, 4:22:24 PM7/15/14
to spaghett...@googlegroups.com
Diego: come dicevo voiD serve per descrivere dataset già in RDF
(http://www.w3.org/TR/void/#dataset), siano essi collegati ad altri
dataset o no. Per descrivere i _link_ tra dataset, voiD definisce i
linkset (http://www.w3.org/TR/void/#linkset). Nel caso di Alberto mi
pare di capire che il dataset non sia in formato RDF, quindi si dovrebbe
usare DCAT che non pone vincoli sul formato.

Diego, direi che mi fermo qui se no veramente tutte le mail sembreranno
scritte come la tua dedica a Francesco :-)

Nicola

Il 15/07/2014 22:00, Diego Valerio Camarda ha scritto:
> نيكولاس، ومع ذلك، تحتاج إلى إفراغ مجموعات البيانات المرتبطة على وجه
> التحديد، وأعتقد DCAT هو أكثر فائدة في هذه الحالة، أليس كذلك؟
>
> http://www.w3.org/TR/void/
> <http://www.w3.org/TR/void/>
> الفراغ هو مخطط RDF المفردات للتعبير عن مجموعات البيانات الوصفية RDF.
> الغرض منه هو كجسر بين الناشرين والمستخدمين للبيانات RDF، مع تطبيقات
> تتراوح بين اكتشاف البيانات إلى فهرسة وأرشفة قواعد البيانات.
>
>
> solo per Francesco ;)
>
> Nicola però void serve per i dataset specificatamente linked, credo che
> DCAT sia più utile in questo caso, no?
>
> http://www.w3.org/TR/void/
> VoID is an RDF Schema vocabulary for expressing metadata about RDF
> datasets. It is intended as a bridge between the publishers and users of
> RDF data, with applications ranging from data discovery to cataloging
> and archiving of datasets.
>
>
>
> ----------
> Diego Valerio Camarda
> Il giorno 15 luglio 2014 21:51, Nicola Vitucci <nicola....@gmail.com
> <mailto:nicola....@gmail.com>> ha scritto:
>
> Nel caso foste interessati alla descrizione di dataset RDF, rilancio con
> questo:
>
> http://lab.linkeddata.deri.ie/ve2/
>
> Ho visto che c'è anche su rdforms ma non so quale dei due sia più
> aggiornato... Sospetto che, essendo voiD creato da DERI, il secondo sia
> più completo :-)
>
> Nicola
>
> Il 15/07/2014 21:40, Diego Valerio Camarda ha scritto:
> > Irene, carino quello che segnali http://rdforms.com/editors/dcat/ , fa
> > risparmiare un sacco di tempo!
> >
> > si può partire da quello e aggiungere qualche tripla di interlinking e
> > soprattutto... fare fuori i blank nodes!
> >
> > io preferisco di molto avere IRI che non si deferenziano che blank
> > nodes... tu no? :)
> >
> > ----------
> > Diego Valerio Camarda
> > dcam...@regesta.com <mailto:dcam...@regesta.com>
> <mailto:dcam...@regesta.com <mailto:dcam...@regesta.com>> -
> www.regesta.com <http://www.regesta.com>
> > <http://www.regesta.com>
> >
> >
> > Il giorno 15 luglio 2014 21:35, Diego Valerio Camarda
> > <dcam...@regesta.com <mailto:dcam...@regesta.com>
> <mailto:dcam...@regesta.com <mailto:dcam...@regesta.com>>> ha scritto:
> >
> > Alberto scrivimi pure in privato, se si tratta di un paio di record
> > RDF il tempo lo trovo di sicuro!
> >
> > come ha fatto presente Nicola, si tratta proprio di descrivere il
> > dataset, non i singoli dati in esso contenuti, quindi non ci sono
> > problemi se si tratta di JSON, CSV o lampade a petrolio
> >
> > lo facciamo in json-ld (http://json-ld.org/) e sono tutti contenti
> > (i fissati come me e quelli che vogliono dati freschi e semplici da
> > consumare)
> >
> > fammi sapere,
> >
> > a presto,
> > diego
> >
> >
> >
> >
> > ----------
> > Diego Valerio Camarda
> > dcam...@regesta.com <mailto:dcam...@regesta.com>
> <mailto:dcam...@regesta.com <mailto:dcam...@regesta.com>> -
> www.regesta.com <http://www.regesta.com>
> > <http://www.regesta.com>
> >
> >
> > Il giorno 15 luglio 2014 20:17, Nicola Vitucci
> > <nicola....@gmail.com <mailto:nicola....@gmail.com>
> <mailto:nicola....@gmail.com <mailto:nicola....@gmail.com>>>
> ha scritto:
> >
> > Alberto: in RDF puoi descrivere praticamente quello che vuoi e
> > DCAT è
> > fatto apposta per descrivere qualsiasi tipo di dataset (ci sono
> > altri
> > vocabolari più specifici per dataset già in RDF), ma se vuoi
> > mantenere
> > il tuo pacchetto "uniforme" (per esempio se è già in JSON)
> > l'approccio
> > suggerito su http://data.okfn.org/doc/data-package mi sembra
> > molto valido.
> >
> > Nicola
> >
> > Il 15/07/2014 19:30, Alberto ha scritto:
> > > Ma quindi voi (Irene e Diego) descrivereste in RDF un dataset in,
> > > poniamo, JSON? Non vi dà problemi il fatto che il dataset sotto non sia
> > > linked?
> > >
> > > --
> > > Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti
> > > Open Data" di Google Gruppi.
> > > Per annullare l'iscrizione a questo gruppo e non ricevere più le sue
> > > email, invia un'email a spaghettiopend...@googlegroups.com
> <mailto:spaghettiopendata%2Bunsu...@googlegroups.com>
> > <mailto:spaghettiopendata%2Bunsu...@googlegroups.com
> <mailto:spaghettiopendata%252Buns...@googlegroups.com>>
> > > <mailto:spaghettiopend...@googlegroups.com
> <mailto:spaghettiopendata%2Bunsu...@googlegroups.com>
> > <mailto:spaghettiopendata%2Bunsu...@googlegroups.com
> <mailto:spaghettiopendata%252Buns...@googlegroups.com>>>.
> > > Visita questo gruppo all'indirizzo
> > > http://groups.google.com/group/spaghettiopendata.
> > > Per altre opzioni visita https://groups.google.com/d/optout.
> >
> > --
> > Hai ricevuto questo messaggio perché sei iscritto al gruppo
> > "Spaghetti Open Data" di Google Gruppi.
> > Per annullare l'iscrizione a questo gruppo e non ricevere più le
> > sue email, invia un'email a
> > spaghettiopend...@googlegroups.com
> <mailto:spaghettiopendata%2Bunsu...@googlegroups.com>
> > <mailto:spaghettiopendata%2Bunsu...@googlegroups.com
> <mailto:spaghettiopendata%252Buns...@googlegroups.com>>.

Diego Valerio Camarda

unread,
Jul 15, 2014, 5:12:51 PM7/15/14
to spaghett...@googlegroups.com
... io proseguirei solo per vendicarmi di quando napo e gli altri ci massacrano con i protocolli geografici :)

'notte

----------
Diego Valerio Camarda
dcam...@regesta.com - www.regesta.com


Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Marco Brandizi

unread,
Jul 15, 2014, 5:20:28 PM7/15/14
to spaghett...@googlegroups.com

On 15/07/2014 21:00, Diego Valerio Camarda wrote:
>
> Nicola però void serve per i dataset specificatamente linked, credo
> che DCAT sia più utile in questo caso, no?
>
> http://www.w3.org/TR/void/
> VoID is an RDF Schema vocabulary for expressing metadata about RDF
> datasets. It is intended as a bridge between the publishers and users
> of RDF data, with applications ranging from data discovery to
> cataloging and archiving of datasets.
>

Io voterei per VoiD (il tool di DERI di solito funziona abbastanza bene)
+ DCAT, magari con qualche convertitore automatico da uno all'altro (non
conosco bene DCAT, ma si dovrebbe poter fare). Entrambi, perché così si
accontentano tutti. VoID in linea di principio va bene per descrivere
qualunque data-set (fa riferimento al dataset che descrive tramite un
semplice URL/URI), in pratica è usato prevalentemente per dataset RDF,
perché è conosciuto in quest'ambito e perché è esso stesso un formato
RDF (quindi per leggerlo, devi comunque usare un parser RDF, anche se
per i dataset che descrive stai usando altro).

Ciao,

--

=========================================================================
Marco Brandizi <marco.b...@gmail.com>
http://www.marcobrandizi.info

Nicola Vitucci

unread,
Jul 15, 2014, 5:27:12 PM7/15/14
to spaghett...@googlegroups.com
Il 15/07/2014 23:12, Diego Valerio Camarda ha scritto:
> ... io proseguirei solo per vendicarmi di quando napo e gli altri ci
> massacrano con i protocolli geografici :)
>

Interessante, perché proprio in questi giorni ho chiesto a OGC a che
punto siamo con GeoSPARQL e i formati di serializzazione, e magari
qualcuno di voi sa se e quando GeoJSON verrà aggiunto ai formati
standard... ma questa è un'altra storia :-)

> 'notte

'notte

Nicola

>
> ----------
> Diego Valerio Camarda
> dcam...@regesta.com <mailto:dcam...@regesta.com> - www.regesta.com
> <http://www.regesta.com>
>
>
> Il giorno 15 luglio 2014 22:22, Nicola Vitucci <nicola....@gmail.com
> <mailto:nicola....@gmail.com>> ha scritto:
> > Il giorno 15 luglio 2014 21:51, Nicola Vitucci <nicola....@gmail.com <mailto:nicola....@gmail.com>
> > <mailto:nicola....@gmail.com <mailto:nicola....@gmail.com>>> ha scritto:
> >
> > > <mailto:spaghettiopendata%2Bunsu...@googlegroups.com
> <mailto:spaghettiopendata%252Buns...@googlegroups.com>
> > <mailto:spaghettiopendata%252Buns...@googlegroups.com
> <mailto:spaghettiopendata%25252Bun...@googlegroups.com>>>
> > <mailto:spaghettiopendata%252Buns...@googlegroups.com
> <mailto:spaghettiopendata%25252Bun...@googlegroups.com>>>>.
> > > > Visita questo gruppo all'indirizzo
> > > > http://groups.google.com/group/spaghettiopendata.
> > > > Per altre opzioni visita https://groups.google.com/d/optout.
> > >
> > > --
> > > Hai ricevuto questo messaggio perché sei iscritto al gruppo
> > > "Spaghetti Open Data" di Google Gruppi.
> > > Per annullare l'iscrizione a questo gruppo e non ricevere più le
> > > sue email, invia un'email a
> > > spaghettiopend...@googlegroups.com
> <mailto:spaghettiopendata%2Bunsu...@googlegroups.com>
> > <mailto:spaghettiopendata%2Bunsu...@googlegroups.com
> <mailto:spaghettiopendata%252Buns...@googlegroups.com>>
> > > <mailto:spaghettiopendata%2Bunsu...@googlegroups.com
> <mailto:spaghettiopendata%252Buns...@googlegroups.com>
> > <mailto:spaghettiopendata%252Buns...@googlegroups.com
> <mailto:spaghettiopendata%25252Bun...@googlegroups.com>>>.

Alessio Dragoni

unread,
Jul 15, 2014, 6:09:39 PM7/15/14
to spaghett...@googlegroups.com
il mio consiglio e' di riferirsi all'egregio lavoro fatto da Agid (Giorgia Lodi)
con le Linee Guida Nazionali per la Valorizzazione del Patrimonio informativo Pubblico
in particolare il paragrafo "4.2.1. Metadati obbligatori e obbligatori condizionatamente"

Alessio
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Matteo Brunati

unread,
Jul 16, 2014, 3:23:14 AM7/16/14
to spaghett...@googlegroups.com
+1 per la nota di alessio: quelli sono i metadati necessari, da presentare via DCAT poi.
Altro tema collegato: usare i certificati ODI.
https://certificates.theodi.org/overview

e più in dettaglio:
http://theodi.org/blog/machine-readable-rights-statements

 matt

piccola anticipazione: qui in Trentino nelle prossime settimane lo useremo per rilasciare in Open Data alcune cose correlate ai Big Data, sorpresa .)

Maurizio Napolitano

unread,
Jul 16, 2014, 3:42:18 AM7/16/14
to Spaghetti Open Data


> Ci farebbe comodo avere un template per descrivere i dataset, giusto per avere metadati decorosi. Mi consigliate qualcosa? 

Come ti è già stato suggerito, seguire dcat e dataprotocol è una ottima idea
Rimando poi alla lettura delle linee guida agid dove sono riportati gli stessi concetti

PS: sono a okfestival con maglietta sod

Alberto

unread,
Jul 16, 2014, 3:45:32 AM7/16/14
to spaghett...@googlegroups.com
Grazie davvero a tutti. Ho pensato di fare così: prima faccio una descrizione con datapackage, poi la passo a (San) Diego perché mi produca una demo in RDF.

Ho guardato anche le linee guida linkate da Alessio (grazie!), e mi fanno venire un dubbio che vi sottopongo: ma i nomi dei campi (al di là del formato, che poi sia JSON o RDF) sono standard? E quale standard si usa? Per esempio, le linee guida di AGID pescano da Dublin Core, e quindi la data dell'ultimo aggiornamento si chiama "modified". Invece, OKFN per datapackage usa "last_updated". Stessa cosa per l'URL: le linee guida pescano "downloadURL" da DCAT, mentre OKFN usa "online-url". Secondo voi come è meglio fare?

Maurizio Napolitano

unread,
Jul 16, 2014, 3:53:07 AM7/16/14
to Spaghetti Open Data

IMHO:
CKAN usa dcat (non aggiornato)
Se registri il dataset su datahub.io e riempi la form e segui quello standard
Poi la entry si esporta anche in RDF

Diego Valerio Camarda

unread,
Jul 16, 2014, 4:44:02 AM7/16/14
to spaghett...@googlegroups.com
io però su questa questione mi muoverei al contrario...

1. è molto importante usare uno standard internazionale (del w3c aggiungerei) e quindi partirei con l'RDF generato dal tool 
2. armati di buona pazienza si possono reinserire i dati su datahub.io (CKAN) per avere la versione standard de facto di molti sistemi, versione che si potrebbe distribuire insieme a quella più rigorosa per consentire l'import rapido in sistemi basati su CKAN (è utile?)


sarebbe bello che gli sviluppatori di CKAN facessero un modulo per ricevere i dati da DCAT e non solo viceversa

----------
Diego Valerio Camarda
dcam...@regesta.com - www.regesta.com


--

Stefano Durì

unread,
Jul 16, 2014, 5:25:59 AM7/16/14
to spaghett...@googlegroups.com
massimo rispetto per RDF, ma per me è off limits e non ho voglia di investirci su del tempo, quindi per quanto mi riguarda: json über alles
La gran parte dei dataset che maneggiamo sono tavole, quindi mi sembra utile una proposta che trovo qui (complementare a questoe che consente di inserire una descrizione completa del file e dello schema, inclusi i vincoli sulle colonne stesse (ad es. obbligatorietà e tipo/formato dei dati). Questo permette a un'applicazione di controllare in modo completo il data entry o la visualizzazione dei dati. Per il caricamento bulk occorrono ulteriori indicazioni (ad es. l'encoding, il delimiter, le righe da skippare ecc.). A me pare un formato estremamente flessibile e funzionale, oltre che facilmente leggibile.

esempio
{
 
"@id": "tree-ops.csv",
 
"@context": {
   
"@language": "en"
 
}
 
"title": "Tree Operations",
 
"keywords": ["tree", "street", "maintenance"],
 
"publisher": [{
   
"name": "Example Municipality",
   
"web": "http://example.org"
 
}],
 
"license": "http://opendefinition.org/licenses/cc-by/",
 
"modified": "2010-12-31",
 
"schema": {
   
"columns": [{
     
"@id": "_:GID",
     
"name": "GID",
     
"title": [
       
"GID",
       
"Generic Identifier"
     
],
     
"description": "An identifier for the operation on a tree.",
     
"datatype": "string",
     
"required": true,
     
"unique": true
   
}, {
     
"name": "on-street",
     
"title": "On Street",
     
"description": "The street that the tree is on.",
     
"datatype": "string"
   
}, {
     
"name": "species",
     
"title": "Species",
     
"description": "The species of the tree.",
     
"datatype": "string"
   
}, {
     
"name": "trim-cycle",
     
"title": "Trim Cycle",
     
"description": "The operation performed on the tree.",
     
"datatype": "string"
   
}, {
     
"name": "inventory-date",
     
"title": "Inventory Date",
     
"description": "The date of the operation that was performed.",
     
"datatype": "date",
     
"format": "M/D/YYYY"
   
}]
   
"primaryKey": "_:GID"  
 
}
}

Non dovrebbe essere nemmeno un problema realizzare uno script che genera il json partendo da un form o da uno spreadsheet in cui inserire i dati in modo più friendly. Per quanto riguarda lo schema, ad es., si potrebbe creare "by example", facendolo generare da uno script che legge un foglio contenente anche solo header e una riga dati ben formattati.

Alberto

unread,
Jul 16, 2014, 5:48:15 AM7/16/14
to spaghett...@googlegroups.com
Non è molto diverso da datapackage.json...

Alessio 'Blaster' Biancalana

unread,
Jul 16, 2014, 5:49:41 AM7/16/14
to spaghett...@googlegroups.com

Datapackage assolutamente. Lo endorso.

Ale
Inviato da Android

Il 16/lug/2014 11:48 "Alberto" <alberto...@gmail.com> ha scritto:
Non è molto diverso da datapackage.json...

--

Diego Valerio Camarda

unread,
Jul 16, 2014, 5:50:10 AM7/16/14
to spaghett...@googlegroups.com
Stefano... forse mi sono spiegato male

RDF è FACILE, non è necessario comprenderlo in tutte le sue sfumature per usarlo, infatti quello che segnali praticamente è un RDF (JSON-LD) e nel draft di cui mandi il link si stanno interrogando proprio sulla questione (come noi)
"
We are aiming for the JSON format to be interpretable as JSON-LD, but without any requirement to include context within the JSON itself (to save people from having to do boilerplate). We invite comments on the utility of this approach: is it useful for CSV metadata to be interpretable as JSON-LD? Is it helpful to be able to map it to RDF? Would it be better to rename some of the JSON-LD keywords, such as @id and@type?
"
inoltre il draft che segnali è ancora ad uno stato molto "draft", io non lo adotterei ora come ora

infine
parlavo di import nel senso del record descrittivo dei dataset nei cataloghi CKAN, non dei suoi contenuti!



----------
Diego Valerio Camarda
dcam...@regesta.com - www.regesta.com


--

Stefano Durì

unread,
Jul 16, 2014, 7:13:45 AM7/16/14
to spaghett...@googlegroups.com
@Diego
veramente non era pensata come una risposta a nessuno, ma come una banale considerazione personale sulla faccenda: io tendo spesso a seguire la via meno complicata e magari meno rigorosa, ma più utilizzabile (o utilizzata), "purché funzioni". Qualsiasi vincolo (anche qualcosa di "facile") è una seccatura che mi deve essere motivata in termini mooolto pragmatici. Nel draft si pongono il problema se usare JSON-LD, io credo esattamente per questo motivo: perché json funziona benissimo da solo, è sufficientemente rigoroso e magari anche più flessibile (si presta ad essere utilizzato da vari tipi di client, ad es.). In questo contesto di RDF non c'è strettamente bisogno e quindi rischia di complicare inutilmente la vita.
@Alberto
infatti sostengo questo tipo di soluzione. Il Tabular Data Packages è esplicitamente citato al punto A.4 di questo draft

Diego Valerio Camarda

unread,
Jul 16, 2014, 7:27:35 AM7/16/14
to spaghett...@googlegroups.com
@Stefano, scusa ma personalmente non condivido: 

quando si rilasciano dei dati per il riuso comune l'approccio RDF arricchisce di significato i metadati forniti dando virtualmente tutti gli strumenti necessari  a comprendere i contenuti (a chiunque e in qualsiasi lingua)

JSON-LD è semplicemente un JSON con in testa un paio di informazioni aggiuntive per capire dove andare a prendere le "spiegazioni" per ogni field del json (il contesto)

capisco il pragmatismo... ma ci sono anche le prospettive, non sempre ciò che è più rapido oggi si risolve come un investimento valido per il futuro, si possono trovare delle vie di mezzo, la sfida è proprio questa 

io trovo che questo sia il contesto giusto per l'RDF: condivisione, interoperabilità ed intelligibiltà nel tempo

dai, mi fermo qui per non tediare la lista

----------
Diego Valerio Camarda
dcam...@regesta.com - www.regesta.com


--

Andrea Raimondi

unread,
Jul 16, 2014, 8:01:21 AM7/16/14
to spaghett...@googlegroups.com
DCAT all the life, quoto Irene e Diego. Soprattutto Diego sul JSONLD. 

In ogni caso trovi molte risorse qui Alberto http://lov.okfn.org/dataset/lov/

Stefano Durì

unread,
Jul 16, 2014, 8:21:50 AM7/16/14
to spaghett...@googlegroups.com
guarda, se si tratta semplicemente di mettere qualche riga fissa all'inizio del file e di dimenticarsene per l'eternità per me va benissimo. Segretamente mi chiedo perché, ma intendo mantenere ufficialmente la mia totale ignoranza, quindi è un po' come dire "klaatu verata ..cough cough!". L'ho detto, ok?. Però ho l'impressione che non andrà necessariamente tutto liscio per sempre e qualunque cosa (apparentemente lecita) io faccia al resto del file. E se una qualsiasi cosa andrà storta io non saprò come diavolo aggiustarla. E a quel punto Sam Raimi mi sembrerà Disney

Alberto

unread,
Jul 16, 2014, 9:40:56 AM7/16/14
to spaghett...@googlegroups.com
Qualsiasi vincolo (anche qualcosa di "facile") è una seccatura che mi deve essere motivata in termini mooolto pragmatici.

Amen, fratello.

Per la cronaca, ci ho messo circa 90 minuti a fare il datapackage.json (ci sono più di 40 campi da descrivere).  Adesso lo ricontrollo per bene, poi lo mando a Diego per vedere se ci cava qualcosa. 

Alessio Dragoni

unread,
Jul 16, 2014, 11:16:47 AM7/16/14
to spaghett...@googlegroups.com
anche se hai tagliato il nastro comunque rispondo:

i nomi nei campi dei metadati non sono uguali purtroppo.

OKFN in alcuni casi ha anticipato l'introduzione di alcuni concetti che sono stati standardizzati in seguito.
In altri, come nel caso dei datapackage ha messo davanti gli aspetti pratici del loro ultilizzo a discapito
di un allineamento fedele con standard pre-esistenti.
Comunque se procedi con datapackage allora usa i nomi previsti li.

occhio che non mi risulta nelle specifiche dei metadati per il datapackage (http://dataprotocols.org/data-packages/) che vi sia un campo last_updated mentre per l'URL non usa online-url ma semplicemente url o path (in caso sia relativo al descrittore del datapackage)

ultima nota: datapackage e' una buona scelta, laddove effettivamente hai dei tools in grado di sfruttarli, per esempio per visualizzare i dati attraverso ReclineJS o analizzarli con la libreria R o simili ma altrimenti non vedo grandi vantaggi

Alessio



On 07/16/2014 09:45 AM, Alberto wrote:
Grazie davvero a tutti. Ho pensato di fare così: prima faccio una descrizione con datapackage, poi la passo a (San) Diego perché mi produca una demo in RDF.

Ho guardato anche le linee guida linkate da Alessio (grazie!), e mi fanno venire un dubbio che vi sottopongo: ma i nomi dei campi (al di là del formato, che poi sia JSON o RDF) sono standard? E quale standard si usa? Per esempio, le linee guida di AGID pescano da Dublin Core, e quindi la data dell'ultimo aggiornamento si chiama "modified". Invece, OKFN per datapackage usa "last_updated". Stessa cosa per l'URL: le linee guida pescano "downloadURL" da DCAT, mentre OKFN usa "online-url". Secondo voi come è meglio fare?
Reply all
Reply to author
Forward
0 new messages