Datigov sotto al cofano

91 views
Skip to first unread message

Francesco Piero Paolicelli

unread,
Jan 29, 2022, 3:00:05 AM1/29/22
to spaghettiopendata@googlegroups.com Data
Ciao a tutti,
questa volta vi scrivo non più da addetto ai lavori di trincea nella Pa locale ma da membro di lavoro del gruppo Agid per il portale dati.gov.it

Alert: post lungo

Come sapete sia gli obiettivi del piano triennale che il monitoraggio del maturity report (ho visto alcune email vostre in merito e mi riprometto di aggiungere qualche riflessione appena posso), indicano chiaramente le direzioni qualitative e quantitative dove muovere il sistema dei dati aperti italiani ed europei. Sapete che il piano triennale poi viene adeguato ogni anno per questo motivo.
la strategia dei dati (anche aperti) si è spostata da silos a grandi spazi in cui ci saranno bigdata.
questi possono avere varie finalità di utilizzo: istituzionali , per il riuso ect
la distinzione è fondamentale per capire il ruolo per esempio tra il nuovo PDND e l’attuale scenario del dati aperti italiani.
spesso si fa confusione.
l’interscambio dei dati su fatturazione, sui dati fiscali, anagrafici ect avvengono già in parte (si veda l’appIO ect).
il rafforzamento dell’interscambio dei dati ai fini istituzionali giustifica l’enorme investimento di soldi del PNRR sul Dipartimento della Trasformazione Digitale.
Avrà un compito delicatissimo che spero faccia fare il salto che tutti speriamo da tempo, definendo come vanno strutturati i dati per l’interoperabilità.
Sapete che le linee guida Agid sull’interoperabilità sono ormai finalmente approvate.

Io volevo solo aggiornarvi sul cosa stiamo facendo dentro DatiGov per migliorare i Meta Dati insieme a tantissime amministrazioni locali; stiamo accompagnando grandi produttori di dati aperti ma anche i piccoli comuni, per permettere una pubblicazione che entri in dati gov (e da lì in europa) con i metadati corretti.
Per fare questo abbiamo deciso anche di mettere su un cruscotto di monitoraggio pubblico. non serve solo per gli obiettivi del piano triennale , ma proprio per capire cosa c’è ancora da migliorare e poi individuiamo la singola PA da contattare e accompagnare.
abbiamo anche lavorato nel trovare delle patch sui ckan che per esempio trasformavano una licenza locale in licenza sconosciuta su dati gov ect
Per questo già visivamente vedrete una decrescita su alcune categorie di metadati non corrette. È bastato per esempio capire cosa non andasse su dati.trentino.it per passare da migliaia di risorse con formato sconosciuto (e quindi centinaia di dataset) a quasi zero. 
oggi abbiamo il 3% di datigov con tale casistica. A giugno 2020 quando abbiamo iniziato era oltre il 20%. Il nuovo datigov (che poi non è altro che un ritorno ad un front end drupal e un ckan nel backend) ci ha permesso intraprendere un monitoraggio molto più puntuale.

Molti errori erano di processo, altri di cultura, altri di migrazione verso il dcatapit.
Il passaggio dalla licenza sul dataset a quella sulla singola risorsa, ha scoperto migliaia di dataset con licenze , appunto, sconosciute.
oppure formati di files che da xml o csv diventano ot-dapro cioè non codificati ect.

Aggiungo che il repertorio nazionale dei dati geografici (geodati.gov.it) come sapete racchiude dati secondo la direttiva Inspire che non hanno la finalità dei dati aperti. Su 20.000 dataset circa 5200 sono con licenza aperta.
questi automaticamente vengono harvestati su datigovit.
Ma inevitabilmente alcuni campi abbiamo dovuto “aggiustarli” ex post.
Ad esempio la licenza che è un “campo libero” sui dati territoriali, l’abbiamo mappata correttamente secondo il profilo dcatapit (esempio ccby4.0 diventa poi un uri corretto relativo alla creative commons 4.0 ect).

Abbiamo poi riusato un validatore semantico di alcuni anni fa, per il profilo europeo Dcat, e personalizzato per il dcdtapit in modo che tante amministrazioni stanno controllando gli errori o warning nel proprio metacatalogo.
errori per i campi obbligatori del dcatapit, warning per i campi raccomandati e opzionali.

dulcis in fundo, abbiamo messo delle faq tecnico operative nate proprio con il confronto e la scoperta degli errori tipici.

Stiamo scrivendo in forma partecipata (con 18 tra PA locali , centrali e Regioni) le nuove linee guida per il recepimento della direttiva PSI 1024/2019 dove dovremo fare un focus sui dati dinamici, i costi marginali e i dataset ad alto valore (sperando che questi ultimi vengano individuati dall’UE in tempo utile per la pubblicazione delle linee guida).

eccovi alcuni link per quello di cui vi ho parlato. Scusate il pippone ma se non dico a voi tutte queste cose, con chi posso farlo? ;)


Piersoft
Inviato da iPhone

Alberto Cottica

unread,
Jan 29, 2022, 5:50:53 AM1/29/22
to spaghett...@googlegroups.com
Piero, grazie dell'aggiornamento. Mi fa piacere vedere che continuate a lottare... 

Guglielmo Celata

unread,
Jan 31, 2022, 5:47:07 AM1/31/22
to spaghett...@googlegroups.com
Grazie Piero, molto interessante.
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Per visualizzare questa discussione sul Web, visita https://groups.google.com/d/msgid/spaghettiopendata/98FAF960-0B26-4A65-A8B6-5DDA086ECD11%40gmail.com.

Donato De Ieso

unread,
Jan 31, 2022, 10:51:09 AM1/31/22
to Spaghetti Open Data
Grazie Piersoft,
però harvestati non si può sentire dai..

Screenshot 2022-01-31 at 16.49.36.png

Francesco Piero Paolicelli

unread,
Jan 31, 2022, 11:46:05 AM1/31/22
to spaghett...@googlegroups.com
Consigli ?
Importati? Forse è meglio.
Che ne dite?

Piersoft
Inviato da iPhone

Il giorno 31 gen 2022, alle ore 16:51, Donato De Ieso <d.de...@gmail.com> ha scritto:

Grazie Piersoft,

Andrea Giacomelli

unread,
Jan 31, 2022, 12:39:44 PM1/31/22
to spaghett...@googlegroups.com, Rocco Colangelo
Ciao Piersoft e tutti -

"Importati" va benissimo secondo me 

In seconda battuta proporrei "raccolti" (cfr. l'amico Neil)

s'i' fossi foco dire "messi in cascina" ma diventa un altro tipo di testo

buona serata e complimenti per il lavoro

Andrea Giacomelli
http://www.pibinko.org Cultura, Ambiente, Innovazione Libera...
P. IVA: 01582480537


Francesco Piero Paolicelli

unread,
Jan 31, 2022, 12:50:14 PM1/31/22
to spaghett...@googlegroups.com, Rocco Colangelo
In verità a pensarci bene forse potremmo proprio scrivere “presenti” su dati gov.
Che siano harvestati, raccolti, importati riguarda la procedura ma non inficia sul monitoraggio finale.
ci penso e ne parlo con i capi.
grazie mille per gli spunti

Piersoft
Inviato da iPhone

Il giorno 31 gen 2022, alle ore 18:39, Andrea Giacomelli <pib...@gmail.com> ha scritto:



Alberto Cottica

unread,
Jan 31, 2022, 12:52:38 PM1/31/22
to spaghett...@googlegroups.com, Rocco Colangelo
"Raccolti" mi ricorda il nostro album dal vivo. 


Francesco Piero Paolicelli

unread,
Jan 31, 2022, 2:34:14 PM1/31/22
to spaghett...@googlegroups.com, Rocco Colangelo
Allora vada per “raccolti”
Già cambiato online ;)

Piersoft
Inviato da iPhone

Il giorno 31 gen 2022, alle ore 18:52, Alberto Cottica <alberto...@gmail.com> ha scritto:



Antonio Iacono

unread,
Feb 1, 2022, 6:40:08 AM2/1/22
to spaghett...@googlegroups.com
> Ciao a tutti,
> questa volta vi scrivo non più da addetto ai lavori di trincea nella Pa locale ma da membro di lavoro del gruppo Agid per il portale dati.gov.it.

Ottimo, finalmente un canale "diretto" :)

In passato (molto passato) ho inviato suggerimenti all'email
"istituzionale". Va beh, non commento le risposte :(

Dovrei recuperare le mail e riproporle, vediamo ...
Intanto alcune richieste:
1) Nella ricerca avanzata c'è la possibilità di scelte multiple per
quanto riguarda i temi. Sarebbe possibile allargare la scelta multipla
anche a Cataloghi, Licenze, Formati?
2) I PDF, nel 99%, non contengono dati, non si potrebbero togliere? Ad
esempio le brochure dell'Alma Mater Studiorum - Università di Bologna
[1] che ci stanno a fare?
3) L'ordinamento è solo alfabetico (per titolo Dataset). Sarebbe
possibile introdurre altri ordinamenti, ad esempio quello per numero
di record? Molto spesso i dataset contengono una manciata di record,
assolutamente insufficienti per qualsiasi tipo di analisi statistica.

Grazie,
Antonio

[1] https://dati.gov.it/view-dataset/dataset?id=35bad479-6dc6-4598-a089-0951b43ecd09

Francesco Piero Paolicelli

unread,
Feb 1, 2022, 7:20:45 AM2/1/22
to spaghett...@googlegroups.com
Ciao!
1) Allora lo sviluppo operativo del drupal di frontend non è previsto per ora per cui le ricerche che mi chiedi, non si possono fare dal frontend.
puoi peró farle dal backend. Nella sezione Sviluppatori hai le API del Ckan che è quindi interrogabile su ogni cosa che vuoi.
ci sono esempi pratici in modo da agevolare la composizione tipo della query.

2) DatiGov è un metacatalogo. noi non possiamo e non dobbiamo entrare nei dati che fornisce la PA locale. il pdf è considerato un formato aperto per documenti (sappiamo che è ad una stella e non è interoperabile) ma secondo le attuali linee guida nazionali, è permesso. andrebbe contattata in questo caso l’università di bologna chiedendo un formato odt ad esempio ect

3) spiegami meglio magari con qualche esempio che hai già trovato in rete. Rimane comunque valido il punto 1).

se serve ti espongo alcune query di esempio.

Piersoft
Inviato da iPhone

> Il giorno 1 feb 2022, alle ore 12:40, Antonio Iacono <ant...@gmail.com> ha scritto:
>
> 
> --
> Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
> Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
> Per visualizzare questa discussione sul Web, visita https://groups.google.com/d/msgid/spaghettiopendata/CAPN6PESSzr9607Ci6OkHich%3DnWL0XCm1bimgaK5friwjsfd%2B2g%40mail.gmail.com.

Antonio Iacono

unread,
Feb 1, 2022, 7:37:15 AM2/1/22
to spaghett...@googlegroups.com
> Nella sezione Sviluppatori hai le API del Ckan che è quindi interrogabile su ogni cosa che vuoi.
...
> se serve ti espongo alcune query di esempio

Sì, grazie, gli esempi fanno sempre comodo.

Un'altra cosa, qui https://www.blia.it/lod/ ho elencato un po' di endpoint LOD.
Su dati.gov.it, visto che sono a disposizione le API CKAN, non c'è un
editor SPARQL, giusto?

A.

Francesco Piero Paolicelli

unread,
Feb 1, 2022, 7:56:00 AM2/1/22
to spaghettiopendata@googlegroups.com Data
no, l'endpoint è sempre per i metadati non per i dati.
Importiamo i dati da vari endopoint lod (andate su dati ->  cataloghi) come esempio MIBACT, INAIL, INPS , ISPRA ect
Magari un domani federano tutto con ontologie coordinate. Ma non è una cosa di nostra competenza e missione.

su quello spero facciano qualcosa nel PDND.
P

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Alfredo Serafini

unread,
Feb 1, 2022, 8:25:18 AM2/1/22
to Spaghetti Open Data
Ciao

se posso suggerire: io direi qualcosa del tipo "di cui si è effettuato harvesting", o meglio "di cui si sono importati i metadati".
Tanto per sottolineare che non vengono letteralmente copiati altrove in un punto centrale i dati (come avverrebbe per un import), e che il contenuto centrale che gestisce CKAN sono proprio i metadati.

i miei 2 cents ;-)

Alfredo

Antonio Iacono

unread,
Feb 1, 2022, 11:02:16 AM2/1/22
to spaghett...@googlegroups.com
> se serve ti espongo alcune query di esempio.

alcune query che non riesco a fare:
https://dati.gov.it/opendata/api/3/action/resource_search?query=format:XLSX
funziona, ma se volessi mettere XLSX or CSV ?
poi
https://dati.gov.it/opendata/api/3/action/resource_search?query=state:active
mi dà "Campo \"state\" non riconosciuto in resource_search.

"https://dati.gov.it/opendata/api/3/action/resource_search?query=created:2021-02-19T23:07:06.01&limit=1
va in Server Error
lo stesso per altri campi, tipo:
https://dati.gov.it/opendata/api/3/action/resource_search?query=size:null

forse sbaglio qualcosa :(

A.

Francesco Piero Paolicelli

unread,
Feb 1, 2022, 2:37:37 PM2/1/22
to spaghettiopendata@googlegroups.com Data
Devi usare queste:

vedrai che l'OR non è previsto.
P

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Antonio Iacono

unread,
Feb 2, 2022, 3:53:17 AM2/2/22
to spaghett...@googlegroups.com
ok grazie, in effetti leggendo qui:
https://docs.ckan.org/en/tracking-fixes/ckan.logic.action.get.html
trovo: "when specifying more than one search criteria, the criteria
are AND-ed together", peccato :(

Sempre sul resource_search
https://dati.gov.it/opendata/api/3/action/resource_search?query=url:roma.it&limit=1
mi viene fuori una "risorsa" con impostata la dimensione del file,
nella fattispecie un JSON di 1192 byte.
Ma se faccio: https://dati.gov.it/opendata/api/3/action/resource_search?query=size:1192
va in errore
come mai?

Con: https://dati.gov.it/opendata/api/3/action/resource_search?query=url:roma.it&order_by=size
Mi aspetterei un elenco di risorse elencate in ordine di dimensione,
con alla fine i file più grandi e invece
nulla di tutto questo, come se l'order_by non funzionasse sul campo 'size'

A.
> Per visualizzare questa discussione sul Web, visita https://groups.google.com/d/msgid/spaghettiopendata/CAGSo1Pi%3DFcC5p7Nx2WGi4m5aOO%2BaY%3DOZ%2BvDSHsYHH6ubEhE9xA%40mail.gmail.com.

Francesco Piero Paolicelli

unread,
Feb 2, 2022, 4:31:37 AM2/2/22
to spaghettiopendata@googlegroups.com Data
se fai:
con le " per capirci, CKAN ti indica che il size non è un campo di ricerca.
Questo perchè i campo della risorsa supplementari, sono inseriti dal plugin dcatapit che non aggiorna le API di CKAN. per cui quei campi non sono ricercabili.

Per cercare i dati per una determinata organizzazione che pubblica, devi filtrare per "holder_name" che corrisponde al dct:publisher.
E qui iniziano i problemi.
Per esempio, cosi entriamo nel dettaglio, ci sono Enti titolari del dato (righsholder che diventa nella API Ckan holder_name) che hanno inserito più organizzazioni titolari 
Quindi in CKAN gli holder_name risultano vari per lo STESSO Ente.
E' il caso di Roma piuttosto che la provincia autonoma di Bolzano.

Questo è il motivo per cui nella sezione:
Vi trovate 689 enti produttori, ma se chiudiamo il campo solo alle Pubbliche Amministrazioni definite dal CAD e dotate di un codice IPA univoco, allora si restringono a 580:

Mano mano che raggiungiamo le singole PA, suggeriamo come strutturare meglio questi metadati fondamentali. Nella sezione FAQ abbiamo inserito un po' di roba, ma questa dell'holder_name capirete bene che è una questione interna organizzativa che è molto dura da scardinare.
Milano aveva lo stesso problema e lo ha risolto in 24 ore. Spero che tutti migliorino i propri cataloghi di metadati.

Quanto alla richiesta dell'ordinamento, accertati
1) sia un campo filtrabile
2) sia previsto nelle API CKAN l'ordinamento per quella richiesta (tipo sui package c'è e magari sulla resource no).

Per 

Matteo Brunati

unread,
Feb 6, 2022, 11:42:48 AM2/6/22
to Spaghetti Open Data
Ehilà, 
Piero, grazie dell'aggiornamento condiviso. È sempre utile avere un minimo di informazioni su quello che sta accadendo. Non ho ancora guardato per bene, ma mi ero appuntato alcune *follie* che avevo scovato in dati.gov.it un anno fa: 


Magari possono essere utili per continuare il lavoro di revisione/aggiornamento dei metadati.
Mi viene in mente un'altra cosetta: avere un luogo ufficiale di scambio tra la società civile e gli addetti ai lavori su dati.gov.it è un passaggio che rimettei al centro degli elementi su cui lavorare. Se questo repo in GitHub non è più un luogo gestito andrebbe indicato oppure è l'occasione per aggiornarlo in maniera strutturata (sarei per la seconda): 


matt

Francesco Piero Paolicelli

unread,
Feb 7, 2022, 1:19:00 AM2/7/22
to spaghett...@googlegroups.com
Ciao Matt.
1) la repo su github è a cura del fornitore che ha appena pubblicato il codice sorgente del frontend in drupal. Sta finendo le ultime cose
2) come Agid esiste un luogo ufficiale di confronto, purtroppo non con gli sviluppatori, per gli opendata, ma per gli RTD e ODManager. E’ un nuovo forum per gli RTD della Pa dove all’interno c’è anche la sezione opendata.

riporto la tua riflessione dentro il gruppo di lavoro.
Personalmente la condivido molto, ma le scelte non sono mie, come potrai immaginare.



Piersoft
Inviato da iPhone

Il giorno 6 feb 2022, alle ore 17:42, Matteo Brunati <matteo....@gmail.com> ha scritto:

Ehilà, 
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Francesco Piero Paolicelli

unread,
Feb 7, 2022, 1:21:39 AM2/7/22
to spaghett...@googlegroups.com
Aggiungo Matt:

I tuoi appunti sono ante cambio di piattaforma DatGov. ora è tornata su ckan e possiamo, come detto, monitorare meglio.

le licenze NC sono al 95% dell’unico progetto trafair del comune di modena. In settimana, dopo le loro rassicurazione durante il loro webinar pubblico di un mese fa (lo trovate su eventi PA), torno alla carica.



Piersoft
Inviato da iPhone

Il giorno 6 feb 2022, alle ore 17:42, Matteo Brunati <matteo....@gmail.com> ha scritto:

Ehilà, 
--
Reply all
Reply to author
Forward
0 new messages