dcatapit su Ckan (e datigov). fermi al palo

90 views
Skip to first unread message

Francesco Piero Paolicelli

unread,
Jul 25, 2017, 11:46:01 AM7/25/17
to spaghett...@googlegroups.com
Ciao a tutti.
Credo che questa sia una cosa da comunità. 

Come sapete Agid ha dato le dritte per il Dcatapit.

In Trentino - Alto Adige hanno sviluppato un plugin che funziona bene per il singolo dataset ma ho scoperto essere buggato sul catalog.rdf del catalogo generale.

vale su tutti i siti web ckan su cui è stato installato. io ne segui 8. Ho visto che il problema ovviamente lo hanno anche gli altri .

ho aperto da 2 mesi una issue ma oggi gli sviluppatori mi dicono che non ci sono sviluppi. l'Italia è ferma al palo. 

Dico l'Italia perchè se ckan faticosamente adeguati NON danno un catalog.rdf corretto, l'harvesting su datigov è parziale e/o errato..

Ho spiegato tutto nella issue di 2 mesi fa:


non sono molto pratico di python e credo che se ci mettiamo a lavorare tutti assieme, troviamo la risoluzione.

1) il plugin europeo dcatap funziona su siti esteri. quindi dominiockan/catalog.rdf viene generato con i campo frequency, rightsholder, thema ect correttamente
2) installando oltre al plugin dcat anche il dcatapit il catalog.rdf NON legge più i campi di sopra e mette valori di default (frequency=unknow, thema provvisorio ect) mentre il singolo dataset/nomedataset.rdf viene generato correttamente. teoricamente datigov potrebbe lanciare la query per la lista dataset e poi per ciascun dataset leggere i metadati ma rallenta tutto il processo di harvesting. il catalog.rdf serve a questo....

Che dite, diamo una mano ?

credo che sia una cosa molto trasversale e "vitale" alla luce di tutti i discorsi di sostenibilità ect 

Piersoft
Inviato da iPhone

Francesca Gleria

unread,
Jul 25, 2017, 3:35:04 PM7/25/17
to spaghett...@googlegroups.com

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopendata+unsubscribe@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per visualizzare questa discussione sul Web, visita https://groups.google.com/d/msgid/spaghettiopendata/58B55705-2A97-41C5-B7F0-E371598BAF3B%40gmail.com.
Per altre opzioni visita https://groups.google.com/d/optout.



--
Cellulare 380.4908599  Casa 0461.982380 Lavoro 0461 494436

Francesca Gleria

unread,
Jul 25, 2017, 3:37:30 PM7/25/17
to spaghett...@googlegroups.com
Apperò  si stava parlando da mò con Marco di come risolvere sta cosa, si stava aspettando un po' di calma. 
Operativamente dare una mano come ?

@Marco C. che dici ?

Marco Combetto

unread,
Jul 26, 2017, 3:27:53 AM7/26/17
to Spaghetti Open Data
Lungi da me a dire che non la fix non serva, ma attualmente dati.gov.it utilizza le API CKAN e non l'estensione DCATAPIT per fare l'harvesting dei cataloghi locali. 
Almeno vale per noi e vale per BZ e la Toscana. Sviluppare la fix è solo un parte del problema, se approcciamo al problema in modo generale e per tutti i CKAN italiani.

Poi ci sono gli altro cataloghi non CKAN, e li ci sono altri problemi.

Il Team Digitale ed AGID stanno rivendendo la procedura di harvesting e ci sarà un upgrade e in tale senso, alcuni mesi abbiamo fatto delle prove di harvesting (ma solo come test) con l'estensione DCAT-AP. All'interno di queste attività, o lato nostro (insieme a BZ), o centralmente, errà abbastanza facile sistemare anche questa anomalia.
Stiamo definendo la lista di interventi e poi si farà il procurement necessario

Certo, purtroppo, che si tratterà di alcuni mesi, direi entro la fine dell'anno potrebbe essere (e io sarei contento) tutto basato su DCAT-AP-IT (fixed)

Francesco Piero Paolicelli

unread,
Jul 26, 2017, 4:44:14 AM7/26/17
to spaghett...@googlegroups.com
Marco, l'harvesting di un catalogo adeguato al dcatapit è semplice quanto quello dalle API.
Anzi è ancora meglio perchè mappa velocemente tutti i dataet e tutti i metadati partendo dal catalog.rdf

ho trovato il bug e la risoluzione tampone, ma non ho le competenze in python per patchare l'unico file da modificare.
E' probabile che con un if (campo addizionale = null) campoaddizionale="N/A" si risolve ma non è il costrutto il problema ma il campo nella tabella che non so come si chiama. gli sviluppatori lo farebbero in 5 minuti ora che ho dato la soluzione, io un 10 ore :)

l'importanza è abissale. datigov è già pronto per l'harvesting dal catalog.rdf (non sono quasi certo). in un paio d'ore almeno il trentino altoadige, la toscana, e i "miei" cataloghi comunali sarebbe importati decentemente e da li a europeandataportal

Piersoft
Inviato da iPhone
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.

Francesco Piero Paolicelli

unread,
Jul 26, 2017, 4:46:11 AM7/26/17
to spaghett...@googlegroups.com


Piersoft
Inviato da iPhone

(Inizio messaggio inoltrato)

Da: Francesco Piero Paolicelli <pier...@gmail.com>
Data: 26 luglio 2017 09:27:26 CEST
A: "Open Data & Analytics" <da...@teamdigitale.governo.it>
Oggetto: Re: dcatapit su Ckan (e datigov). fermi al palo

forse ho trovato il bug. ho controllato tutti i campi. verso le 4 di notte ho iniziato la fase "nevrosi".

Ho compilato tutti i campi ed ha funzionato. Anche quelli opzionali. Ho iniziato a cancellarli uno ad uno e ho scoperto che:

1) il "Campo extra" non può rimanere vuoto. Allego screenshot
2) ckan.locales_offered = it o altra lingua è opportuno che sia compilato



l'ho testato in locale su un ckan di prova (che per la cronaca è interfacciato con data.world/piersoft ) e poi su uno in produzione di un ente che gestisco. 

Se mi date conferma avviso gli sviluppatori. Il punto è che vanno aggiornati tutti i dataset esistenti nel catalogo o creata una patch che se il campo è vuoto va riempito..

piersoft

Il giorno 25 luglio 2017 23:12, Francesco Piero Paolicelli <pier...@gmail.com> ha scritto:
scusate il crosso posting tra ML ma credo che questo argomento sia proprio appannaggio di tutti.
piersoft

---------- Messaggio inoltrato ----------
Da: Francesco Piero Paolicelli <pier...@gmail.com>
Date: 25 luglio 2017 17:45
Oggetto: dcatapit su Ckan (e datigov). fermi al palo
A: spaghettiopendata@googlegroups.com


Ciao a tutti.
Credo che questa sia una cosa da comunità. 

Come sapete Agid ha dato le dritte per il Dcatapit.

In Trentino - Alto Adige hanno sviluppato un plugin che funziona bene per il singolo dataset ma ho scoperto essere buggato sul catalog.rdf del catalogo generale.

vale su tutti i siti web ckan su cui è stato installato. io ne segui 8. Ho visto che il problema ovviamente lo hanno anche gli altri .

ho aperto da 2 mesi una issue ma oggi gli sviluppatori mi dicono che non ci sono sviluppi. l'Italia è ferma al palo. 

Dico l'Italia perchè se ckan faticosamente adeguati NON danno un catalog.rdf corretto, l'harvesting su datigov è parziale e/o errato..

Ho spiegato tutto nella issue di 2 mesi fa:


non sono molto pratico di python e credo che se ci mettiamo a lavorare tutti assieme, troviamo la risoluzione.

1) il plugin europeo del Ckan "dcatap" funziona su siti esteri. quindi dominiockan/catalog.rdf viene generato con i campi frequency, rightsholder, thema ect correttamente.
2) installando oltre al plugin dcat anche quello "dcatapit" il catalog.rdf NON legge più i campi di sopra e mette valori di default (frequency=unknow, tema provvisorio ect) mentre il singolo dataset/nomedataset.rdf viene generato correttamente. teoricamente datigov potrebbe lanciare la query per la lista dataset e poi per ciascun dataset leggere i metadati ma rallenta tutto il processo di harvesting. il catalog.rdf serve a questo....
Reply all
Reply to author
Forward
0 new messages