TweetYourMEP, razionalizzazione organizzativa e qualità degli open data

27 views
Skip to first unread message

Alberto

unread,
Jan 13, 2017, 12:18:21 AM1/13/17
to Spaghetti Open Data
Come sapete se state leggendo SOD, Alfredo e alcuni altri stanno lavorando a una nuova versione di TweetYourMEP (thread). Un primo ostacolo a cui ci siamo trovati davanti è che il dataset era sparito. Come sparito?

La storia sembra essere questa. Nel 2012 c'era un sito chiamato EPNewsHub, che funzionava da aggregatore di varie cose pubblicate dagli europarlamentari. Credo sia un sito ufficiale, ma non riesco ad accedere alla pagina "How it works". Questo sito pubblicava qualche dataset. Il principale era il dataset dei MEPs, che forniva in formato machine-readable tutto quello che si trovava sulle home page dei MEPs nel sito ufficiale dell'Europarlamento. EPNewsHub esiste ancora, ma non pubblica più open data. Il dataset dei MEPs oggi si trova sul portale open data dell'Unione Europea (https://data.europa.eu/euodp/en/data/dataset/members-of-the-european-parliament), ma non contiene più nessuna informazione sugli account sui vari social media dei MEPs. Il dataset è nettamente più povero della home page dei parlamentari:

<meps slick-uniqueid="3">
<script/>
<div>
<a id="slick_uniqueid"/>
</div>
<mep>
<fullName>Lars ADAKTUSSON</fullName>
<country>Sweden</country>
<politicalGroup>
Group of the European People's Party (Christian Democrats)
</politicalGroup>
<id>124990</id>
<nationalPoliticalGroup>Kristdemokraterna</nationalPoliticalGroup>
</mep>
...
</meps>

Quando ho fatto notare il problema (twittando a @EC_opendata, che è il punto di riferimento per l'European Data Portal), mi ha contattato un certo Glen. Il messaggio diceva così (corsivi miei):

We just want to clarify your request. If I understand correctly you are saying that we used to have social contact info for MEPS before 2014? Second, that the contacts we can find for the current MEPS could be in raw format to avoid scraping? Please clarify. 

Quindi: 
  1. EU Data Portal non ha memoria di ciò che c'era prima di loro. È evidente che il dataset dei MEPS è stato fatto da zero, non c'è stata una volontà di nascondere informazione che prima era disponibile. Probabilmente EPnewshub ha ricevuto una circolare che diceva "da domani mattina gli open data li fa solo EU Data Portal", e ha tirato giù il suo dataset. 
  2. EU Data Portal non trova evidente che tutto ciò che sta sul sito di Europarl debba essere anche pubblicato come open data. La seconda parte della domanda è quasi disarmante "ci stai dicendo che quella roba dovrebbe essere in XML?". Probabilmente quelli di EPnewshub avevano qualche informazione circa il riuso che, negli anni, sia era fatto di questi dati. 
Morale: le riorganizzazioni portano duplicazione e distruggono memoria istituzionale. Uso il plurale, perché mi pare plausibile che questa roba avvenga sempre. In ambito open data, questo può volere dire che alcuni dataset spariscono o vengono spostati, e quindi i servizi che ci si appoggiano spariscono, come è successo a noi. 

Meta-morale: non fare mai riorganizzazioni, a meno che non siano strettamente necessarie. O, come dicono gli americani, "if it ain't broke, don't fix it".

Alfredo Serafini

unread,
Jan 13, 2017, 7:33:39 AM1/13/17
to Spaghetti Open Data
in ogni caso, mò i dati ce li siamo rifatti a partire dal sito (ho uno scraperino che si puòestendere con altre cose, ad esempio ho visto la lista dei collaboratori pure, etc): li possiamo ri-pubblicare noi? magari in vari formati? :-)
in caso possiamo farlo come ci pare, e linkare direttamente i dataset da github, per dire, o fare due pagine html con githubpage
Reply all
Reply to author
Forward
0 new messages