Data Journalism e BuzzData

17 views
Skip to first unread message

Maurizio Napolitano

unread,
Aug 11, 2011, 5:11:18 AM8/11/11
to Spaghetti Open Data, Open Knowledge Foundation Italia
A OKCon ho assistito ad una bellissima presentazione di Pete Forde (un
personaggione) sul suo progetto BuzzData
(una sorta di github dei dati).
Purtroppo non ho trovato ne il video ne le slide.
E' partito raccontando come e' nata la citta' di San Francisco per
spiegare il suo progetto.

Sul suo spazio vimeo http://vimeo.com/user586242
ci sono due video che spiegano il progetto
http://vimeo.com/19774669
http://vimeo.com/20279333


Arrivo al dunque:
buzzdata vuole essere una sorta di github dei dati, e finalmente sono
usciti dalla beta.

Vi giro un blog post in inglese di una entusiasta data journalist
http://governingpeople.com/davideaves/23571/open-source-data-journalism-happening-now-buzz-data

Vincenzo Patruno

unread,
Aug 11, 2011, 6:12:29 AM8/11/11
to spaghett...@googlegroups.com, Open Knowledge Foundation Italia

Si, conoscevo la beta di buzzdata. Alcune cose mi convincono, altre meno. Ve ne volevo già parlare ma lo faccio appena trovo una tastiera vera. Sono fuori italia (al freddo, brrrr) con lo smartphone. Vinc

Maurizio Napolitano

unread,
Aug 11, 2011, 6:17:23 AM8/11/11
to spaghett...@googlegroups.com
2011/8/11 Vincenzo Patruno <patruno...@gmail.com>:

> Si, conoscevo la beta di buzzdata. Alcune cose mi convincono, altre meno. Ve
> ne volevo già parlare ma lo faccio appena trovo una tastiera vera. Sono
> fuori italia (al freddo, brrrr) con lo smartphone. Vinc

In generale sono contrario che la p.a. appoggi i dati su piattaforme di privati
e proprietarie.
Rimango dell'idea però che, una volta che i dati sono pubblici e con licenze
aperte, poi ognuno fa quello che vuole.
Preferisco l'approccio ckan in quanto fa riferimenti alle datasource.

In ogni caso se sono utenti a inserire i dati, con licenze aperte, e con una
componente social, la cosa non è male. no?

Vincenzo Patruno

unread,
Aug 15, 2011, 12:25:27 PM8/15/11
to spaghett...@googlegroups.com

Trovata la tastiera “vera”!


Eravamo partiti da Buzzdata. Non è che l’ultima di svariate piattaforme per la condivisione di dati. In questo caso viene “enfatizzato” l’aspetto Social (la piattaforma consente ad esempio di definire un profilo, di  seguire altri profili , di avere un network di relazioni di riferimento) che consente la propagazione dei dati (da qui il nome “Buzz”).


Sono molto d’accordo con Napo quando ritiene che la PA dovrebbe mettere a disposizione i dati come le è più comodo sul proprio sito Web. Al momento credo sia la cosa migliore per consentire senza troppi problemi un facile e rapido rilascio di dati.


D’altronde Alberto solleva un problema reale che a mio avviso è una questione chiave: la necessità di avere una piattaforma di riferimento per la condivisione di dati. (o meglio, di dataset). Ovviamente questa piattaforma non può essere Google Docs per tutta una serie di ragioni che conosciamo, ma non può essere neanche nessuna delle piattaforme di “data market” al momento disponibili tipo Socrata, Factual e varie altre, BuzzData compreso. E questo a prescindere da dove sono localizzati il loro data center, cosa che come abbiamo visto  comporta altri tipi di problemi.  (Una piattaforma del genere è ovviamente qualcosa di molto diverso dai “cataloghi” attualmente utilizzati sulle piattaforme di datagov, ckan compreso).


Nessuna piattaforma di condivisione dati al momento ha infatti una gestione “strutturata” di quelli che vengono chiamati “metadati”. Questo a mio avviso è un problema chiave la cui risoluzione consentirebbe di “iniettare” dati in rete e soprattutto di ritrovarli attraverso Apps e non a manella come invece generalmente accade ora. (Mettere dati sulla Rete come si sta facendo ora aumenta il “Data Deluge” e i cataloghi di dati aiutano ma non risolvono questo problema). Il “problema” metadati è sempre stato un argomento alquanto complesso e spinoso, ma credo di averci riflettuto abbastanza nell’ultimo periodo e di avere ora una visione molto precisa per una gestione “easy”  della cosa. Mi rendo conto che non è un argomento da approfondire in mailing list nel giorno di Ferragosto. Ad ogni modo sto scrivendo alcune cose su questa questione che sarò felice di condividere con voi e con chi lo vorrà.

 

Un saluto e buon ferragosto. O almeno quello che resta :-)

Vinc



2011/8/11 Maurizio Napolitano <napo...@gmail.com>



--
Vincenzo Patruno
http://www.segnalazionit.org
http://www.vincenzopatruno.org

“ If you want a track team to win the high jump you find one person who can jump seven feet, not seven people who can jump one foot. ”.

Paolo Di Pietro

unread,
Aug 15, 2011, 12:44:26 PM8/15/11
to spaghett...@googlegroups.com, spaghett...@googlegroups.com
Vincenzo,

Per quanto riguarda i metadati, noi stiamo lavorando da tempo sun una versione in rete per la loro gestione.
Siamo abbastanza vicini a rilasciare una beta.

al momento laospitiamo noi, poi andrà messa in un datacenter.

Per quelli di voi interessati c'é disponibile una alfa che contiene jn subset di dati provenienti da progetti reali di e-gov.

Chi ne volesse sapere di più me lo faccia sapere.

Paolo

Vincenzo Patruno

unread,
Aug 15, 2011, 12:58:30 PM8/15/11
to spaghett...@googlegroups.com
Bene!
Sono curioso di sapere come hai impostato la cosa....


Vinc


2011/8/15 Paolo Di Pietro <pdip...@diviana.net>

Maurizio Napolitano

unread,
Aug 15, 2011, 3:34:48 PM8/15/11
to spaghett...@googlegroups.com
2011/8/15 Vincenzo Patruno <patruno...@gmail.com>:

> Trovata la tastiera “vera”!

grande :)

> Eravamo partiti da Buzzdata.

quando l'ho visto pensavo proprio ai discorsi che avevo sentito a webvalley :)

> Non è che l’ultima di svariate piattaforme per
> la condivisione di dati. In questo caso viene “enfatizzato” l’aspetto Social
> (la piattaforma consente ad esempio di definire un profilo, di  seguire
> altri profili , di avere un network di relazioni di riferimento) che
> consente la propagazione dei dati (da qui il nome “Buzz”).

Si ha questo aspetto social che dovrebbe innescare un po' di cosucce
carine
Un esempio pratico e' in questo blog post
http://eaves.ca/2011/08/03/open-source-data-journalism-%E2%80%93-happening-now-at-buzz-data/
dove una persona ha elaborato dei dati e date le sue considerazioni
un altro ha detto "bello!" ed ha aggiunto dei dati per migliorare
le ipotesi e avanti di questo passo
Insomma un qualcosa che avvicina le persone ai dati

> Sono molto d’accordo con Napo quando ritiene che la PA dovrebbe mettere a
> disposizione i dati come le è più comodo sul proprio sito Web. Al momento
> credo sia la cosa migliore per consentire senza troppi problemi un facile e
> rapido rilascio di dati.

Inutile dire che ne sono fermamente convinto, cosi' come lo sono
dell'idea che poi
ci sia il richiamo in ckan.net
Di questo lo pensa anche l'unione europea per il portale europeo open data
http://ec.europa.eu/information_society/policy/psi/docs/pdfs/call_tenders/tender_specifications_final.pdf
dove viene chiesto un portale LAMP su Drupal e CKAN con
interrogazione SPARQL e implementazioni di librerie con open source
per java, python e ruby.

tra l'altro, sulle API di CKAN, ho proposto uno stage ad uno studente
per integrarle con
SOFA - http://www.sofastatistics.com
Su suggerimento anche di alcune persone di OKFN.

> [...]


> Nessuna piattaforma di condivisione dati al momento ha infatti una gestione
> “strutturata” di quelli che vengono chiamati “metadati”. Questo a mio avviso
> è un problema chiave la cui risoluzione consentirebbe di “iniettare” dati in
> rete e soprattutto di ritrovarli attraverso Apps e non a manella come invece
> generalmente accade ora. (Mettere dati sulla Rete come si sta facendo ora
> aumenta il “Data Deluge” e i cataloghi di dati aiutano ma non risolvono
> questo problema). Il “problema” metadati è sempre stato un argomento
> alquanto complesso e spinoso, ma credo di averci riflettuto abbastanza
> nell’ultimo periodo e di avere ora una visione molto precisa per una
> gestione “easy”  della cosa. Mi rendo conto che non è un argomento da
> approfondire in mailing list nel giorno di Ferragosto. Ad ogni modo sto
> scrivendo alcune cose su questa questione che sarò felice di condividere con
> voi e con chi lo vorrà.

Ora sono poco fuori dagli aspetti tecnici di CKAN, ma una parte rdf e' gia'
presente, immagino che il passaggio a qualcosa di piu' concreto sia molto
vicino.
OKFN e' anche impegnata nel progetto europeo LOD2
http://lod2.eu/Welcome.html
... dove tra l'altro partecipa anche un mio collega con il motore di ricerca
Sig.ma
Qui un esempio con uno dei personaggi di questa ml :)
http://sig.ma/search?q=Alberto+Cottica

In ogni caso, sull'aspetto linked e sui limiti di ckan mi aspetto una
risposta molto piu' esaustiva da parte di Matteo Brunati e/o Michele
Barbera (o altre persone di questa ml che non conosco ma sono
molto piu' competenti di me)

Maurizio Napolitano

unread,
Aug 15, 2011, 3:36:26 PM8/15/11
to spaghett...@googlegroups.com
2011/8/15 Paolo Di Pietro <pdip...@diviana.net>:

> Vincenzo,
> Per quanto riguarda i metadati, noi stiamo lavorando da tempo sun una
> versione in rete per la loro gestione.
> Siamo abbastanza vicini a rilasciare una beta.

Grandi!!!

> al momento la ospitiamo noi, poi andrà messa in un datacenter.


> Per quelli di voi interessati c'é disponibile una alfa che contiene jn
> subset di dati provenienti da progetti reali di e-gov.

fichissimo!
partecipate alla chiamata europea?
http://ec.europa.eu/information_society/policy/psi/docs/pdfs/call_tenders/tender_specifications_final.pdf

> Chi ne volesse sapere di più me lo faccia sapere.
> Paolo

Eccomi :)

Stefano Durì

unread,
Aug 17, 2011, 9:20:38 AM8/17/11
to Spaghetti Open Data
BuzzData aggiunge in effetti a condivisione + visualizzazione la
dimensione dell'interazione e il dialogo, eventualmente supportato da
integrazioni e rielaborazioni. Non mi pare una grande novità: BuzzData
è senz'altro più social, ma qualcosa si può costruire anche su
ManyEyes, che in compenso offre una gamma di tools per la
visualizzazione molto ricca.
E' da poco che mi interesso di open data, quindi perdonate la mia
zucconaggine: non riesco veramente a capire in base a quali parametri
andrebbe impostata la scelta della piattaforma (uso il termine per
brevità) per la pubblicazione dei dati. Cerco di spiegarmi, e non sono
sintetico.
a) colloco la scelta a valle del processo di creazione dei dati
(quindi dei processi interni all'amministrazione coinvolta), di quello
di selezione (ad es. esclusione di dati personali) e di eventuali
manipolazioni (ad es. procedure per anonimizzarli). Questi processi li
considero al momento "black box" che mi devono garantire in output
dati in formato adeguato agli obbiettivi della pubblicazione. Se nella
realtà questo non avviene dovrò lavorare su quei due processi, ma da
un punto di vista concettuale posso approcciare il problema
"pubblicazione" come separato da quello che avviene nel backoffice:
sarà quest'ultimo che dovrà adeguarsi (e questo è un obbiettivo,
ovviamente).

b) mi pare desiderabile che la pubblicazione si ponga obbiettivi di
"leggibilità" sia per le applicazioni (formati non proprietari,
API,..) sia per gli esseri umani - quanti più possibile, aggiungo.
Aggiungo anche che, per quanto mi riguarda, il secondo obbiettivo è
prioritario: l'esistenza e la crescita di uno strato di sviluppatori e
di esperti in grado e desiderosi di far parlare i dataset è
assolutamente auspicabile, ma non vorrei considerarlo un vincolo di
progetto. L'organizzazione dei dati sul bilancio della PA centrale
segnalati da Aline Pennisi (http://www.rgs.mef.gov.it/VERSIONE-I/
Servizio-s/Studi-e-do/La-spesa-d/) mi sembra un buon esempio di come
si possano raggiungere entrambi gli obbiettivi. Si noti (taglio le
cose con l'accetta) che in questo caso siamo un passo indietro
rispetto al processo di "interpretazione" vera e propria: l'output del
processo di estrazione/manipolazione/pubblicazione è sufficientemente
dettagliato ed è organizzato secondo uno schema "ufficiale" definito a
priori e non ad hoc. Questo non significa che chiunque potrà di punto
in bianco "leggere" il bilancio, ma solo che il tipo di competenza
richiesta può essere teoricamente raggiunto da chiunque facendo
ricorso ad "autorità" e fonti esterne al processo che crea i dati.
Sono abbastanza convinto che un doppio output di questo genere sia
vicino a un punto di ottimo che un civil servant potrebbe e dovrebbe
raggiungere. Amputare l'output di una delle due parti va a danno della
leggibilità complessiva (macchine+persone), arricchirlo - oltre ad
essere costoso - rischia di introdurre elementi di distorsione (e non
aggiungo altro, se non che sono ovviamente uscito dal caso
particolare). Ci sono casi (ad es. la localizzazione di oggetti,
eventi o servizi sul territorio) in cui l'esistenza di interfacce
specializzate è indispensabile per la leggibilità, ma credo che anche
qui il "doppio output" sia alla portata dei servizi interni alle AP
senza enormi investimenti.

c) torno alle piattaforme. Adesso che abbiamo i nostri dati open io
immagino che, appunto, siano disponibili senza limiti per la lettura e
in base a certe condizioni per il riutilizzo. Tratto anche questo
insieme di regole come black box: non mi sembra che la licenza
interagisca con il processo di pubblicazione, e infatti ci sono
evidenti divergenze tra quello che i dati pubblicati "consentirebbero"
tecnicamente di fare e quello che "è consentito" farne.
Con questi dati che per definizione sono open e in formati non
"chiusi" e questo obbiettivo di larga accessibilità, mi chiedo quali
"pericoli" presenterebbe la scelta di una piattaforma, fosse anche di
proprietà della Spectre. I problemi vengono casomai prima, nelle fasi
di raccolta, creazione, storage dei dati grezzi, cioé all'interno
della prima delle black box di cui parlavo. Senza bisogno di scomodare
i dati sensibili, un problema può derivare banalmente dal fatto che le
applicazioni utilizzate dentro la black box non consentono output nei
formati richiesti.
Mi pare insomma che fino a questo punto del ragionamento la scelta sia
del tutto aperta. Gli elementi che fanno la differenza arrivano adesso
e sono relativi a costo (inteso come TCO, includendo quindi ad es.
formazione, integrazione con i processi interni, necessità di
consulenze esterne), maggiore o minore dipendenza operativa da un
fornitore (ma anche da volontari), affidabilità del servizio,
accessibilità (macchine+persone), facilità di interfacciamento con
tool di visualizzazione e di condivisione e così via (*).
In base a questi elementi Google non mi pare una cattiva scelta. Non è
che mi sia fissato con Google per qualche oscuro motivo, ma solo
perché ci sto lavorando un po' su e ancora non ho francamente sentito
obiezioni convincenti, almeno in base alla linea di ragionamento che
ho cercato di sviluppare

(*) Un benchmark di particolare importanza sembra essere la capacità
del sistema di rispondere ai requisiti del modello "five stars".
Confesso che al riguardo sono abbastanza freddino, viste le condizioni
di partenza e i (crescenti) vincoli di ordine materiale. Non so
valutare per quali vie la scelta della piattaforma sia vincolante da
questo punto di vista

Michele Barbera

unread,
Aug 17, 2011, 10:16:49 AM8/17/11
to spaghett...@googlegroups.com
Personalmente sono molto d'accordo con Maurizio riguardo al fatto che la decisione di utilizzare i servizi di Google per lo storage di dati della PA
sia una scelta non priva di potenziali conseguenze, sia dirette, sia indirette, che andrebbero attentamente ponderate.

Non si tratta soltanto di "proprietà" e "storage" dei dati e di licenze d'uso oppure di "dipendenza" dai servizi di terzi, ma, specialmente trattandosi di una PA, credo sia importante tenere conto anche di altri fattori di ordine economico e politico.

Consiglio la lettura di questo articolo di Rufus Pollok (OKFN) <http://rufuspollock.org/economics/papers/search_engines.pdf>

e di questo bel post di Jeni Tennison che ho approssimativamente tradotto in italiano qui:

Ciao,
michele barbera


2011/8/17 Stefano Durì <stefan...@aster.it>

Stefano Durì

unread,
Aug 17, 2011, 10:53:32 AM8/17/11
to Spaghetti Open Data
grazie delle segnalazioni.
Le considerazioni relative all'opportunità di appoggiarsi - come PA -
a uno o all'altro fornitore sono senz'altro molto importanti e
delicate per quanto riguarda i processi interni alla black box di cui
parlavo e vanno oltre la valutazione dei soli parametri di costo ed
efficienza. Nel momento in cui parlo di dati aperti però mi sembra che
il discorso cambi radicalmente. Mentre, ai fini della scelta, è
rilevante un'obiezione del tipo, ad es., "Google è una piattaforma del
tutto inadatta a gestire in modo efficiente i metadati (definiti in
qualche formato ragionevolmente utilizzabile per un operatore
pubblico)".

Maurizio Napolitano

unread,
Aug 17, 2011, 11:10:10 AM8/17/11
to spaghett...@googlegroups.com
> Mentre, ai fini della scelta, è
> rilevante un'obiezione del tipo, ad es., "Google è una piattaforma del
> tutto inadatta a gestire in modo efficiente i metadati (definiti in
> qualche formato ragionevolmente utilizzabile per un operatore
> pubblico)

come gia' detto a suo tempo reputo sia importante che la p.a. non
si abitui poi a questi strumenti per gestire altro.

Google ci impiega poco a creare anche la gestione dei metadati.
Di suo ci ha gia provato in altre occasioni:
vedi http://www.google.com/health/


Mi rendo però conto che per molti piccoli comuni l'appoggiarsi
a questi servizi che sono gratuiti, efficienti e diffusi è una ghiotta
occasione invece che stare al "giogo" di altri.

Ps:
credo di averlo già segnalato, ma un intervento che mi ha affascinato
sul tema della gestione dei dati in mano ad aziende private è nell'
intervento di Moglen al FOSDEM2011
http://de.straba.us/2011/03/28/eben_moglen_al_fodem_2011/

Stefano Durì

unread,
Aug 17, 2011, 11:34:50 AM8/17/11
to Spaghetti Open Data
le preoccupazioni di cui si parla nell'intervento a cui ti riferisci
sono del tutto razionali nell'ambito degli esempi citati
dall'intervento stesso. Stiamo parlando del conferimento *esclusivo*
di contenuti personali o di importanza critica a soggetti sui quali
non esercitiamo nessun controllo e che possono redistribuire questi
contenuti a terzi in modo occulto o trasparente, ma comunque senza
consultarci. Non è con ogni evidenza il caso degli open data.

On 17 Ago, 17:10, Maurizio Napolitano <napoo...@gmail.com> wrote:
> > Mentre, ai fini della scelta, è
> > rilevante un'obiezione del tipo, ad es., "Google è una piattaforma del
> > tutto inadatta a gestire in modo efficiente i metadati (definiti in
> > qualche formato ragionevolmente utilizzabile per un operatore
> > pubblico)
>
> come gia' detto a suo tempo reputo sia importante che la p.a. non
> si abitui poi a questi strumenti per gestire altro.
>
> Google ci impiega poco a creare anche la gestione dei metadati.
> Di suo ci ha gia provato in altre occasioni:
> vedihttp://www.google.com/health/

Maurizio Napolitano

unread,
Aug 17, 2011, 11:48:11 AM8/17/11
to spaghett...@googlegroups.com
2011/8/17 Stefano Durì <stefan...@aster.it>:

> le preoccupazioni di cui si parla nell'intervento a cui ti riferisci
> sono del tutto razionali nell'ambito degli esempi citati
> dall'intervento stesso. Stiamo parlando del conferimento *esclusivo*
> di contenuti personali o di importanza critica a soggetti sui quali
> non esercitiamo nessun controllo e che possono redistribuire questi
> contenuti a terzi in modo occulto o trasparente, ma comunque senza
> consultarci. Non è con ogni evidenza il caso degli open data.

Concordo sulla tua osservazione.
Comunque, rimango dell'idea che fino a che si fa un uso consapevole
va benissimo, quando però (e la tentazione è forte) si usa una piattaforma
privata - anche se ad uso gratuito - come strumento di lavoro allora le
cose cambiano.
Gli open data devono comunque garantire privacy, segreto statistico,
segreto militare, flora e fauna protetta ecc...
Per creare queste garanzie devi avere tutti i dati che devono essere
tutelati che gli ha raccolti.
Se il punto di archiviazione diventa quello (a prescindere dall'azienda)
qualche dubbio mi viene.
Ripeto che è un caso estremo, ma sono convinto che la tentazione
sia sempre alta.

ciao

Reply all
Reply to author
Forward
0 new messages