Open Data, Machine Learning e Biblioteche

144 views
Skip to first unread message

Andrea Zanni

unread,
Sep 23, 2016, 6:59:43 AM9/23/16
to spaghett...@googlegroups.com
Cari tutti,
il 7 novembre a Milano ci sarà una giornata dedicata a
"Open Data, Machine Learning e Biblioteche":
https://blog.mlol.it/2016/09/22/open-data-machine-learning-biblioteche-mlol-mediatech/

L'incontro è aperto a tutti, presso la Sala del Grechetto della Biblioteca Sormani di Milano.

Parleremo di open data con focus sulle biblioteche:
non solo dati bibliografici aperti, ma anche i dati "transazionali", cioè quelli relativi a cosa leggono gli utenti, cosa prendono in prestito.
Le biblioteche collezionano questi dati da decenni, senza però averli mai aperti (o "restituiti") alla comunità. E' un tema importante, perchè di fatto chi lavora con i dati dei libri, oggi, sono le grandi corporation come Amazon.
Mentre l'intero ecosistema bibliotecario (fra cui anche le aziende che offrono servizi[1]) potrebbe beneficiarne, usando anche il machine learning per migliorare i propri servizi.

Come sapete meglio di me, ci sono domande molto interessanti a cui si può tentare di rispondere in una logica data-driven:
c'è una correlazione positiva fra trasporto pubblico efficiente e utilizzo della biblioteca?
ci sono correlazioni fra impatto della biblioteca e reddito procapite dei cittadini, o altri indicatori della "salute" economica e culturale di una città?

Oltre ad un discorso di maggiore efficienza bibliotecaria, si può quindi pensare a tutto ciò che un serio studio dei dati incrociati potrebbe dirci sul vero impatto delle biblioteche.

Tutto questo pippone per dire che, se siete a Milano,
fate un salto!

Andrea

[1] Disclosure: L'incontro è organizzato, fra gli altri, dal team di MLOL (in cui lavoro anche io).

Paolo Riva

unread,
Sep 24, 2016, 1:02:44 PM9/24/16
to spaghett...@googlegroups.com
Vedo se riesco a ritagliarmi una mezza giornata e passare  a salutare :)

Ciao Paolo.

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopendata+unsubscribe@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.



--
Paolo Riva
Soccer Talent Scout
Skype: pavlov982
Twitter: @ilpaoloriva

Andrea Zanni

unread,
Oct 26, 2016, 10:53:35 AM10/26/16
to spaghett...@googlegroups.com
Ciao a tutti,
sempre in riferimento a questo incontro, vi pongo un dubbio che c'è venuto:
avete voi in mente qualche esempio di rilascio di "dati transazionali"? Da parte di PA o privati?

Di fatto, riflettevamo, gli open data sono solitamente dati di sintesi, non sono la stessa cosa che
"la persona X ha preso in prestito il libro Y".

Come precedente, ci è venuto in mente la famosa challenge di Netflix che
premiava chi sarebbe riuscito a migliorare il loro algoritmo di raccomandazione. La cosa interessante dunque è che netflix è un'azienda privata e non pubblica.

I metadati insegnano sempre moltissimo, per cui diventa quasi un dilemma logico
anonimizzare questi dati: se li anonimizzi troppo diventano inutili, per essere utili devono essere abbastanza ricchi, quindi con il rischio di invadere la privacy. O forse non è vero, e si riesce ad anonimizzare senza togliere valore.  

Mi piacerebbe capire se in lista si è parlato anche di problemi del genere...

Andrea



Daniele Crespi

unread,
Oct 26, 2016, 1:09:35 PM10/26/16
to spaghett...@googlegroups.com

Bella domanda ....

La privacy è molto limitante, a volte troppo per la mia esperienza .. Soprattutto quando viene interpretata in modo restrittivo

Conosco casi analoghi .. Es. Le COB .. O peggio i dati della sanità .. Che vengono gestiti come closed data e dati in uso con molte restrizioni

Sono però convinto che masking e anonimizzazione se ben fatto potrebbero aiutare a far qualcosa

Ciao

Daniele Crespi

Andrea Maurino

unread,
Oct 27, 2016, 5:05:55 AM10/27/16
to spaghett...@googlegroups.com

Bilanciare la privacy senza far perdere "valore" ai dati è uno dei temi di ricerca attualmente più dibattuti. Il problema maggiore è come riuscire a estrarre conoscenza, anche integrando i dati, rispettando la privacy (privacy preserving data mining)

Solo a titolo di esempio alla conferenza data4policy ho seguito un intervento
Dal titolo
Big Data and the Social Sciences: Can Accuracy and Privacy Co-Exist?”

L'autore – Jim Waldo dell' università di harvard raccontava come fosse difficile per lui rilasciare i dati sull'uso dei corsi in elereaning per motivi di privacy. Quello che hanno scoperto poi è che l'anonimizzazione dei dati introduceva dei bais nelle analisi statistiche...

Dal punto di vista scientifico questi problemi rendono difficile la riproducibilità dei risultati sperimentali con buona pace del metodo scientifico....

Andrea

Cristiano Longo

unread,
Oct 27, 2016, 5:05:50 PM10/27/16
to spaghett...@googlegroups.com



On 26/10/2016 16:53, Andrea Zanni wrote:
Ciao a tutti,
sempre in riferimento a questo incontro, vi pongo un dubbio che c'è venuto:
avete voi in mente qualche esempio di rilascio di "dati transazionali"? Da parte di PA o privati?

Di fatto, riflettevamo, gli open data sono solitamente dati di sintesi, non sono la stessa cosa che
"la persona X ha preso in prestito il libro Y".

Come precedente, ci è venuto in mente la famosa challenge di Netflix che
premiava chi sarebbe riuscito a migliorare il loro algoritmo di raccomandazione. La cosa interessante dunque è che netflix è un'azienda privata e non pubblica.
Ho preso in considerazione una problematica simile con un progetto, naufragato, sulle biblioteche popolari. I dati transazionali realtime non necessariamente ledono la privacy. Ad esempio, per un utente di una biblioteca è interessante sapere se una copia del libro è disponibile o se sono tutte fuori, non gli interessa molto sapere chi le ha prese. Per dati realtime le tecniche classiche di pubblicazione però non vanno bene, è necessario implementare delle api che restituiscono il dato specifico in tempo reale.


I metadati insegnano sempre moltissimo, per cui diventa quasi un dilemma logico
anonimizzare questi dati: se li anonimizzi troppo diventano inutili, per essere utili devono essere abbastanza ricchi, quindi con il rischio di invadere la privacy. O forse non è vero, e si riesce ad anonimizzare senza togliere valore.  

In teoria è possibile anonimizzare per tirare fuori delle statistiche. Nella realtà dei fatti è difficile anonimizzare ma tenendo informazioni che potrebbero essere rilevanti senza rischiare che si possa risalire all'identità, pensa ad esempio un dato del tipo "il libro X è stato prelevato da una persona con problemi motori residente nel quartiere Y".
Mi piacerebbe capire se in lista si è parlato anche di problemi del genere...

Il problema è a mio avviso che oggi per valore dei dati si intende solo quello che può essere utilizzato per la pubblicità mirata, e sono dati che oggi hanno molto mercato. Ma l'innovazione è anche vedere valore dove gli altri non lo vedono.

CL
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Andrea Zanni

unread,
Nov 9, 2016, 9:36:44 AM11/9/16
to spaghett...@googlegroups.com
Consiglio il video di Marco Goldin (uno dei pochissimi bibliotecari che sa usare codice e dati in maniera professionale)
https://www.youtube.com/watch?v=IKK3rE7uet0

e anche le mie slides (perchè sono bellissime e fatte in reveal.js):
http://babele.io/slides/machinelearning
(si parla di dati, API, LOD, Internet Archive, Wikidata, e domande)

Andrea

Matteo Brunati

unread,
Nov 13, 2016, 7:08:12 AM11/13/16
to Spaghetti Open Data
Grazie Andrea,
un sacco di materiale interessante: appena trovo un po' di tempo mi guardo tutto.

Il feedback dei partecipanti come è stato?

L'uso di strumenti come reveal.js è davvero un portento, potendo giocare con la profondità, lo zoom e gli assi verticali, hai ragione.
Unico neo:  serve un attimo di tempo per preparare bene il flusso prima, e non si deve esagerare sennò sembrano le montagne russe :)

matt

ps - a suo tempo avevo usato impress.js http://labs.dagoneye.it/opendatafirenze/ ma alla fine sono strumenti molto simili - https://js.libhunt.com/project/reveal-js/vs/impress-js

Andrea Zanni

unread,
Nov 16, 2016, 5:38:02 AM11/16/16
to spaghett...@googlegroups.com
Trovo reveal.js veramente bello e potente: personalmente, lo sfrutto ogni volta che posso, e cerco di impararlo meglio ogni volta che faccio una presentazione.

Di fatto, mi permette di scrivere le mie slides in un unico documento, in markdown:
Questo secondo me è utilissimo perchè a scrivere le slides puoi strutturare il discorso in "capitoli":
ogni capitolo va in verticale, così ogni passaggio in orizzontale è un cambio di discorso.
Non permette quindi un "nesting" (sottocapitoli e paragrafi), ma è abbastanza.
Non sono ancora arrivato quindi al livello di Lessig (prendete una presentazione a caso, è uno stile unico), che, fra le altre cose, apre e chiude con tag HTML le parti del suo discorso :-)

 
Un'altra cosa interessante è che essendo puro testo/codice puoi struttare GitHub:
io uso GitHub pages per avere tutto online (ho un accrocchio molto complicato fatto dal buon Cristian Consonni, io non saprei ricrearlo neanche studiandoci sopra per un anno :-D).
Idealmente, puoi dunque avere ottime slides
* collaborative
* sempre online --> la gente volendo ci può tornare e cliccare i link e vedere i dettagli
* con codice e iframe --> http://babele.io/slides/machinelearning/#/4/6 (fate refresh, c'è una query a Wikidata)
* con tutte le funzionalità che css e javascript possono offrire.
* ipertesto, link, ecc.

Insomma, di fatto è usare il web al massimo della potenza per convogliare un messaggio alle persone, mentre si parla.
La trovo personalmente una roba bella e importante, decisamente meglio del vecchio Powerpoint :-)

Andrea





--

Piero Savastano

unread,
Nov 16, 2016, 6:16:32 AM11/16/16
to Spaghetti Open Data

Bellissimo!
In particolare il finale: "Cosa vogliamo chiedere ai dati?"

Concordo sul punto essenziale del discorso ML, e cioè che si tratta di uno *strumento* che ci permette di valorizzare i dati, dati che dobbiamo spingere per rendere aperti e accessibili.
No data, no party

Piero

Andrea




Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.



--
Paolo Riva
Soccer Talent Scout
Skype: pavlov982
Twitter: @ilpaoloriva
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Reply all
Reply to author
Forward
0 new messages