SOD16 - Code4Health: dati raccolti & progetto QGIS nell'hackaton

178 views
Skip to first unread message

cesare gerbino

unread,
May 7, 2016, 11:42:42 AM5/7/16
to spaghett...@googlegroups.com
Ciao a tutti


trovate i dati che abbiamo raccolto oggi (vedi rif. https://docs.google.com/spreadsheets/d/1bjZMBwLJ3XL2HyTf3woZwfKqLdpSWfMw-c_84pWi5c4/edit#gid=0 ...), messi insieme in un piccolo progetto QGIS.

Il progetto "dovrebbe" essere autoconsistente (nel senso che basta avere QGIS installato e fare doppio click .... e dovrebbe andare ...).

Alcune note per l'utilizzo:
  • ho usato la versione 2.6.1 di QGIS ma si dovrebbe aprire senza problemi anche se avete versioni più recenti
  • verificate che NON abbiate alcun proxy configurato dentro QGIS (rif. Impostazioni --> Configurazioni .--> Rete)
  • i dati sono "as-is" per come sono stati raccolti. Ci sono evidenti errori (lo vedete visualizzando la mappa .... ), ma fà parte del gioco (anche se con dati piuttosto ufficiali non dovrebbe essere così ma tant'è ....). 
  • Non "spaventatevi" se quando aprite il progetto ci dà delel segnazioni di errore su alcuni file csv. Sono "sporchi" di loro, non c'è stato tempo di ripulire, ma il tutto funziona
  • in verdino ci sono i dati di wired
  • in arancione-giallo i dati che abbiamo trovato sui siti delle singole regioni
  • in violetto i dati del Ministero: in questo caso sotto la cartella del Minstero ci sono i dati di alcune Regioni: alcuni di questi sono del tutto analoghi a quelli di wired, alcuni no
  • ci sono dei "macro" errori nei dati di Liguria (che compare due volte ...), e Veneto (che ha dei dati in Alta Savoia ....). Da verificare per bene se sono errori nei dati di partenza (come credo ...), o errori che ho fatto io
  •  i dati che visualizzo sotto la il gruppo "Ministero Ambiente" sono al momento di CSV e occorre salvarli on formato shapefile se lo si desidera
Infine alcune considerazioni:
  • ci sono errori sui dati raccoltti, anche "macro": questo fà venire dei dubbi sula effettiva qualità dei dati
  • la mappa evidenzia delle grosse aree in cui non ci sono info: intere regioni come Sicilia, Calabria e Puglia. Anche la Lombardia non è messa benissimo nella pratica ha solo una zona che sembra essere un "pilota"
Se ci sono dubbi o se non risucite a far funzionare il progetto contattatemi 

 Grazie e a presto

 Cesare





Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni espresse sono personali e non riflettono necessariamente quelle del mio datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino:  the views expressed  are mine and not necessarily those of my employer.
.

andy

unread,
May 7, 2016, 12:45:27 PM5/7/16
to Spaghetti Open Data
Ciao Cesare,
grazie dell'email e grazie a tutti voi per il lavoro fatto.

Volevo provare a dare una mano con la pulizia dei CSV. I dati "PNA_W/Campania_2013.csv" e "PNA_W/Mappatura_2013 _VENETO.csv" che origine hanno? 
Non li trovo citati qui.

Metterete tutto in repo github? 

Saluti,

a
--
 Andrea Borruso
website: http://blog.spaziogis.it
38° 7' 48" N, 13° 21' 9" E, EPSG:4326

--

"cercare e saper riconoscere chi e cosa,
 in mezzo all’inferno, non è inferno, 
e farlo durare, e dargli spazio"

Italo Calvino

davide mancino

unread,
May 8, 2016, 8:46:01 AM5/8/16
to Spaghetti Open Data
ciao a tutti,

mi è spiaciuto molto non riuscire a partecipare ma purtroppo fra una cosa e l'altra ho saputo dell'evento molto in ritardo. Comunque visto che per Wired mi sono occupato di scrapare (e poi visualizzare) i dati per l'inchiesta principale e gli articoli usciti in seguito vorrei girarvi qualche precisazione, così si capisce meglio cosa abbiamo messo su e quali sono i limiti dei dati.

Il primo lavoro si è basato sui dati del censimento 2010, cioè in sostanza sullo scraping di queste 191 pregevoli pagine di pdf. Come potete immaginare, vista la fonte e le risorse che avevamo a disposizione è stato necessario escludere molte delle informazioni disponibili e concentrarci soltanto su quelle più importanti, ovvero la localizzazione dei siti per coordinate geografica e il coefficiente di rischio (la variabile che nel file si chiama "classe di priorità", e indica i siti di maggiore gravità e quindi prioritari in termini di bonifica). Già lì i siti si contavano a decine di migliaia, ma anche a occhio si vedono grandi buchi e sorprende la mancanza di regioni importanti come Lombardia e Piemonte. Anzi il risultato poteva essere fuorviante, perché le Marche che avevano fatto un ottimo lavoro di censimento sembravano "infestate" dall'amianto, mentre le regioni più pigre (che neppure si sono degnate di fare il censimento e/o inviare i dati) apparivano immacolate.

Dopo di che con Rosy abbiamo continuato a seguire la vicenda, che ha continuato a evolversi nel tempo in maniera lenta ma costante. Per esempio ARPA Piemonte all'inizio ci aveva negato i dati, il che è un vero peccato perché avevano fatto un'operazione di mappatura assai dettagliata, ma è bastato rompergli le scatole per un po' perché alla fine venissero fuori. Poi è saltato fuori anche il lavoro svolto in Lombardia, che però come avete già notato riguarda soltanto una porzione assai piccola del territorio. Ancora più avanti i dati pubblicati sul sito del ministero dell'ambiente sono stati aggiornati al 2013, ma se li avete aperti avrete senz'altro visto che forse sono ancora peggiori di quelli precedenti, perché a quanto pare ogni regione ha fatto a modo proprio, e comunque si tratta ancora di sole 14 regioni su 20.

Nonostante questo erano informazioni nuove (si fa per dire: i dati di alcune regioni risalivano al 2000, ma tant'è), per cui ci ho rilavorato su per cercare di renderli omogenei e ripulirli, magari escludendo i siti che comparivano (per ragioni piuttosto misteriose, ma forse il ministero dispone di sommozzatori e/o agenti all'estero) in fondo al mare Adriatico, in Grecia, a volte in Tunisia o in Iran. Dov'erano disponibili le coordinate geografiche i dati sono stati mappati, ma in molti altri casi non c'erano quindi l'unico modo per dare un quadro un po' più d'insieme, credo, era aggregare le varie fonti disponibili fino a quel momento. Come scrivevo su Twitter, mi sono accorto soltanto ieri di non aver mai pubblicato questi ultimi dati (che ho usato per la seconda visualizzazione dell'articolo), così li ho messi su github caso mai dovessero servirvi. Più positivo invece è stato il livello di approfondimento delle statistiche, da cui è stato possibile trarre informazioni più dettagliate rispetto al solo livello di rischio.

Naturalmente tutto questo è stato messo in piedi da un noob dei dati come me, con tutti i limiti del caso, quindi se voi aveste fatto le cose in modo diverso, o avete critiche e suggerimenti per il futuro sono assolutamente benvenuti perché conto di scriverci ancora, non appena possibile, e si può senza dubbio fare meglio. Magari già partendo dal vostro incontro, da cui sono sicuro che riuscirete a creare una cosa assai più rigorosa e organizzata della mia.

Matteo Fortini

unread,
May 9, 2016, 2:20:50 AM5/9/16
to Spaghetti Open Data
Vi avevo mandato un link a umap che riguardava la mappatura dei siti pubblici o aperti al pubblico contenenti amianto di ARPA E-R aggiornata al 15 Giugno 2014. Siccome hanno fatto un aggiornamento, ho fatto lo stesso lavoro di scraping del PDF con Tabula e nel doc allegato trovate un foglio con la lista aggiornata al 15 Giugno 2015.

https://docs.google.com/spreadsheets/d/1KBASAAjkAnaKB_MaBVu2tFwWnUiUo_YjXmDEM2xyD2E/edit?usp=sharing

Matteo

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

Matteo Brunati

unread,
May 9, 2016, 8:57:39 AM5/9/16
to Spaghetti Open Data


Il giorno sabato 7 maggio 2016 18:45:27 UTC+2, Andrea Borruso ha scritto:
Ciao Cesare,
grazie dell'email e grazie a tutti voi per il lavoro fatto.

Volevo provare a dare una mano con la pulizia dei CSV. I dati "PNA_W/Campania_2013.csv" e "PNA_W/Mappatura_2013 _VENETO.csv" che origine hanno? 
Non li trovo citati qui.


In realtà sono all'interno dello ZIP che trovi alla riga 4 dello spreadsheet, se non ricordo male.

 
Metterete tutto in repo github? 


Intanto aggreghiamo tutto e prob le cose tecniche certo, why not :)

matt

andy

unread,
May 9, 2016, 10:31:35 AM5/9/16
to Spaghetti Open Data
2016-05-09 14:57 GMT+02:00 Matteo Brunati <matteo....@gmail.com>:
In realtà sono all'interno dello ZIP che trovi alla riga 4 dello spreadsheet, se non ricordo male.

Buono a sapersi, grazie.
 

 
Metterete tutto in repo github? 


Intanto aggreghiamo tutto e prob le cose tecniche certo, why not :)


Volevo usare un repo proprio per aggregare. Ma va bene anche in altro modo.


Grazie


Rosy Battaglia

unread,
May 9, 2016, 12:07:12 PM5/9/16
to Spaghetti Open Data
Grazie Davide, anche per tutto il lavoro fatto insieme e per la tua disponibilità. L'idea dell'hackton e di monitoraggio civico è partita da Matteo Brunati, con la quale stiamo cercando di sollecitare le istituzioni sia a completare la mappatura e soprattutto, come hai ricordato e io ho ribadito, la necessità di individuare i luoghi con priorità di bonifica. Quel lavoro di monitoraggio civico che è partito da Cittadini Reattivi nel 2013 e che vorremmo proseguire.

Tutto quello che hai scritto l'ho raccontato nella presentazione di Code4Health sabato, (dalla ricerca dati alle richieste d'accesso fino al lavoro "sporco" della tua scrapatura a partire da quel file famoso in pdf che il ministero aveva pubblicato dopo le nostre richieste di accesso e la partenza dell'inchiesta su Wired a luglio 2014). Fino all'elaborazione degli ultimi dati che tu hai fatto ai primi di dicembre, appunto.

Ora regione Piemonte sta verificando i siti mappati con il sistema di telerilevamento come hanno annunciato a Casale Monferrato il 28 aprile (vedi il pezzo su Wired). E quindi ora dovremmo poter mappare oltre 50mila siti dei 100mila annunciati, rispetto ai 23mila che avevano pubblicato in open data a giugno. Ma non ci sono molti progressi sulle altre regioni e anche per questo stiamo pensando ad una campagna di richieste di accesso tramite Chiedi/Diritto di Sapere per sollecitare regioni e comuni a provvedere ai ritardi. Anche qui come ha constatato Matteo non è semplice stilare una richiesta, ma il monito

Insomma come ha ricordato Matteo, di lavoro da fare ce n'è tantissimo e non solo giornalistico. Su Cittadini Reattivi continuiamo a seguire il tutto, così come ne riparlemo al Wired Next Fest.

Un abbraccio e a presto

Rosy

Rosy Battaglia

unread,
May 9, 2016, 12:11:54 PM5/9/16
to Spaghetti Open Data
Grazie Cesare, grande lavoro di riepilogo!
Rosy

Il giorno sabato 7 maggio 2016 17:42:42 UTC+2, cesare gerbino ha scritto:

Matteo Brunati

unread,
May 9, 2016, 3:59:35 PM5/9/16
to Spaghetti Open Data


Il giorno domenica 8 maggio 2016 14:46:01 UTC+2, davide mancino ha scritto:
ciao a tutti,

mi è spiaciuto molto non riuscire a partecipare ma purtroppo fra una cosa e l'altra ho saputo dell'evento molto in ritardo. Comunque visto che per Wired mi sono occupato di scrapare (e poi visualizzare) i dati per l'inchiesta principale e gli articoli usciti in seguito vorrei girarvi qualche precisazione, così si capisce meglio cosa abbiamo messo su e quali sono i limiti dei dati.

Wow, grazie di esserti fatto vivo: la questione è complessa, e ci serve proprio mettere i puntini sulle i.
Fortuna che c'è la Rete, e che è un luogo abitato, così si può lavorare assieme in tempi e modi diversi, per sfidare la complessità tutti assieme.

 

Il primo lavoro si è basato sui dati del censimento 2010, cioè in sostanza sullo scraping di queste 191 pregevoli pagine di pdf. Come potete immaginare, vista la fonte e le risorse che avevamo a disposizione è stato necessario escludere molte delle informazioni disponibili e concentrarci soltanto su quelle più importanti, ovvero la localizzazione dei siti per coordinate geografica e il coefficiente di rischio (la variabile che nel file si chiama "classe di priorità", e indica i siti di maggiore gravità e quindi prioritari in termini di bonifica). Già lì i siti si contavano a decine di migliaia, ma anche a occhio si vedono grandi buchi e sorprende la mancanza di regioni importanti come Lombardia e Piemonte. Anzi il risultato poteva essere fuorviante, perché le Marche che avevano fatto un ottimo lavoro di censimento sembravano "infestate" dall'amianto, mentre le regioni più pigre (che neppure si sono degnate di fare il censimento e/o inviare i dati) apparivano immacolate.

Dopo di che con Rosy abbiamo continuato a seguire la vicenda, che ha continuato a evolversi nel tempo in maniera lenta ma costante. Per esempio ARPA Piemonte all'inizio ci aveva negato i dati, il che è un vero peccato perché avevano fatto un'operazione di mappatura assai dettagliata, ma è bastato rompergli le scatole per un po' perché alla fine venissero fuori. Poi è saltato fuori anche il lavoro svolto in Lombardia, che però come avete già notato riguarda soltanto una porzione assai piccola del territorio. Ancora più avanti i dati pubblicati sul sito del ministero dell'ambiente sono stati aggiornati al 2013, ma se li avete aperti avrete senz'altro visto che forse sono ancora peggiori di quelli precedenti, perché a quanto pare ogni regione ha fatto a modo proprio, e comunque si tratta ancora di sole 14 regioni su 20.

Nonostante questo erano informazioni nuove (si fa per dire: i dati di alcune regioni risalivano al 2000, ma tant'è), per cui ci ho rilavorato su per cercare di renderli omogenei e ripulirli, magari escludendo i siti che comparivano (per ragioni piuttosto misteriose, ma forse il ministero dispone di sommozzatori e/o agenti all'estero) in fondo al mare Adriatico, in Grecia, a volte in Tunisia o in Iran. Dov'erano disponibili le coordinate geografiche i dati sono stati mappati, ma in molti altri casi non c'erano quindi l'unico modo per dare un quadro un po' più d'insieme, credo, era aggregare le varie fonti disponibili fino a quel momento. Come scrivevo su Twitter, mi sono accorto soltanto ieri di non aver mai pubblicato questi ultimi dati (che ho usato per la seconda visualizzazione dell'articolo), così li ho messi su github caso mai dovessero servirvi. Più positivo invece è stato il livello di approfondimento delle statistiche, da cui è stato possibile trarre informazioni più dettagliate rispetto al solo livello di rischio.

Dilemma: magari sono un pelino rinco io, ma oltre a metterla nell'articolo, perchè non avete tenuto sincronizzato la macro inchiesta di riferimento?
Ovvero il punto più ad alto livello penso sia questo:
http://www.wired.it/topic/amianto/

Ovvero, come si fa a capire che la pagina classica dell'inchiesta è datata, specie nella mappatura? Ovvero non è questa la pagina dell'inchiesta principale?
http://wired.it/partner/amianto/

Era in progetto avere qualcosa che tenesse le fila oppure no?
Te lo dico/chiedo perchè è uno degli elementi dove pensavamo di dare una mano: una timeline chiara e semplice dove si aggrega il flusso temporale di uscita dei vari articoli. Sennò ci si perde :)
E magari parallelamente collegarsi alla mappa aggiornata al momento attuale, per quanto possibile.



Naturalmente tutto questo è stato messo in piedi da un noob dei dati come me, con tutti i limiti del caso, quindi se voi aveste fatto le cose in modo diverso, o avete critiche e suggerimenti per il futuro sono assolutamente benvenuti perché conto di scriverci ancora, non appena possibile, e si può senza dubbio fare meglio. Magari già partendo dal vostro incontro, da cui sono sicuro che riuscirete a creare una cosa assai più rigorosa e organizzata della mia.

Ah ecco, forse qualche spunto l'ho già inserito sopra, ma ci penso meglio.

Grazie per esserti fatto vivo :) e per tutto il lavorone fatto!

matt

Matteo Brunati

unread,
May 9, 2016, 4:43:59 PM5/9/16
to Spaghetti Open Data
Rosy, sei ovunque! :)

Faccio un recap generale su quello che abbiamo fatto: c'è un gdoc aperto con gli appunti
https://docs.google.com/document/d/1cPp_1zLADayo1GMQeJz-eWBsw9PxzAhnTJksC-UANzs/edit#heading=h.tzd1y7cqtjah

L'ho messo in ordine: ci serve per capire come strutturare al meglio i prossimi passi del progetto.

Ecco cosa abbiamo fatto sabato nella sessione Code4Health (poi pubblico un resoconto più ordinato in un blog post su spaghettiopendata.org nei prossimi giorni)
  • un veloce recap sul contesto, anche grazie alla call di 30min fatta con Rosy (a proposito, grazie mille, era pure sabato mattino!);
  • ci siamo divisi i temi:
    • mappatura delle fonti con un minimo di metadati associati, da perfezionare;
    • prima prova di mappatura aggiornata su scala nazionale con qgis (a partire dai dati che emergevano): il lavoro segnalato da Cesare con il quale abbiamo aperto il thread. Il ministero dell'ambiente latita alla grande, e il comune cittadino non ha idea dello stato attuale delle cose;
    • esperimenti di mappatura crowd di siti che hanno amianto: uno via umap e google form, da capire come far evolvere, ma funziona![1]
    • abbiamo fatto pure un BOT su Telegram per raccogliere le segnalazioni e allegare magari una foto (qui mi servono i dettagli, li condividere in lista?);
    • accesso civico: ci siamo resi conto che è un tassello fondamentale: qui si potrà strutturare un'azione collettiva, usando magari Chiedi (il servizio di Diritto di Sapere che facilita le richieste). Serve fare pressione, è uno degli elementi cardine, e siamo molti! Rosy ha fornito un primo modello da far evolvere (noi non siamo giornalisti, va modificato perchè non abbiamo il diritto di cronaca, almeno fino a che non avremo un vero FOIA è complesso, ma lo sappiamo);
    • abbiamo abbozzato l'idea (ovvero solo messa sul tavolo) di un'infografica che aiuti a spiegare la titolarità dei dati sull'amianto, le competenze tra centro e periferia (non è banale), e magari i legami anche con le fonti INAIL: ma su questo non abbiamo lavorato. Anche una forma di monitoraggio al negativo era emersa nella discussione: ovvero far vedere quegli enti che non agigornano/rispondono a obblighi di legge nella pubblicazioni di questi dati.

Mi pare sia tutto: e come inizio non è decisamente male :)

Un elemento a cui tengo particolarmente è la connessione di comunità differenti, ma che si completano: noi qui a SOD siamo fattori abilitanti.
Il tema della salute può essere uno di quelli che fanno sdoganare l'Open Data dalla nicchia in cui è rimasto in tutti questi anni, e farne un tassello per azioni civiche ben più ampie.

Un lavoro di squadra, dove ognuno porta il suo valore: perchè i dati sono potere, e la salute non è un campo da gioco in cui scherzare.

#hackingsociety

 matt

[1] - https://docs.google.com/document/d/1cPp_1zLADayo1GMQeJz-eWBsw9PxzAhnTJksC-UANzs/edit#bookmark=id.c712mdefqif6

Davide Galletti

unread,
May 10, 2016, 3:42:20 AM5/10/16
to spaghett...@googlegroups.com
Ciao Matteo, ciao Rosy,

grazie del recap, aggiungo le info sul bot. L'idea è di mettere a disposizione di tutti i singoli e le associazioni uno strumento semplice per contribuire alla mappatura dei dati. L'idea è analoga a quella di bocconi bot (https://github.com/piersoft/bocconibot); questo bot consente di inviare una foto geolocalizzata ad un server che le memorizza. I dati raccolti saranno scaricabili in blocco come dataset e visualizzabili su una mappa.
Il bot è in fase di sviluppo, non appena ne ho una versione testabile la metto su github e in linea su un mio server; vi chiederò di provarla e di darmi feedback. E' scritta in python/django/telepot; c'era un pythonista se non sbaglio domenica nel gruppo dei bot ... se hai voglia di condividere il lavoro fammi un fischio.
A Rosy chiedo se pensa che una raccolta di informazioni di questo tipo fatta dal basso possa avere delle criticità di tipo legale.

Ne approfitto per ringraziare tutti quelli che hanno contribuito, organizzando e/o portando la loro esperienza, questa tre giorni di SOD 16; è stata la mia prima volta a SOD e sono molto contento di aver partecipato,

buona giornata,

Davide



Il 09/05/2016 22:43, Matteo Brunati ha scritto:

Matteo Brunati

unread,
May 11, 2016, 1:53:19 AM5/11/16
to Spaghetti Open Data


Il giorno lunedì 9 maggio 2016 16:31:35 UTC+2, Andrea Borruso ha scritto:

2016-05-09 14:57 GMT+02:00 Matteo Brunati <matteo....@gmail.com>:
In realtà sono all'interno dello ZIP che trovi alla riga 4 dello spreadsheet, se non ricordo male.

Buono a sapersi, grazie.
 

 
Metterete tutto in repo github? 


Intanto aggreghiamo tutto e prob le cose tecniche certo, why not :)


Volevo usare un repo proprio per aggregare. Ma va bene anche in altro modo.


Hai ragione: il repo è sicuramente il modo più veloce per aggregare e tenere traccia del lavoro fatto, almeno per la parte più tecnica.
Ho caricato la cartella zippata indicata da Cesare: poi mettiamo un po' di documentazione nella wiki interna.
Chi vuole contribuire al repo me lo dica (via mail matteo.brunati AT gmail.com) che lo aggiungo al team.

matt

davide mancino

unread,
May 11, 2016, 4:57:46 AM5/11/16
to Spaghetti Open Data
Dilemma: magari sono un pelino rinco io, ma oltre a metterla nell'articolo, perchè non avete tenuto sincronizzato la macro inchiesta di riferimento?
Ovvero il punto più ad alto livello penso sia questo:
http://www.wired.it/topic/amianto/

Ovvero, come si fa a capire che la pagina classica dell'inchiesta è datata, specie nella mappatura? Ovvero non è questa la pagina dell'inchiesta principale?

No, in realtà è un'ottima domanda! Il problema è che la maggior parte delle testate italiane (anche quelle più grandi!) non sono equipaggiate per affrontare in maniera strutturata temi che si aggiornano spesso nel tempo. Nonostante tutto quello che si dice sul digitale eccetera, molte sono ancora legate al concetto classico di "pubblico un articolo, lo butto e così via", e lo si vede dal modo in cui sono impostati i vari CMS (Wordpress quasi ovunque) che più di questo non consentono. Infatti per l'inchiesta su Wired siamo dovuti uscire fuori dal CMS della testata con una pagina apposita. Poi l'abbiamo aggiornata altre tre volte, dopo l'uscita, ma dopo un po' le testate perdono interesse (anche perché è una cosa costosa in termini di tempo e denaro) e quindi la cosa sfuma. Fra i pochi ad aver affrontato esplicitamente la questione mi pare ci siano quelli de Il Post, che da quel che vedo hanno un (ottimo) sistema per fare liveblog che forse potrebbe essere adattato a queste esigenze.

Peraltro, ma Rosy ve l'avrà mostrato senz'altro, lei stessa ha raccolta in maniera cronologica le varie parti dell'inchiesta che sono qui


Il bot è in fase di sviluppo, non appena ne ho una versione testabile la metto su github e in linea su un mio server; vi chiederò di provarla e di darmi feedback. E' scritta in python/django/telepot; c'era un pythonista se non sbaglio domenica nel gruppo dei bot ... se hai voglia di condividere il lavoro fammi un fischio.
A Rosy chiedo se pensa che una raccolta di informazioni di questo tipo fatta dal basso possa avere delle criticità di tipo legale.

Ne approfitto per ringraziare tutti quelli che hanno contribuito, organizzando e/o portando la loro esperienza, questa tre giorni di SOD 16; è stata la mia prima volta a SOD e sono molto contento di aver partecipato,

Personalmente (ma gli esperti mi correggano se sbaglio) non vedo problemi legali in questo. La difficoltà principale temo sia dal punto di vista giornalistico, e cioè: abbiamo la possibilità di verificare queste informazioni?

Davide Galletti

unread,
May 11, 2016, 5:16:15 AM5/11/16
to spaghett...@googlegroups.com
Il 11/05/2016 10:57, davide mancino ha scritto:
Il bot è in fase di sviluppo, non appena ne ho una versione testabile la metto su github e in linea su un mio server; vi chiederò di provarla e di darmi feedback. E' scritta in python/django/telepot; c'era un pythonista se non sbaglio domenica nel gruppo dei bot ... se hai voglia di condividere il lavoro fammi un fischio.
A Rosy chiedo se pensa che una raccolta di informazioni di questo tipo fatta dal basso possa avere delle criticità di tipo legale.

Ne approfitto per ringraziare tutti quelli che hanno contribuito, organizzando e/o portando la loro esperienza, questa tre giorni di SOD 16; è stata la mia prima volta a SOD e sono molto contento di aver partecipato,

Personalmente (ma gli esperti mi correggano se sbaglio) non vedo problemi legali in questo. La difficoltà principale temo sia dal punto di vista giornalistico, e cioè: abbiamo la possibilità di verificare queste informazioni?
Credo che il senso di un bot sia quello di raccogliere informazioni non validate da parte di molte persone in modo che a partire da quelle informazioni qualcuno le possa valutare, integrare con altre mappature. Di per sé possono avere solo un valore indicativo. Credo però che associazioni interessate alla questione amianto potrebbero usarlo come strumento e fare delle validazioni locali.
Dal punto di vista della realizzazione si potrebbe gestire una "peer review": in pratica quando carico un'immagine e la geolocalizzo il bot mi dice se ci sono altre segnalazioni nel raggio di N metri; se ci sono me le fa visualizzare e mi dà la possibilità di dire che la mia riguarda lo stesso artefatto già segnalato da altri. In questo modo potremmo estrarre un dataset (e una mappa) fatto da tutte le segnalazioni ed uno fatto solo da quelle che hanno almeno 2 o più fotografie

Davide Galletti

unread,
May 23, 2016, 3:12:10 AM5/23/16
to spaghett...@googlegroups.com
Ho completato un prototipo di bot per raccogliere le segnalazioni per l'eternit o altro.
Si chiama segnalazionibot, il codice (python3.5, django 1.9, telepot, leaflet.js) per ora è qui:
      https://github.com/davidegalletti/segnalazioni_bot
Se mi date l'accesso lo sposterei sotto qualcosa del tipo spaghetti-open-data/code4health-amianto-bot

Ho impostato il funzionamento così:
- si invia la posizione
- si invia una fotografia
il bot associa i due messaggi in una segnalazione e li pubblica (entro 2 minuti):
- in una mappa basata su osm: http://108.161.134.31:8800/static/map.html
- in json http://108.161.134.31:8800/static/maps/markers.json  (marker utilizzati per la mappa)
- sono anche memorizzati su un db mysql per cui si possono estrarre facilmente anche in altri formati

Quando si invia la posizione il bot controlla se ci sono segnalazioni vicine (per
ora ho impostato a circa 50m); in quel caso le visualizza (posizione e foto) e
chiede all'utente di controllare che quello che vuole segnalare non sia già
stato segnalato da altri.

Se lo provate fatemi sapere di anomalie e suggerimenti,

ciao,

Davide


Il 10/05/2016 09:42, Davide Galletti ha scritto:
Ciao Matteo, ciao Rosy,

grazie del recap, aggiungo le info sul bot. L'idea è di mettere a disposizione di tutti i singoli e le associazioni uno strumento semplice per contribuire alla mappatura dei dati. L'idea è analoga a quella di bocconi bot (https://github.com/piersoft/bocconibot); questo bot consente di inviare una foto geolocalizzata ad un server che le memorizza. I dati raccolti saranno scaricabili in blocco come dataset e visualizzabili su una mappa.
Il bot è in fase di sviluppo, non appena ne ho una versione testabile la metto su github e in linea su un mio server; vi chiederò di provarla e di darmi feedback. E' scritta in python/django/telepot; c'era un pythonista se non sbaglio domenica nel gruppo dei bot ... se hai voglia di condividere il lavoro fammi un fischio.
A Rosy chiedo se pensa che una raccolta di informazioni di questo tipo fatta dal basso possa avere delle criticità di tipo legale.

Ne approfitto per ringraziare tutti quelli che hanno contribuito, organizzando e/o portando la loro esperienza, questa tre giorni di SOD 16; è stata la mia prima volta a SOD e sono molto contento di aver partecipato,


buona giornata,

Davide


Il 09/05/2016 22:43, Matteo Brunati ha scritto:
Rosy, sei ovunque! :)

Faccio un recap generale su quello che abbiamo fatto: c'è un gdoc aperto con gli appunti

https://docs.google.com/document/d/1cPp_1zLADayo1GMQeJz-eWBsw9PxzAhnTJksC-UANzs/edit#heading=h.tzd1y7cqtjah

L'ho messo in ordine: ci serve per capire come strutturare al meglio i prossimi passi del progetto.

Ecco cosa abbiamo fatto sabato nella sessione Code4Health (poi pubblico un resoconto più ordinato in un blog post su spaghettiopendata.org nei prossimi giorni)

Francesco Piero Paolicelli

unread,
May 23, 2016, 3:39:13 AM5/23/16
to spaghett...@googlegroups.com
ottimo! mi permetto alcuni consigli

1) cerca di rendere interattivo il processo di conversonational bot. risposte, istruziùni, /info, /credits ect
2) oltre al json prova a mettere il geojson cosi magari agevoli il riuso e come mappa si potrebbe usare anche una su umap realtime

Bravo!
Piersoft

Matteo Brunati

unread,
May 23, 2016, 7:26:22 AM5/23/16
to Spaghetti Open Data


Il giorno lunedì 23 maggio 2016 09:12:10 UTC+2, Davide Galletti ha scritto:
Ho completato un prototipo di bot per raccogliere le segnalazioni per l'eternit o altro.
Si chiama segnalazionibot, il codice (python3.5, django 1.9, telepot, leaflet.js) per ora è qui:
      https://github.com/davidegalletti/segnalazioni_bot
Se mi date l'accesso lo sposterei sotto qualcosa del tipo spaghetti-open-data/code4health-amianto-bot

Ciao Davide, grande!
Ti ho dato l'accesso al repo code4health-amianto: se vuoi puoi inserisci pure il bot come sottocartella del progetto: per ora ci sono i dati, e le analisi fatte con R.
https://github.com/spaghetti-open-data/code4health-amianto

Nei prossimi giorni lo guardo meglio, intanto grazie davvero!

Sto finendo di raccogliere i vari punti aperti su code4health inserendoli come issues[0] e li sto documentando nel wiki[1], stasera dovrei finire: poi condivido delle date in cui fare un hangout per fare il punto e decidere assieme come andare avanti con il lavoro.

matt

[0] - https://github.com/spaghetti-open-data/code4health-amianto/issues
[1] - https://github.com/spaghetti-open-data/code4health-amianto/wiki

Emanuele Cordano

unread,
May 23, 2016, 9:29:02 AM5/23/16
to spaghett...@googlegroups.com
Benissimo e bravi tutti, 

io oggi ho del tempo, ho corretto la parte che ho scritto nel wiki (scusate c'erano dei typos) e vado avanti con l'analisi dei dati con R. 

a presto

Emanuele

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.



--
Emanuele Cordano, PhD
Environmental Engineer / Ingegnere per l' Ambiente e il territorio nr.
3587 (Albo A - Provincia di Trento)
email: emanuele...@gmail.com,emanuele...@rendena100.eu,emanuele...@eurac.edu

Enrico Bergamini

unread,
May 23, 2016, 3:27:55 PM5/23/16
to Spaghetti Open Data
Complimenti per il bot e a tutti! Ottima idea di connetterlo con Umap, la trovate nel doc.
Io sono un po' imbucato coi tempi universitari ma continuo a seguirvi. Sarebbe utilissima una lista To-Do su github
a presto,
E

Matteo Brunati

unread,
May 23, 2016, 4:51:33 PM5/23/16
to Spaghetti Open Data


Il giorno lunedì 23 maggio 2016 21:27:55 UTC+2, Enrico Bergamini ha scritto:
Complimenti per il bot e a tutti! Ottima idea di connetterlo con Umap, la trovate nel doc.
Io sono un po' imbucato coi tempi universitari ma continuo a seguirvi. Sarebbe utilissima una lista To-Do su github
a presto,
E


Ciao Enrico,
ottima idea quella della todo-list: appena aggiunta. (le avevo viste in giro, ma non le avevo ancora usate, a quanto pare le pensano proprio tutte)
@all:
Domani sera alle 21 proviamo a sentirci al volo per fare il punto sui lavori in corso: chi vuole aggiungersi alla discussione è il benvenuto.

Proveremo via google hangout[1] (per evitare che oltre le tre persone collegate skype faccia le bizze, ma dipende da quanti saremo).

matt

[1] - https://hangouts.google.com/call/ih3qfnibrrh7tmsrlqryzk2tsie

Enrico Bergamini

unread,
May 25, 2016, 2:54:54 AM5/25/16
to Spaghetti Open Data
Carissimi,
Ieri notte leggevo questo bellissimo pezzo di Vice: "Morire d'amianto: la 'strage' silenziosa di un paesino della provincia pavese", che vi consiglio (insieme a quest'altro reportage)
All'interno è linkato un paper del 2012 sulla mortalità da amianto, fatto da ricercatori italiani: "Analisi della mortalitá per mesotelioma ed esposizione ad amianto in Italia". Gli ho dato una scorsa veloce e mi pare interessante, ci sono dati aggregati per regioni sulla mortalità. 
Nella metodologia si legge:  

I rapporti standardizzati di mortalitá (SMR) sono stati calcolati per tutti i comuni, utilizzando la popolazione regionale come riferimento; per i comuni in Regioni con un tasso maggiore di quello nazionale, é stato utilizzato quest'ultimo come riferimento. SMR sono stati calcolati anche specificatamente per i siti di interesse nazionale per le bonifiche (SIN) con sorgenti di esposizione ad amianto, composti da uno o piú comuni, rispetto al tasso regionale.

Ed ecco qui i rapporti standardizzati e i cluster significativi. In una seconda fase questo potrebbe essere buon materiale da integrare (sempre sperando di ottenerli in forma diversa da JPEG). 
Altra fonte che mi è venuta in mente in assenza totale di dati (che vabbè poi magari non ha senso e con una richiesta ce li tirano dietro) potrebbero essere gli appalti pubblici di rimozione di amianto (si può fare una ricerca per keyword "amianto" dentro a nexa o solo p. iva e CIG?).

Buona giornata,
E

Davide Galletti

unread,
May 26, 2016, 6:39:03 AM5/26/16
to spaghett...@googlegroups.com
Grazie per l'incoraggiamento e i consigli!

Ho aggiornato adesso il bot aggiungendo un po' di interattività; come sempre un po' di feedback mi fa comodo.
Ripeto il nome del bot: segnalazionibot
Chiunque abbia un minuto e Telegram acceso può inviare una posizione (anche fittizia) e una foto (qualunque);
mi aiuterebbe molto per il testing.
A Piersoft faccio una domanda che ho già mandato al supporto di Telegram (ancora senza risposta):
Anche se invio al bot tramite chat una foto con la geolocalizzazione nei dati EXIF questi
sembra che non arrivino al bot. Ti risulta o sono io che sbaglio qualche passaggio,

ciao,

Davide



Il 23/05/2016 09:39, Francesco Piero Paolicelli ha scritto:

Davide Galletti

unread,
May 26, 2016, 9:52:35 AM5/26/16
to spaghett...@googlegroups.com
Grazie Matteo,

ho fatto il primo commit con il codice del bot; con calma aggiorno anche il wiki,

DAvide

Matteo Brunati

unread,
May 29, 2016, 4:06:14 PM5/29/16
to Spaghetti Open Data
Aggiornamento sui lavori:
  • nella call della scorsa settimana eravamo in due, e solo alla fine è arrivato Enrico, vabbè andrà meglio la prossima volta, ma avevamo dato poco preavviso. Abbiamo condiviso alcune stranezze nei dati e divisi i compiti e fatto il punto, anche grazie alla todo list appena creata;
  • ho aggiornato la lista todo or ora[1] con le cose fatte, molto utile per capire dove siamo arrivati, e per condividere il flusso di lavoro;
  • dopo uno scambio ulteriore con Davide Mancino, che ringrazio per la velocità delle risposte, ci capisco qualcosa in più dei dati aggiornati a dicembre 2015[2] per Wired. Ho documentato il possibile nel readme della cartella, e inserito quel dataset nel repository: è il nostro punto di riferimento dal quale partire e confrontarci. Grazie Davide per averlo condiviso :)

Oltre a continuare le analisi automatiche per capire i metadati presenti nei vari dataset, ora serve continuare a pulire i dati, e concordare sui metadati da aggregare, uniformandoli. Così poi fare l'aggiornamento e il mantenimento del dataset aggregato dovrebbe essere molto veloce, e si rischia meno di fare casini.


Ho aperto una issue dedicata a focalizzare e discutere cosa valga la pena fare[3].


Una cosa che dovrebbe fare il Ministero dell'Ambiente, ma tant'è, incredibile come sono stati pubblicati i dati del 2013.

Ho aggiornato anche il wiki, aggregando le info disponibili.


matt

[1] - https://github.com/spaghetti-open-data/code4health-amianto/blob/master/TODO-list.md
[2] - https://github.com/spaghetti-open-data/code4health-amianto/tree/master/dati/Wired-dicembre2015
[3] - https://github.com/spaghetti-open-data/code4health-amianto/issues/7
Reply all
Reply to author
Forward
0 new messages