--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.
Ciao Cesare,grazie dell'email e grazie a tutti voi per il lavoro fatto.Volevo provare a dare una mano con la pulizia dei CSV. I dati "PNA_W/Campania_2013.csv" e "PNA_W/Mappatura_2013 _VENETO.csv" che origine hanno?Non li trovo citati qui.
Metterete tutto in repo github?
In realtà sono all'interno dello ZIP che trovi alla riga 4 dello spreadsheet, se non ricordo male.
Metterete tutto in repo github?
Intanto aggreghiamo tutto e prob le cose tecniche certo, why not :)
ciao a tutti,
mi è spiaciuto molto non riuscire a partecipare ma purtroppo fra una cosa e l'altra ho saputo dell'evento molto in ritardo. Comunque visto che per Wired mi sono occupato di scrapare (e poi visualizzare) i dati per l'inchiesta principale e gli articoli usciti in seguito vorrei girarvi qualche precisazione, così si capisce meglio cosa abbiamo messo su e quali sono i limiti dei dati.
Il primo lavoro si è basato sui dati del censimento 2010, cioè in sostanza sullo scraping di queste 191 pregevoli pagine di pdf. Come potete immaginare, vista la fonte e le risorse che avevamo a disposizione è stato necessario escludere molte delle informazioni disponibili e concentrarci soltanto su quelle più importanti, ovvero la localizzazione dei siti per coordinate geografica e il coefficiente di rischio (la variabile che nel file si chiama "classe di priorità", e indica i siti di maggiore gravità e quindi prioritari in termini di bonifica). Già lì i siti si contavano a decine di migliaia, ma anche a occhio si vedono grandi buchi e sorprende la mancanza di regioni importanti come Lombardia e Piemonte. Anzi il risultato poteva essere fuorviante, perché le Marche che avevano fatto un ottimo lavoro di censimento sembravano "infestate" dall'amianto, mentre le regioni più pigre (che neppure si sono degnate di fare il censimento e/o inviare i dati) apparivano immacolate.
Dopo di che con Rosy abbiamo continuato a seguire la vicenda, che ha continuato a evolversi nel tempo in maniera lenta ma costante. Per esempio ARPA Piemonte all'inizio ci aveva negato i dati, il che è un vero peccato perché avevano fatto un'operazione di mappatura assai dettagliata, ma è bastato rompergli le scatole per un po' perché alla fine venissero fuori. Poi è saltato fuori anche il lavoro svolto in Lombardia, che però come avete già notato riguarda soltanto una porzione assai piccola del territorio. Ancora più avanti i dati pubblicati sul sito del ministero dell'ambiente sono stati aggiornati al 2013, ma se li avete aperti avrete senz'altro visto che forse sono ancora peggiori di quelli precedenti, perché a quanto pare ogni regione ha fatto a modo proprio, e comunque si tratta ancora di sole 14 regioni su 20.
Nonostante questo erano informazioni nuove (si fa per dire: i dati di alcune regioni risalivano al 2000, ma tant'è), per cui ci ho rilavorato su per cercare di renderli omogenei e ripulirli, magari escludendo i siti che comparivano (per ragioni piuttosto misteriose, ma forse il ministero dispone di sommozzatori e/o agenti all'estero) in fondo al mare Adriatico, in Grecia, a volte in Tunisia o in Iran. Dov'erano disponibili le coordinate geografiche i dati sono stati mappati, ma in molti altri casi non c'erano quindi l'unico modo per dare un quadro un po' più d'insieme, credo, era aggregare le varie fonti disponibili fino a quel momento. Come scrivevo su Twitter, mi sono accorto soltanto ieri di non aver mai pubblicato questi ultimi dati (che ho usato per la seconda visualizzazione dell'articolo), così li ho messi su github caso mai dovessero servirvi. Più positivo invece è stato il livello di approfondimento delle statistiche, da cui è stato possibile trarre informazioni più dettagliate rispetto al solo livello di rischio.
Naturalmente tutto questo è stato messo in piedi da un noob dei dati come me, con tutti i limiti del caso, quindi se voi aveste fatto le cose in modo diverso, o avete critiche e suggerimenti per il futuro sono assolutamente benvenuti perché conto di scriverci ancora, non appena possibile, e si può senza dubbio fare meglio. Magari già partendo dal vostro incontro, da cui sono sicuro che riuscirete a creare una cosa assai più rigorosa e organizzata della mia.
2016-05-09 14:57 GMT+02:00 Matteo Brunati <matteo....@gmail.com>:In realtà sono all'interno dello ZIP che trovi alla riga 4 dello spreadsheet, se non ricordo male.Buono a sapersi, grazie.
Metterete tutto in repo github?
Intanto aggreghiamo tutto e prob le cose tecniche certo, why not :)Volevo usare un repo proprio per aggregare. Ma va bene anche in altro modo.
Dilemma: magari sono un pelino rinco io, ma oltre a metterla nell'articolo, perchè non avete tenuto sincronizzato la macro inchiesta di riferimento?
Ovvero il punto più ad alto livello penso sia questo:
http://www.wired.it/topic/amianto/
Ovvero, come si fa a capire che la pagina classica dell'inchiesta è datata, specie nella mappatura? Ovvero non è questa la pagina dell'inchiesta principale?
Il bot è in fase di sviluppo, non appena ne ho una versione testabile la metto su github e in linea su un mio server; vi chiederò di provarla e di darmi feedback. E' scritta in python/django/telepot; c'era un pythonista se non sbaglio domenica nel gruppo dei bot ... se hai voglia di condividere il lavoro fammi un fischio.
A Rosy chiedo se pensa che una raccolta di informazioni di questo tipo fatta dal basso possa avere delle criticità di tipo legale.
Ne approfitto per ringraziare tutti quelli che hanno contribuito, organizzando e/o portando la loro esperienza, questa tre giorni di SOD 16; è stata la mia prima volta a SOD e sono molto contento di aver partecipato,
Il bot è in fase di sviluppo, non appena ne ho una versione testabile la metto su github e in linea su un mio server; vi chiederò di provarla e di darmi feedback. E' scritta in python/django/telepot; c'era un pythonista se non sbaglio domenica nel gruppo dei bot ... se hai voglia di condividere il lavoro fammi un fischio.
A Rosy chiedo se pensa che una raccolta di informazioni di questo tipo fatta dal basso possa avere delle criticità di tipo legale.
Ne approfitto per ringraziare tutti quelli che hanno contribuito, organizzando e/o portando la loro esperienza, questa tre giorni di SOD 16; è stata la mia prima volta a SOD e sono molto contento di aver partecipato,
Personalmente (ma gli esperti mi correggano se sbaglio) non vedo problemi legali in questo. La difficoltà principale temo sia dal punto di vista giornalistico, e cioè: abbiamo la possibilità di verificare queste informazioni?
Ciao Matteo, ciao Rosy,
grazie del recap, aggiungo le info sul bot. L'idea è di mettere a disposizione di tutti i singoli e le associazioni uno strumento semplice per contribuire alla mappatura dei dati. L'idea è analoga a quella di bocconi bot (https://github.com/piersoft/bocconibot); questo bot consente di inviare una foto geolocalizzata ad un server che le memorizza. I dati raccolti saranno scaricabili in blocco come dataset e visualizzabili su una mappa.
Il bot è in fase di sviluppo, non appena ne ho una versione testabile la metto su github e in linea su un mio server; vi chiederò di provarla e di darmi feedback. E' scritta in python/django/telepot; c'era un pythonista se non sbaglio domenica nel gruppo dei bot ... se hai voglia di condividere il lavoro fammi un fischio.
A Rosy chiedo se pensa che una raccolta di informazioni di questo tipo fatta dal basso possa avere delle criticità di tipo legale.
Ne approfitto per ringraziare tutti quelli che hanno contribuito, organizzando e/o portando la loro esperienza, questa tre giorni di SOD 16; è stata la mia prima volta a SOD e sono molto contento di aver partecipato,
buona giornata,
Davide
Il 09/05/2016 22:43, Matteo Brunati ha scritto:
Rosy, sei ovunque! :)
Faccio un recap generale su quello che abbiamo fatto: c'è un gdoc aperto con gli appunti
https://docs.google.com/document/d/1cPp_1zLADayo1GMQeJz-eWBsw9PxzAhnTJksC-UANzs/edit#heading=h.tzd1y7cqtjah
L'ho messo in ordine: ci serve per capire come strutturare al meglio i prossimi passi del progetto.
Ecco cosa abbiamo fatto sabato nella sessione Code4Health (poi pubblico un resoconto più ordinato in un blog post su spaghettiopendata.org nei prossimi giorni)
Ho completato un prototipo di bot per raccogliere le segnalazioni per l'eternit o altro.
Si chiama segnalazionibot, il codice (python3.5, django 1.9, telepot, leaflet.js) per ora è qui:
https://github.com/davidegalletti/segnalazioni_bot
Se mi date l'accesso lo sposterei sotto qualcosa del tipo spaghetti-open-data/code4health-amianto-bot
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.
Complimenti per il bot e a tutti! Ottima idea di connetterlo con Umap, la trovate nel doc.Io sono un po' imbucato coi tempi universitari ma continuo a seguirvi. Sarebbe utilissima una lista To-Do su github
a presto,E
I rapporti standardizzati di mortalitá (SMR) sono stati calcolati per tutti i comuni, utilizzando la popolazione regionale come riferimento; per i comuni in Regioni con un tasso maggiore di quello nazionale, é stato utilizzato quest'ultimo come riferimento. SMR sono stati calcolati anche specificatamente per i siti di interesse nazionale per le bonifiche (SIN) con sorgenti di esposizione ad amianto, composti da uno o piú comuni, rispetto al tasso regionale.
Oltre a continuare le analisi automatiche per capire i metadati presenti nei vari dataset, ora serve continuare a pulire i dati, e concordare sui metadati da aggregare, uniformandoli. Così poi fare l'aggiornamento e il mantenimento del dataset aggregato dovrebbe essere molto veloce, e si rischia meno di fare casini.
Ho aperto una issue dedicata a focalizzare e discutere cosa valga la pena fare[3].
Una cosa che dovrebbe fare il Ministero dell'Ambiente, ma tant'è, incredibile come sono stati pubblicati i dati del 2013.
Ho aggiornato anche il wiki, aggregando le info disponibili.