I dati della scuola, condivisi e aperti

296 views
Skip to first unread message

Donatella Solda

unread,
Nov 4, 2015, 12:24:24 PM11/4/15
to spaghett...@googlegroups.com
Ciao a tutti

sono Donatella, lurker della lista da una decina di anni e conoscente/amica di molti degli iscritti SOD.

Vi mando questo messaggio per offrire all'attenzione della lista quello che ieri abbiamo presentato al MIUR, ossia la pubblicazione di un'importante serie di dataset relativi al settore dell'istruzione. 

Trovate la lista dei dataset e dei relativi tracciati a questo indirizzo
http://cercalatuascuola.istruzione.it/cercalatuascuola/opendata/



Un paio di note di commento, e una richiesta finale:

(*) L'iceberg. 
La pubblicazione di questi dati, secondo questi tracciati, ieri, è - come potete immaginare - la punta dell'iceberg di quello che stiamo incubando al MIUR. 
Un altra "punta dell'iceberg", questa volta abbastanza monumentale, sarà il portale unico sui dati della scuola, previsto per Settembre 2016.
La parte "nascosta" dell'iceberg è il lavoro di mappatura, attivazione e aggregazione di diversi processi gestionali interni per permettere che nativamente alcuni (/molti) dei dati gestiti siano immediatamente e tempestivamente pubblicati con una qualità alta.  
Prendete ad esempio il  rilascio dei 9 dataset che vi ho segnalato: questo è stato, diciamo cosi, un risultato "accessorio" di un grosso processo di organizzazione e condivisione interna, dedicato all'autovalutazione che tutte le scuole hanno effettuato.

Per questo processo le scuole hanno ricevuto una serie di informazioni (organizzate sulla base di indicatori e descrittori) con cui hanno potuto "conoscersi" e compararsi rispetto a scuole omologhe (per indirizzo e contesto socio-economico) e rispetto al territorio (città, regione, nazione) e su questa base stanno ora elaborando i loro prossimi piani di offerta formativa degli obiettivi di miglioramento.

Se siete interessati al sistema di valutazione vedete meglio qui
http://www.istruzione.it/snv/index.shtml 

tutti gli indicatori invece li trovate qui
http://www.istruzione.it/snv/allegati/Indicatori_24_11_2014_DEF.pdf 

I singoli RAV delle scuole sono pubblicati nella pagina di ognuna delle scuole, raggiungibile attraverso "Scuola in Chiaro". 

Analogamente al Sistema di Valutazione, molti altri processi stanno finalmente razionalizzando l'informazione su diversi temi: edilizia scolastica, osservatorio tecnologico, e in ogni caso tutti i temi che trovate espressamente elencati all'articolo de La Buona Scuola dedicato al portale unico dei dati
http://www.normattiva.it/uri-res/N2Ls?urn:nir:stato:legge:2015-07-13;107

[comma 136 e seguenti - purtroppo nell'approvazione gli articoli sono stati tutti smembrati]


(**) L'accompagnamento.
Questa è la seconda volta che il MIUR pubblica dei dati in formato aperto, ma esiste una sostanziale differenza rispetto alla prima. 

Nel Marzo 2012 si è trattato quasi di un'incursione piratesca che abbiamo condotto con tanto entusiasmo con Lorenzo (Benussi) e Damien (Lanfrey). 
A questo giro ci sono tre elementi in più: ci sono dei processi "necessari" di generazione dei dati che stiamo incubando e monitorando internamente in prima persona (tipo i diversi osservatori); c'è un veicolo (il portale dei dati e il PNSD, con i relativi curricoli scolastici collegati alla data/information literacy); e, infine, la pubblicazione di questi dati è diventata una scelta consapevole dell'amministrazione e della politica insieme. 

Questa premessa per condividere con voi il senso di un lungo lavoro (la parte finale di quello sulla SNV, ad esempio, è durata oltre un anno) e la complessità del patrimonio informativo del settore scolastico, e del significato dei dati che il MIUR riesce a pubblicare.  


Detto ciò, arrivo alla richiesta: 
aiutateci a tenere alta l'attenzione sui dati della scuola e a dimostrarne la loro utilità. 
Non è una richiesta di piaggeria, ma - e quelli di voi che sono nella PA o in genere organizzazioni complesse sanno - significa aiutare l'elefante a fare dei passi avanti nella giusta direzione, usando - come è di moda dire in questi giorni - anche delle spinte gentili, e (non solo) costanti attività di watchdog.

Ecco quindi che vi invito a dare un'occhiata a questi dati, a parlarci e a tenerci pronti per nuove pubblicazioni, iniziative e focus group per disegnare insieme il percorso che abbiamo davanti. 

Un saluto!

Donatella


Matteo Fortini

unread,
Nov 4, 2015, 12:26:24 PM11/4/15
to spaghett...@googlegroups.com

Grazie Donatella avevo visto il portale, ma non avevo ancora cercato i dati.
Complimenti,
Matteo


--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

Ida Leone

unread,
Nov 4, 2015, 12:26:54 PM11/4/15
to spaghett...@googlegroups.com

Da una decina d'anni? Paragnosta! :D
#sischerza

Matteo Fortini

unread,
Nov 4, 2015, 12:29:10 PM11/4/15
to spaghett...@googlegroups.com
Solo una piccola segnalazione:
la pagina dei dati riporta in calce "Tutti i diritti riservati © 2015 Ministero dell'Istruzione, dell'Università e della Ricerca - Viale Trastevere, 76/A - 00153 ROMA": così com'è non ci si può fare nulla, tranne curiosare.

Grazie ancora,
Matteo

Il 04/11/2015 18:24, Donatella Solda ha scritto:
Ciao a tutti sono Donatella, lurker della lista da una decina di anni e conoscente/amica di molti degli iscritti SOD. Vi mando questo messaggio per offrire all'attenzione della lista quello che ieri abbiamo presentato al MIUR, ossia la pubblicazione di un'importante serie di dataset relativi al settore dell'istruzione.  Trovate la lista dei dataset e dei relativi tracciati a questo indirizzo http://cercalatuascuola.istruzione.it/cercalatuascuola/opendata/ Un paio di note di commento, e una richiesta finale: (*) L'iceberg.  La pubblicazione di questi dati, secondo questi tracciati, ieri, è - come potete immaginare - la punta dell'iceberg di quello che stiamo incubando al MIUR.  Un altra "punta dell'iceberg", questa volta abbastanza monumentale, sarà il portale unico sui dati della scuola, previsto per Settembre 2016. La parte "nascosta" dell'iceberg è il lavoro di mappatura, attivazione e aggregazione di diversi processi gestionali interni per permettere che nativamente alcuni (/molti) dei dati gestiti siano immediatamente e tempestivamente pubblicati con una qualità alta.   Prendete ad esempio il  rilascio dei 9 dataset che vi ho segnalato: questo è stato, diciamo cosi, un risultato "accessorio" di un grosso processo di organizzazione e condivisione interna, dedicato all'autovalutazione che tutte le scuole hanno effettuato. Per questo processo le scuole hanno ricevuto una serie di informazioni (organizzate sulla base di indicatori e descrittori) con cui hanno potuto "conoscersi" e compararsi rispetto a scuole omologhe (per indirizzo e contesto socio-economico) e rispetto al territorio (città, regione, nazione) e su questa base stanno ora elaborando i loro prossimi piani di offerta formativa degli obiettivi di miglioramento. Se siete interessati al sistema di valutazione vedete meglio qui http://www.istruzione.it/snv/index.shtml  tutti gli indicatori invece li trovate qui http://www.istruzione.it/snv/allegati/Indicatori_24_11_2014_DEF.pdf  I singoli RAV delle scuole sono pubblicati nella pagina di ognuna delle scuole, raggiungibile attraverso "Scuola in Chiaro".  Analogamente al Sistema di Valutazione, molti altri processi stanno finalmente razionalizzando l'informazione su diversi temi: edilizia scolastica, osservatorio tecnologico, e in ogni caso tutti i temi che trovate espressamente elencati all'articolo de La Buona Scuola dedicato al portale unico dei dati http://www.normattiva.it/uri-res/N2Ls?urn:nir:stato:legge:2015-07-13;107 [comma 136 e seguenti - purtroppo nell'approvazione gli articoli sono stati tutti smembrati] (**) L'accompagnamento. Questa è la seconda volta che il MIUR pubblica dei dati in formato aperto, ma esiste una sostanziale differenza rispetto alla prima.  Nel Marzo 2012 si è trattato quasi di un'incursione piratesca che abbiamo condotto con tanto entusiasmo con Lorenzo (Benussi) e Damien (Lanfrey).  A questo giro ci sono tre elementi in più: ci sono dei processi "necessari" di generazione dei dati che stiamo incubando e monitorando internamente in prima persona (tipo i diversi osservatori); c'è un veicolo (il portale dei dati e il PNSD, con i relativi curricoli scolastici collegati alla data/information literacy); e, infine, la pubblicazione di questi dati è diventata una scelta consapevole dell'amministrazione e della politica insieme.  Questa premessa per condividere con voi il senso di un lungo lavoro (la parte finale di quello sulla SNV, ad esempio, è durata oltre un anno) e la complessità del patrimonio informativo del settore scolastico, e del significato dei dati che il MIUR riesce a pubblicare.   Detto ciò, arrivo alla richiesta:  aiutateci a tenere alta l'attenzione sui dati della scuola e a dimostrarne la loro utilità.  Non è una richiesta di piaggeria, ma - e quelli di voi che sono nella PA o in genere organizzazioni complesse sanno - significa aiutare l'elefante a fare dei passi avanti nella giusta direzione, usando - come è di moda dire in questi giorni - anche delle spinte gentili, e (non solo) costanti attività di watchdog. Ecco quindi che vi invito a dare un'occhiata a questi dati, a parlarci e a tenerci pronti per nuove pubblicazioni, iniziative e focus group per disegnare insieme il percorso che abbiamo davanti.  Un saluto!

Donatella


Donatella Solda

unread,
Nov 4, 2015, 12:30:16 PM11/4/15
to spaghett...@googlegroups.com
Ecco,
Il tutti i diritti si riferisce al layout del sito
Lo sto facendo togliere

Donatella Solda

unread,
Nov 4, 2015, 12:33:11 PM11/4/15
to spaghett...@googlegroups.com
Ciao Ida, perdona, sono andata a spanne
Quando ho iniziato a lavorare nel mondo della public sector information era l'anno del signore del 2003,
mi è venuto naturale abbuonarne a SOD un paio :)




Alfredo Serafini

unread,
Nov 4, 2015, 12:52:55 PM11/4/15
to Spaghetti Open Data

Trovate la lista dei dataset e dei relativi tracciati a questo indirizzo
http://cercalatuascuola.istruzione.it/cercalatuascuola/opendata/
 
Un altra "punta dell'iceberg", questa volta abbastanza monumentale, sarà il portale unico sui dati della scuola, previsto per Settembre 2016.  
bello vedere che si sta muovendo qualcosa!
 
La parte "nascosta" dell'iceberg è il lavoro di mappatura, attivazione e aggregazione di diversi processi gestionali interni per permettere che nativamente alcuni (/molti) dei dati gestiti siano immediatamente e tempestivamente pubblicati con una qualità alta.  
Prendete ad esempio il  rilascio dei 9 dataset che vi ho segnalato: questo è stato, diciamo cosi, un risultato "accessorio" di un grosso processo di organizzazione e condivisione interna, dedicato all'autovalutazione che tutte le scuole hanno effettuato.
beh mi sembra veramente un risultato che fareste bene a raccontare un po': perché non pubblicare un piccolo white-book che racconti per sommi capi come avere approcciato nelle varie fasi? magari potrebbe essere utile per chi ancora non sa bene come muoversi e forse sopravvaluta costi/difficoltà tecniche


Per questo processo le scuole hanno ricevuto una serie di informazioni (organizzate sulla base di indicatori e descrittori) con cui hanno potuto "conoscersi" e compararsi rispetto a scuole omologhe (per indirizzo e contesto socio-economico) e rispetto al territorio (città, regione, nazione) e su questa base stanno ora elaborando i loro prossimi piani di offerta formativa degli obiettivi di miglioramento.

Se siete interessati al sistema di valutazione vedete meglio qui
http://www.istruzione.it/snv/index.shtml 

tutti gli indicatori invece li trovate qui
http://www.istruzione.it/snv/allegati/Indicatori_24_11_2014_DEF.pdf 

I singoli RAV delle scuole sono pubblicati nella pagina di ognuna delle scuole, raggiungibile attraverso "Scuola in Chiaro". 
questo è veramente molto interessante! :-)


butto lì se posso qualche domanda:
+ prevedete anche mappe su OSM, oltre che google maps?
+ ci saranno i RAV in CSV ad un certo punto?
+ nell'ottica dei linked data parte di queste informazioni già dovrebbe essere presente sulle IPA (correggetemi se sbaglio), ciò che mancherebbe per creare un "ponte" tra soggetti diversi, favorendo un potenziale riuso, è mappare i metadati dei tracciati record, legandoli ad una qualche uri oggettiva che consenta di relazionare le fonti diverse. Prevedete di farlo? Intendo dire: a prescidere da endpoint SPARQL etc etc, rilascerete almeno un piccolo dump statico sui metadati, che consenta potenzialmente di legare questi dati agli altri via via pubblicati altrove?
+ possiamo immaginare che da qui al 2016 prevediate delle API? (questo risponderebbe un po' indirettamente anche alla domanda sopra :-)

mi permetto di suggerire se non ci avete pensato già di:
+ "appiattire" i testi (ora tutti maiuscoli! questo rema un po' contro le buone pratiche di accessibilità/usabilità e persino contro alcuni tool di estrazione semi-automatica)
+ adottare datapackage di OKFN: http://data.okfn.org/doc/data-package, che senz'altro aiutarebbe nella analisi dei dati 

complimenti per quello che state mettendo in moto, spero sia soltanto l'inizio!

Alfredo




Maurizio Napolitano

unread,
Nov 4, 2015, 1:16:10 PM11/4/15
to Spaghetti Open Data
> butto lì se posso qualche domanda:
> + prevedete anche mappe su OSM, oltre che google maps?

a spanne mi sa che non possono.
Nel senso che i dati mi sembrano siano georefenziati usando il geocoder
di google maps che pone in vincolo di visualizzare i dati solo sulle mappe
di google.

Se i dati redistribuiti contengono anche le coordinate, allora forse potrebbe
esserci una violazione di licenza, a meno che MIUR non abbia un accordo
con Google per ripubblicare come vuole.

Piuttosto si potrebbe farsi la domanda se è giusto che un sito di una PA
usi una mappa non neutrale (nel senso che la mappa può
mettere in evidenza alcune attività commerciali rispetto ad altre).

Maurizio Napolitano

unread,
Nov 4, 2015, 1:16:51 PM11/4/15
to Spaghetti Open Data
Grandi!
Grande Donatella!
Mi hai fatto venire voglia di fare un po' di data visualization su quei dati :)

Alessandra Migliozzi

unread,
Nov 4, 2015, 1:17:59 PM11/4/15
to spaghett...@googlegroups.com

Grande Donatella!

Il 04/Nov/2015 18:24, "Donatella Solda" <naty...@gmail.com> ha scritto:

Donatella Solda

unread,
Nov 4, 2015, 1:20:16 PM11/4/15
to Spaghetti Open Data
preso nota,
magari ci sentiamo in bilaterale per alcuni commenti ed evoluzioni

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per ulteriori opzioni, visita https://groups.google.com/d/optout.

Alfredo Serafini

unread,
Nov 4, 2015, 1:21:25 PM11/4/15
to spaghett...@googlegroups.com
Il giorno 4 novembre 2015 19:15, Maurizio Napolitano <napo...@gmail.com> ha scritto:
> butto lì se posso qualche domanda:
> + prevedete anche mappe su OSM, oltre che google maps?

a spanne mi sa che non possono.
Nel senso che i dati mi sembrano siano georefenziati usando il geocoder
di google maps che pone in vincolo di visualizzare i dati solo sulle mappe
di google.
ah ok, immaginavo già avessero "a monte" le coordinate 

 Piuttosto si potrebbe farsi la domanda se è giusto che un sito di una PA usi una mappa non neutrale (nel senso che la mappa può mettere in evidenza alcune attività commerciali rispetto ad altre).

Si infatti per questo chiedevo, poi non ne faccio una questione filosofica, tanto per capirci: a chiedere non si rimette nulla :-)

Lorenzo Benussi

unread,
Nov 4, 2015, 3:20:28 PM11/4/15
to spaghett...@googlegroups.com
Grandissima Donatella e bravi a tutto il team, è una piccola grande data storica per i dati aperti, ora inizia il bello!


Lorenzo Benussi on iPhone

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.

cesare gerbino

unread,
Nov 4, 2015, 3:27:52 PM11/4/15
to spaghett...@googlegroups.com
Ciao Donatella,

il lavoro è molto interessante e quindi complimenti innanzi tutto.

Punti di miglioramento:

1) licenza dei dati? Non l'ho trovata indicata esplicitamente  ... CC0? Altro? 

2) manca la georeferenziazione esplicita dei dati come hanno già sottolineato altri. L'indirizzo è utile ma non sufficiente: avendo l'indirizzo chi vuole usare questi dati deve comunque ri-georiferirsi i dati e quindi sarano in "n" a fare, più volte, inutilmente ed introducendo potenziali errori, lo stesso lavoro. Avere le coordinate espicite rende in dato immediatamente utilizzabile per chi voglia rappresentarlo su mappa o usarlo per analisi spaziali. Se il dato è open data e georiferito a quel punto chiunque può decidere se mettere come sfondo la mappa di Google, Bing, Here, o OpenStreetMap e non c'è più un uso "esclusivo" e vincolato

3) nel prossimo futuro pensate ad uno strato di servizi (API), che renda il dato utilizzabile per interrogazione diretta senza necessità di doverselo scaricare (opzione che deve comunque rimanere ma affiancata alle API ...)

My two cents ....

 Cesare


Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni espresse sono personali e non riflettono necessariamente quelle del mio datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino:  the views expressed  are mine and not necessarily those of my employer.
.



Donatella


Maurizio Napolitano

unread,
Nov 4, 2015, 3:47:27 PM11/4/15
to Spaghetti Open Data
(rispondo per supposizioni)

> 1) licenza dei dati? Non l'ho trovata indicata esplicitamente ... CC0?
> Altro?

Premesso che sotto è scritto "Tutti i diritti riservati © 2015
Ministero dell'Istruzione [...]"
e Donatella ha già specificato che si rifà al sito, se manca la
licenza allora vuol dire
cc-by 4.0
.. poi per ... cc0 tutta la vita ;)


> 2) manca la georeferenziazione esplicita dei dati come hanno già
> sottolineato altri. L'indirizzo è utile ma non sufficiente: avendo
> l'indirizzo chi vuole usare questi dati deve comunque ri-georiferirsi i dati
> e quindi sarano in "n" a fare, più volte, inutilmente ed introducendo
> potenziali errori, lo stesso lavoro. Avere le coordinate espicite rende in
> dato immediatamente utilizzabile per chi voglia rappresentarlo su mappa o
> usarlo per analisi spaziali. Se il dato è open data e georiferito a quel
> punto chiunque può decidere se mettere come sfondo la mappa di Google, Bing,
> Here, o OpenStreetMap e non c'è più un uso "esclusivo" e vincolato

mmm...
Ho un timore in merito al discorso georeferenziazione.
Nel senso che, se questa viene fatta da chi produce il dato, allora ci può stare
(anche poi bisogna definire qualche criterio che ne identifica il cosa
si raccoglie)
ma se si passa da un geocoder ho qualche dubbio.
Quando si passa da un geocoder credo che, chi pubblica i dati, ha il compito
di verificarli.
Questa "mania" di voleri avere georiferiti (che ammetto aumenta di brutto
il riuso) porta troppo spesso ad avere dati con informazioni
geografiche grossolane.
Molti si sono messi a distribuire dati con coordinate puntuali usando
vari geocoder
e, al di là del discorso dei vincoli di riuso, in troppi pubblicano
senza verificare.
D'altronde, quando si guarda la mappa a livello di nazione, regione, comune,
sembrano tutti belli e precisi, poi quando scendi di livello scopri
che non ci siamo
proprio in tantissimi casi.
Per assurdo conviene di più usare il nome dell'entità che si sta cercando invece
che passare dal civico.
Giusto per curiosità ho guardato il liceo dove ho studiato e se metto
l'indirizzo
su google maps (ma anche openstreetmap) mi compare dove sta l'etichetta
del cancello più vicino all'ingresso principale, mentre, se cerco il nome della
scuola, me lo piazza proprio in mezzo all'edificio.
La domanda poi è: ma quale è quello giusto? il centro dell'edificio? dove sta
l'etichetta del civico? dove c'è il portone da cui entrano gli studenti?

Insomma:
meglio pensare a distribuire dati completi dei dettagli per usare un geocoder,
piuttosto che passare da un geocoder senza verificare il risultato.
.. e nel caso della locazione delle scuole temo che sia difficile.

> 3) nel prossimo futuro pensate ad uno strato di servizi (API), che renda il
> dato utilizzabile per interrogazione diretta senza necessità di doverselo
> scaricare (opzione che deve comunque rimanere ma affiancata alle API ...)

Concordo, anche perce, sicuramente, su RAV ci sono le API dietro :)

Daniele Crespi

unread,
Nov 4, 2015, 3:57:32 PM11/4/15
to spaghett...@googlegroups.com
Complimenti per l'iniziativa.

Mi sa che proviamo a incrociarli con in nostri e vediamo di fare delle verifiche

Sul GeoConding ammetto che è una specie di incubo anche per noi , nonostante abbiamo una piattaforma GIS,
con un servizio di geocoding ed un gazzetteer con gli indirizzi di tutta la lombardia

il tema del viario georeferenziato resta una chimera o prima o poi lo vedremo ?
mi pare  lo dovesse fare ISTAT ?  Vinc batti un colpo !

Senza quello ogni geocoder avrà sempre un margine di errore e la verifica manuale e puntuale 
su grandi numeri è semplicemente insostenibile.

my2cents

ciao
daniele 

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.

cesare gerbino

unread,
Nov 4, 2015, 4:01:30 PM11/4/15
to spaghett...@googlegroups.com
>>Premesso che sotto è scritto "Tutti i diritti riservati © 2015 Ministero dell'Istruzione [...]" e Donatella ha già specificato che si rifà al sito, se manca la licenza allora vuol dire
>>cc-by 4.0 .. poi per ... cc0 tutta la vita ;)
Si lo avevo visto ma io intendevo che forse indicare esplicitamente la licenze dei dati nella pagina del dwonload o, meglio ancora, anche nel dato che si scarica renderebbe le cose più chiare ....

>>mmm...Ho un timore in merito al discorso georeferenziazione.
Qui non voglio andare off topic (avremo occasione di parlarne in altre occasione e su altri tavoli ....), e quindi mi limito ad una precisazione: non intendevo certo suggerire l'uso di un geocoder ci mancherebbe pure. Partivo dal presupposto (forse sbagliato ma non mi sembra visto anche il lavoro che si è fatto a tal proposito nella mia Regione .... ), che i dati non siano stati creati "centralmente" dal MIUR  ma che gli siano arrivati "dalle periferie" le quali a loro volta potrebbero (spero ...), avere collaborato con le diverse PA "locali", alcune delle quali iniziano a pubblicare in open data i civici georiferiti e quindi con un pò di collaborazione (poi lo sò che è dura ....), qualcosa in tal senso si sarebbe potuto ottenere. 

Chiudo qui perchè so che è un discorso lungo e periglioso ......

Resta comunque un bel lavoro!

 


Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni espresse sono personali e non riflettono necessariamente quelle del mio datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino:  the views expressed  are mine and not necessarily those of my employer.
.


Il giorno 4 novembre 2015 21:47, Maurizio Napolitano <napo...@gmail.com> ha scritto:
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.

cesare gerbino

unread,
Nov 4, 2015, 4:07:06 PM11/4/15
to spaghett...@googlegroups.com
>>il tema del viario georeferenziato resta una chimera o prima o poi lo vedremo ? mi pare  lo dovesse fare ISTAT ?  Vinc batti un colpo !

eh ma allora lo fate apposta  ....  e me la offrite su un piatto d'argento ... riprendo un paio di link proprio da un tweet di Patruno del 20/10/15 ..



dove è citato ... "Allineando i dati toponomastici, permetterà di concretizzare l'Anagrafe nazionale dei numeri civici e delle strade urbane
(link is external) (ANNCSU), strumento necessario a completare la riforma del Catasto." 

okkio al pdf ... 


sapevo che andavamo off-topic ... scusate



Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni espresse sono personali e non riflettono necessariamente quelle del mio datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino:  the views expressed  are mine and not necessarily those of my employer.
.


Ettore Di Cesare

unread,
Nov 9, 2015, 12:34:51 PM11/9/15
to spaghett...@googlegroups.com
Ciao,
mi sembra un primo ma fondamentale passo!
Avere notizie su l'anagrafe dati dell'edilizia scolastica?
E' stata presentata ad agosto, la si aspettava dal 2006, ma i dati non sono mai stati resi disponibili. Sarebbe importante che lo fossero. Sapete cosa lo impedisce?

ettore

Il giorno 4 novembre 2015 18:24, Donatella Solda <naty...@gmail.com> ha scritto:

Donatella


--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.



--
Ogni giorno in parlamento si discutono leggi che cambiano la TUA vita:
http://www.openparlamento.it

Per la politica trasparente e partecipata:
http://www.openpolis.it

Alberto

unread,
Nov 11, 2015, 5:05:46 AM11/11/15
to Spaghetti Open Data
Ciao Donatella e tutti, ottima iniziativa! Già con questi dataset si possono fare delle cose interessanti.

Ho anch'io una richiesta di dataset. Si possono avere gli esiti dei famosi esami OECD-INVALSI, su cui tutti gli anni si scatena la bagarre sui media? Si leggono cose tipo "un liceo a Crotone è l'equivalente di una scuola professionale a Treviso", e sarebbe carino potere interrogare i dati per farsi un'idea.

Matteo Fortini

unread,
Nov 11, 2015, 5:09:47 AM11/11/15
to spaghett...@googlegroups.com
Mi accodo su questo tema, perché effettivamente sarebbe molto interessante avere open i risultati dei test per fare le analisi che dice Alberto.

Ne parlavo con un amico dell'ufficio scolastico regionale, e mi dicevano che naturalmente va di moda confrontare non solo le scuole, ma anche le sezioni della stessa classe, in base agli esiti dei test. Bisognerebbe raccontare un po' in giro dell'affidabilità delle statistiche in funzione del numero di osservazioni, altrimenti si rischia di prendere delle cantonate notevoli.




Il 11/11/2015 11:05, Alberto ha scritto:
Ciao Donatella e tutti, ottima iniziativa! Già con questi dataset si possono fare delle cose interessanti.

Ho anch'io una richiesta di dataset. Si possono avere gli esiti dei famosi esami OECD-INVALSI, su cui tutti gli anni si scatena la bagarre sui media? Si leggono cose tipo "un liceo a Crotone è l'equivalente di una scuola professionale a Treviso", e sarebbe carino potere interrogare i dati per farsi un'idea.

Donatella Solda

unread,
Nov 12, 2015, 7:36:19 AM11/12/15
to spaghett...@googlegroups.com
Ciao Alberto, Caro Matteo

le scuole sono i titolari dei dati sugli esiti delle prove Invalsi, e quindi sono loro a deciderne la pubblicazione (e infatti molte già li pubblicavano sui propri siti web, con diverso grado di dettaglio). 


Attraverso il Sistema Nazionale di Valutazione, questi dati (che sono comunque a disposizione delle scuole), sono confluiti nel gruppo di quel centinaio di descrittori alla base della contestualizzazione del Rapporto di Autovalutazione. 

Quando la piattaforma della SNV ha chiesto alle scuole "Oltre al RAV, quali descrittori vuoi pubblicare?" le scuole hanno scelto tra questo centinaio. Si è mantenuta cioè la facoltà di scelta delle scuole, dando loro il compito di *deselezionare* i dati dalla pubblicazione (tutti i dati forniti alla scuola sono stati, by default, da pubblicare e si è chiesto un comportamento proattivo per non rilasciarli al pubblico). 

NB: il 90% delle scuole ha pubblicato in dettaglio gli esiti delle prove standardizzate. Per vederli, consultate il RAV di una scuola, scaricandolo in locale, e sotto la voce "esiti delle prove standardizzate" troverete il dataset nel grado di pubblicità deciso dalla scuola. 

Questa indicazione per anticiparvi un paio di riflessioni sul motivo per cui i dati sono stati pubblicati in questo modo.  

In primo luogo: se la trasparenza è vista solo come un modo per generare graduatorie, allora c'è un problema. 
Questo perchè le graduatorie - e soprattutto in sistemi complessi come quello educativo - possono facilmente diventare fuorvianti e, alle volte, controproducenti. 

ll fatto che non sia obbligatorio pubblicare i risultati delle prove standardizzate (e altri dati delle scuole) fa parte di un approccio consolidato nella letteratura della valutazione qualitativa e d'impatto (ben diversa dalla rendicontazione amministrativa fatta di fatture e relazioni finali): non entro nel merito specifico, ma gli effetti non intenzionali di valutazioni semplicistiche possono essere perfino uno strumento peggiore della mancanza di trasparenza.

Vedetevi ad esempio un articolo (divulgativo, ma approfondito) qui 
che prende come esempio la NCLB (No Child Left Behind) di G.W. Bush del 2001, e dice

"Its impact on the test scores of high school students has been more limited still. 

The unintended consequences of NCLB’s testing-and-accountability regime are more tangible (...).  Teachers (encouraged by their principals) divert class time toward the subjects tested (...) and away from (others). Instruction (...) is narrowly focused on the skills required by the test rather than broader cognitive processes: Students learn test-taking strategies rather than substantive knowledge. 
Even worse than the perverse incentives involved in “teaching to the test” is the technique of improving average achievement levels by reclassifying weaker students as disabled, thus removing them from the assessment pool. Then there is out-and-out cheating (...) Another effect of NCLB is the demoralization of teachers. (...) Many teachers perceive the regimen created by the culture of accountability as robbing them of their autonomy, and of the ability to use their discretion and creativity in designing and implementing the curriculum.


L'articolo americano elenca alcuni elementi classici di un sistema in cui le prove standardizzate sono portate all'estremo, ma richiamo l'attenzione su altre variabili che "affaticano" il significato di quelle prove, e che generalmente non emergono dalla divulgazione secca solo di quel dato: per dirne una, nel sistema educativo prima della buona scuola, la percentuale di posti di organico esistenti, ma non coperti con contratti a tempo indeterminato era molto alta. Questo ha generato un decennio di (molti) contratti annuali: con una normalità sconcertante, quindi, per almeno due cicli scolastici, le classi potevano solo avere degli insegnante che cambiavano ogni anno, perchè lo Stato non gli dava un contratto definitivo. In una situazione di questo genere, con agenti esterni non nel controllo della scuola, diventa difficile correlare direttamente il risultato di un test standardizzato all'effettivo sforzo di quella scuola verso il successo formativo degli alunni.  

Ecco, questo per darvi un glimpse di cosa c'è dietro alle cosidette "graduatorie" di scuole, e del perchè invece la SNV non nasce come sistema per generare classifiche ma per comprendere la scuola nella sua complessità.

Ora, voi giustamente direte: bene, ma la complessità si deve poter semplificare e rappresentare.

Giusto, vi rispondo io. 
Ma mentre noi stiamo cercando di farlo (spostando l'elefante di cui sopra), aumentando la cultura del dato, dotandoci di strumenti di visualizzazione e rappresentazione dell'informazione, fornendo a livello amministrativo gradi più profondi di visualizzazione e correlazione dei dati, generando un sistema di valutazione dei dirigenti (parliamo proprio del loro stipendio e degli incarichi che gli sono attribuiti) basati sui dati della SNV, arrivano attacchi quotidiani di questo tipo:

Se riuscite a districarvi tra gli slogan di quel comunicato, vi accorgerete che la loro richiesta è principalmente una: non tradite il patto di fiducia con le scuole, proprio mentre queste stanno facendo uno sforzo di trasparenza.


Detto questo vi chiedo: 
qualcuno si è spulciato i dati? Avete letto il RAV della vostra vecchia scuola? Ci facciamo una chiacchierata sugli sviluppi che possiamo avviare?

Ciao a tutti 

Donatella

Alberto

unread,
Nov 12, 2015, 9:47:28 AM11/12/15
to Spaghetti Open Data
Ciao Donatella, grazie della lunga spiega. 

Dunque: no, a me le graduatorie non interessano molto. Tanto meno mi interessa guardare il rapporto della singola scuola. Io sto qui perché mi interessa l'analisi di dati, che nella maggioranza dei casi, alla fine, è statistica.

Il punto delle valutazioni INVALSI (o di qualunque altra cosa) è di buttarle dentro Stata o R e provare a vedere cosa le influenza. In principio sono dati succosi, perché longitudinali (almeno, lo saranno tra qualche anno!) e quindi riescono a separare bene la varianza idiosincratica relativa alla singola scuola, e quindi non riproducibile, dalla varianza legata al tempo, allo spazio, e a tutte le variabili associabili che ti puoi immaginare (basta andare a ISTAT e citofonare Patruno). Poi comincia il bello: quali variabili ti prendi? Stimi a effetti fissi o variabili? Una bella stima a effetti fissi elimina l'influenza di variabili idiosincratiche fuori dal controllo del policy maker, come un preside molto bravo o trovarsi in un territorio svantaggiato, e concentra l'attenzione su quelle variabili di controllo che riescono davvero a influenzare la performance degli studenti. Tutto questo, inutile dirlo, si può fare solo con dataset grandi, più grandi sono meglio è. 

Sapevo (anche dal tuo ex ministro) che la scuola è un ambiente in cui la politica è più pervasiva e cattiva che altrove, e non riesco a immaginare gli equilibrismi che servono per pubblicare qualche dato. Ne approfitto per farvi i complimenti per avere resistito! Quindi va benissimo se pubblicate le valutazioni nestate sotto la scuola... purché le API mi consentano di tirare su tutto senza troppe acrobazie, tipo:

for scuola in scuole:
   for anno in anni:
      <leggi le valutazioni INVALSI e aggiungile al JSON>

o meglio ancora, mettendo un bel pulsante rosso "Scarica tutto", che è la teoria di quelli di Open Culture Data: la prima API è il bulk dump.

Matt, tu sei riuscito a verificare le API? Qualcun altro?

Nota a margine: non ho grande stima della CGIL scuola. Fino a prova contraria, interpreto quella roba come difesa di interessi corporativi.


Donatella Solda

unread,
Nov 12, 2015, 11:05:24 AM11/12/15
to spaghett...@googlegroups.com
Ciao Alberto

capisco la necessità delle analisi longitutinali e concordo con te: l'obiettivo per una PA di pubblicare i dati è proprio dare informazioni su cui elaborare correlazioni il più possibili fondate (oltre che, permettetemi di insistere, dare la benzina a tutti le potenziali app e servizi commerciali basati sugli open data di cui un giorno finalmente la società dell'informazione riuscirà a dotarsi) (Citofonare Francesca De Chiara e il lavoro che sta facendo al GovLab).

Dicevo. Non (ri)entro sul tema dell'INVALSI perchè tanto ho già esaudito nell'altra mia mail le velleità di fare lo spiegone sul teach for test e il cheating (men che meno sul motivo per cui non ci è possibile al momento di offrire il dump della SNV). 

Quello che ti chiedo è: hai provato a fare delle analisi longitudinali sui 4 dataset relativi agli esiti, ossia Abbandoni e Trasferimenti, Esiti scrutini, Esiti esami di Stato I e II grado, Esiti esami di Stato I e II grado per voto?

Mi riesci a dare un riscontro sulla loro utilità o su cosa sarebbe utile cambiare?

a presto e grazie per il coinvolgimento!



  

jenkin

unread,
Nov 13, 2015, 7:34:51 AM11/13/15
to Spaghetti Open Data
Ciao,

ho avuto modo di guardarmi un po' la struttura del sito e direi che più che di API al momento per i dati delle prove invalsi si possa solo parlare di scraping... :)

A spanne, dato il codice meccanografico di un istituto principale (elenco ricavabile dall'anagrafe in formato csv), bisogna fare una doppia chiamata, prima a questo url che setta la JSESSIONID
e poi a quest'altro passando alcuni parametri in POST e nell'HEADER, per ottenere i risultati in italiano e matematica:
 
curl 'http://ext.pubblica.istruzione.it/SistemaNazionaleValutazione/esitiVisualizzaDescrittori.do' -H 'Pragma: no-cache' -H 'Origin: http://ext.pubblica.istruzione.it' -H 'X-Prototype-Version: 1.7' -H 'Accept-Encoding: gzip, deflate' -H 'Accept-Language: it,en;q=0.8' -H 'User-Agent: [USER-AGENT]' -H 'Content-type: application/x-www-form-urlencoded; charset=UTF-8' -H 'Accept: text/javascript, text/html, application/xml, text/xml, */*' -H 'Cache-Control: no-cache' -H 'X-Requested-With: XMLHttpRequest' -H 'Cookie: JSESSIONID=[JSESSIONID];' -H 'Connection: keep-alive' -H 'Referer: http://ext.pubblica.istruzione.it/SistemaNazionaleValutazione/scuolaInChiaro.do?dispatch=view&scuolainserita=[CODICE_MECCANOGRAFICO]&indiceArea=1&indiceSezione=2' --data 'codInd=2.2.a&codDes=2.2.a.1234&perAnnCal=201314&dispatch=caricaIndicatore2_2_a_1234' --compressed

Se fate qualche esperimento, fatemi sapere... :)

Andrea Nelson Mauro

unread,
Nov 14, 2015, 5:49:39 AM11/14/15
to Spaghetti Open Data
Non entro nel merito della questione cgil, se per sottolineare che l'uso della definizione "piattaforma informatica" già mostra in che secolo vive il contropotere antagonista che dovrebbe tutelare la gggente :D

Anche se @jenkin non lo dice apertamente, noi i dati li abbiamo ovviamente già scaricati con le prove invalsi di Italiano e Matematica. In teoria domani mattina potremmo pubblicare un qualche articolo con classifica, oppure decidere di lavorarci con R e analizzarli, oppure altro ancora.
Non so in realtà se ci faremo qualcosa né quando, ma la mia domanda è: vi rendete conto che così facendo i dati sono solo a disposizione di chi sa fare scraping avanzato? 

@donatella: secondo me la questione di fondo è che in realtà "Scuole in chiaro" poteva semplicemente essere una pagina dalla quale scaricare i dati. La parte rappresentativa e/o di visualizzazione poteva anche essere molto meno estesa e ridotta a meno aspetti.

Insomma: se rappresenti dei dati, sotto ci devi mettere un link per scaricare i dati e permettermi di capire se hai rappresentato tutto correttamente, oppure comunque darmi la possibilità di lavorarci.

Andrea Nelson Mauro

unread,
Nov 14, 2015, 7:15:30 AM11/14/15
to Spaghetti Open Data
[btw: non vorrei che il commento apparisse un po' trolleggiante - non era mia intenzione eh - e aggiungo che imho l'iniziativa è sicuramente meritoria! :) ]

davide mancino

unread,
Nov 14, 2015, 7:54:50 AM11/14/15
to Spaghetti Open Data
Concordo assolutamente con Andrea, e appena ho visto il sito anche la mia prima idea è stata di fare scraping di tutto il possibile - è una miniera d'oro di informazioni preziosissime. Questo per dire che ormai (per fortuna) il genio è già fuori dalla bottiglia.

Poi c'è un altro punto: gli INVALSI sono un prodotto realizzato con soldi pubblici, e le persone che con le loro tasse li hanno pagati hanno tutto il diritto di sapere come vanno le cose nelle loro scuole. Nel modo più corretto e rigoroso possibile, assolutamente, ma i risultati non possono e non devono rimanere confinati soltanto a un ristretto gruppo di esperti (decisi da chi?), senza che nessun altro abbia il diritto di metterci bocca. E' un principio di base della ricerca scientifica, no?

A mio avviso delle due l'una: o i test servono e producono risultati che possono farci capire qualcosa di utile, oppure no e allora tanto vale lasciarli andare. Ma visto che sono già stati fatti le persone vorranno conoscere i risultati, e noi giornalisti abbiamo il dovere di trovarli e comunicarglieli.

Alberto

unread,
Nov 14, 2015, 8:41:03 AM11/14/15
to Spaghetti Open Data
Qui vi volevo. :-) 

A questo punto, visto che avete già fatto la fatica di fare lo scraping, mi sento di fare una piccola proposta: il servizio di pubblica utilità "Più API per tutti" by Spaghetti Open Data. In pratica, andate sul nostro spazio GitHub, create una repo nuova e buttate su il data dump. Tanto sono open!  Se servono passaggi ulteriori (per esempio: documentazione) create degli issues. In questo modo abbassate lo scalino in modo che ci arrivino anche i "diversamente hackers" come me (per fare uno scraping come quello suggerito da Alessio avrei bisogno di perdere tempo non solo mio, ma di Napo o Piersoft o Andrea Borruso o qualche altro pezzo grosso del Ministero della Magia, perché da solo non ce la faccio). Potrebbe essere una pratica che va oltre i dati del MIUR e si diffonde ad altri dataset che interessano a qualcuno di noi ma sono un po' difficili da estrarre, un po' come nel 2011 collaudavamo in real time tutti i nuovi portali open data.

Secondo me funziona anche politicamente: Donatella e le persone che sono nella sua posizione possono dire ai loro sostenitori "Visto? I dati sono così apprezzati che la comunità li ha già scaricati e rimessi a disposizione in modo più intuitivo." e ai loro detrattori "Visto? Con questa domanda di trasparenza tutti i nostri balletti su come nestiamo i dati sono inutili, tanto vale adeguarsi." :-)

PS – Insisto: un bel bulk dump è una API, almeno su dataset non giganteschi.

Alberto

unread,
Nov 14, 2015, 8:46:49 AM11/14/15
to Spaghetti Open Data
Ad Andrea Nelson: non sono d'accordo con te sul punto delle visualizzazioni. Secondo me il MIUR, erogatore dei dati, ha tutto il diritto e forse perfino il dovere di proporre una sua interpretazione dei dati. Immagino che poi succederà come per OpenCoesione: per applicazioni impegnative scarichi, ma per ricerche rapide usi l'interfaccia web del sito. 

Il punto è che, ovviamente, oltre che le visualizzazioni ci vogliono anche i raw data now, e più sono facilmente accessibili meglio è. Questo permette usi altri, come sempre, e permette anche un controllo sull'interpretazione proposta dal MIUR stesso. Se la roba che si vede sul sito è ragionevole, moltissime persone useranno il sito e pochissime scaricheranno il dataset; ma se per ipotesi l'interpretazione proposta sul sito fosse sbagliata o tendenziosa, qualcuno come te potrebbe usare i dati grezzi per proporne una alternativa, che a questo punto verrebbe rilanciata dai media più o meno social e diventerebbe quella predominante. Win! 

Donatella Solda

unread,
Nov 14, 2015, 10:20:10 AM11/14/15
to Spaghetti Open Data
ragazzi miei
è ovvio che nell'anno del signore 2015 tutti sanno che esiste lo scraping

è inoltre da circa un ventennio che si è superata la retorica del "dati creati con i soldi pubblici quindi devono essere pubblici"

negli anni 60 generalmente si rispondeva a questo argomento con un bel
"anche gli arredi della PA sono acquistati per mezzo delle tasse, che facciamo, entriamo e ci prendiamo pure quelli?"
(si lo so, l informazione è un bene pubblico non rivale e non esclusivo e bla bla bla)

nelle mie mail vi ho scritto altro e cioè: siete proprio sicuri che con 49 indicatori a disposizione, ritenete che la classifica del sistema scolastico sia da farsi, e sia da farsi sulla base dei test invalsi?

riuscite ad essere più sofisticati di un caterpillar ed evitare di fare delle graduatorie secche e aride (che hanno come unica conseguenza il Teach for test e il cheating)?

poi, certo, i dati li abbiamo rilasciati consapevolmente in questo modo, e liberi tutti.

sulle api, le visualizzazioni, le interpretazioni e i significati dati dal miur - d'accordo: ma la mia proposta era appunto questa: ci vediamo un sabato di dicembre a fare un po di lavoro più approfondito di una semplice lista di punteggi?

ciao a tutti e buon week end
On Sat, 14 Nov 2015 at 14:46, Alberto <alberto...@gmail.com> wrote:
Ad Andrea Nelson: non sono d'accordo con te sul punto delle visualizzazioni. Secondo me il MIUR, erogatore dei dati, ha tutto il diritto e forse perfino il dovere di proporre una sua interpretazione dei dati. Immagino che poi succederà come per OpenCoesione: per applicazioni impegnative scarichi, ma per ricerche rapide usi l'interfaccia web del sito. 

Il punto è che, ovviamente, oltre che le visualizzazioni ci vogliono anche i raw data now, e più sono facilmente accessibili meglio è. Questo permette usi altri, come sempre, e permette anche un controllo sull'interpretazione proposta dal MIUR stesso. Se la roba che si vede sul sito è ragionevole, moltissime persone useranno il sito e pochissime scaricheranno il dataset; ma se per ipotesi l'interpretazione proposta sul sito fosse sbagliata o tendenziosa, qualcuno come te potrebbe usare i dati grezzi per proporne una alternativa, che a questo punto verrebbe rilanciata dai media più o meno social e diventerebbe quella predominante. Win! 

--

Matteo Fortini

unread,
Nov 14, 2015, 10:24:04 AM11/14/15
to Spaghetti Open Data

Piccola richiesta al volo a tutti: quando pubblicate dei dati per favore mettete *in ogni riga* la data di aggiornamento di quella riga, così non ci sono dubbi sulla loro freschezza e si possono unire gli stessi dataset in tempi successivi senza problemi.
Grazie

jenkin

unread,
Nov 14, 2015, 10:46:47 AM11/14/15
to Spaghetti Open Data
Perdonami Donatella, ma se non mi dai i dati elaborabili, perché stiamo discutendo di classifiche da caterpillar vs elaborazioni più sofisticate? Devo perdere ore per capire come diavolo avete fatto il sito, capire quali sono i parametri get e post da inviare, stare attento a non floodarvi il server con troppe richieste al secondo e poi perderne altrettante per essere ragionevolmente certo di non aver fatto errori madornali... poi è ovvio che prima di dire "a" su quei dati mi devo studiare a fondo l'invalsi e la teoria che c'è dietro, ma se non perdessi ore per avere una tabellina sarebbe meglio, no? :)

Poi per carità, hai spiegato la questione dell'autonomia scolastica anche nel caso dei dati, ecc. ma non prenderci per ingenui o pressapochisti! :D

Dopo di che ho solo uno scriptino del quale non ho ancora verificato la bontà (nel senso che un po' di roba ha scaricato, ma non sono sicuro che sia tutto ok),
quando ho tempo di tornarci ve lo condivido...

Alberto

unread,
Nov 14, 2015, 11:37:29 AM11/14/15
to Spaghetti Open Data
Donatella, scusami ma non ti seguo. Da come la capisco io, open data si fa per attingere alla saggezza della folla e mobilitarla sul proprio patrimonio informativo (a meno che non si faccia per moda). Voi di MIUR avete fatto una mossa, e avete già raccolto un po' di feedback dalla piccola folla di SOD. Provo a riassumerli:
  1. Bravi, bene, complimenti, grazie! 
  2. Sarebbe bene essere più espliciti sulle licenze (battezzate dal buon Napo come CC-BY 4.0 per default), soprattutto quelle sulle coordinate che potrebbero essere ereditate dai geocoder di Google.
  3. I dati più appetitosi sono quelli sulle valutazioni INVALSI – almeno due persone in lista li considerano così appetitosi da farci su scraping, che costa tempo e fatica.
  4. Sarebbe meglio renderli più accessibili via API - bulk dump (e tu ci hai spiegato per quali ragioni questa scelta non è stata fatta).
A me pare una reazione utile e costruttiva. Cosa ti impedisce di dire "ok, grazie dei feedback, ne parlo con i miei colleghi e vedremo come procedere"? Con tutto il rispetto, non credo stia al MIUR di indicare quale è la reazione "giusta", su quali dati la gente dovrebbe lavorare, quali sono le analisi di pregio etc.. Teach for test e cheating esistevano prima degli open data, temo esisteranno anche dopo e non mi pare giusto addossarne la responsabilità ai data journalist.

Nota un po' più statistica: scusami ma sì, secondo me le valutazioni INVALSI sono la variabile di performance più affidabile. Gli altri indicatori servono, ma li vedo come regressori, cioè come variabili esplicative della performance. Se dovessi lavorarci io, su quei dati, farei una regressione così:

performance = f (indicatori) + termine di errore

Senza la variabile indipendente che mi rappresenta la performance, il modello non si può stimare. Può essere che sbagli, accade spesso, ma non per pressapochismo. Non volontario, almeno! 

Poi sono consapevole che tu non sei il MIUR ma Donatella che lavora al MIUR. Rileggendo il messaggio con cui hai aperto il thread, mi sembra che tu intendessi più rappresentare l'istituzione che non te stessa. Se mi sono sbagliato, chiedo scusa, non intendevo trollare.

Donatella Solda

unread,
Nov 14, 2015, 1:20:29 PM11/14/15
to Spaghetti Open Data
@alessio: ho reagito alla dichiarazione baldanzosa di andrea che ha detto "abbiamo scaricato tutti i dati, ce li abbiamo pronti e domani usciamo con la graduatoria". lo so che fare scraping e' faticoso, e vi ho anche detto per quale motivo non trovate un bocchettone pronto con tutti i dati invalsi, ma "solo" 10 dataset (5 di anagrafica, e 5 di esiti) e 8100 rapporti di autovalutazione. Al momento e' cosi, e le ragioni sono quelle scritte nelle precedenti mail.

@Alberto
hai ragione, i dati aperti sono aperti, e chiunque ha il diritto di usarli come crede, altrimenti che si apre a fare.
Io vi sto dicendo: sono venuta a voi a parlare insieme, perché ho sentito l'esigenza di presentarvi la SNV, cosa c'e' dietro e cosa rappresenta per la scuola. 
L'ho fatto perche' ho voluto che fosse chiaro un punto: tutti abbiamo il diritto e la curiosità di usare quei dati, ma allo stesso ci si deve poi prendere la responsabilità della narrativa generata dalla chiave interpretativa scelta.
 
Si vuole mettere in fila i risultati dei test invalsi? Bene, poi non ci meravigliamo se l'amministrazione guardera' agli opendata con delusione o con sufficienza.

Secondo me invece la community degli opendata e' pronta a fare un passo in avanti rispetto alla faciloneria. Secondo me la "saggezza della folla" da te invocata ha il dovere di cimentarsi non solo in un ordine crescente/decrescente dei voti, ma anche (o principalmente) nelle mille correlazioni con altri dataset non MIUR o con tante altre variabili che diano una narrativa o rappresentazione della complessita' - che ne so, le condizioni socio economiche del territorio intorno alla scuola, i trasferimenti (i ragazzi che vengono invitati a lasciare scuola per non abbassare la media), la mobilità dei docenti (per capire quali sono i fattori che incidono sulla continuità didattica), o agli esiti didattici o professionali a distanza.

Vi ripeto, liberi tutti: il mio invito e' un incoraggiamento, non un freno. Un incoraggiamento a cimentarsi in un esercizio complesso quanto è complesso gestire una scuola, visto che non stiamo parlando qui di OpenCoesione, in cui si pubblica semplicemente una rendicontazione fattuale dell'effettivo impiego di risorse economiche (ed ecco perché poi ti serve Asoc o Monithon per dare un senso e una narrativa a quelle aride informazioni).

Tutto lo sforzo della SNV partorira' una graduatoria?
Ce ne faremo una ragione, tanto gia' qualcuna ne abbiamo, tipo Eduscopio, che prende i voti dell'ultimo anno delle superiori, li incrocia con quelli del primo anno dell'Università. Peccato poi che chi legge i risultati della graduatoria e conosce quelle scuole, non si riconosca nel risultato, perché appunto quell'indicatore secco non è in grado di rappresentarla.

Voi fate le letture che credete di questi dati, ma il vostro ruolo, in questo momento storico, e' secondo me di dimostrare che da quei dati si puo' ricavare qualcosa di meraviglioso. 
Altrimenti avrete una e una sola reazione dall'amministrazione e dalle scuole, ossia "Ecco, come prevedibile, tutto questo sforzo per avere semplicemente una graduatoria". E hai voglia tu a convincerli che invece i dati aperti generano app, servizi e conoscenza sofisticata.


e con questo, auguro buon scraping a tutti!

ciao :)

d




--

Alessio Cimarelli

unread,
Nov 14, 2015, 1:56:52 PM11/14/15
to spaghett...@googlegroups.com
E buon open data a te! :)


Per annullare l'iscrizione a questo argomento, visita https://groups.google.com/d/topic/spaghettiopendata/qg5rpBJpzvU/unsubscribe.
Per annullare l'iscrizione a questo gruppo e a tutti i suoi argomenti, invia un'email a spaghettiopend...@googlegroups.com.

Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.



--
ALESSIO CIMARELLI
a.k.a. jenkin

Data scientist, data journalist e web developer free-lance presso Dataninja.

Sito web: dataninja.it
Associazioni: onDataaccatagliato, SWIM
Telefono: +39 3343367454
Posta certificata (PEC): postm...@pec.alessiocimarelli.it
PGP pub key: 0x46bd7d12
Twitter: @jenkin27 | Skype: alessio.cimarelli

Francesco Piero Paolicelli

unread,
Nov 14, 2015, 2:31:27 PM11/14/15
to spaghett...@googlegroups.com
Io credo che Donatella abbia detto grandi verità.
Spesso ci si concentra sul dato e non su quello che può rappresentare. Qui in lista ci sono Guru su questa "narrazione" digitale e sono certo che sfodereranno non solo una graduatoria ma un vero spaccato sociale che aiuti a capire ed interpretare la realtà.

Donatella, d'altro canto però, cosa fare dei dati è il mercato, gli stakeholders, la società che lo decide. Sono centinaia gli esempi di dati apparentemente "minori" che invece sono i più usati in assoluto. E se la graduatoria Invalsi può essere utile per mettere un faro su questa operazione, ben venga. sta a noi tutto poi far capire che oltre ai voti c'è di più :).

my2cents
Piersoft

Andrea Nelson Mauro

unread,
Nov 15, 2015, 2:48:10 AM11/15/15
to Spaghetti Open Data
@Donatella, mi sono sicuramente espresso rapidamente ma ti incollo la mia frase (sic!), che è molto diversa da quella che mi attribuisci! :)

Il giorno sabato 14 novembre 2015 19:20:29 UTC+1, dsk ha scritto:
@alessio: ho reagito alla dichiarazione baldanzosa di andrea che ha detto "abbiamo scaricato tutti i dati, ce li abbiamo pronti e domani usciamo con la graduatoria".

***
«Anche se @jenkin non lo dice apertamente, noi i dati li abbiamo ovviamente già scaricati con le prove invalsi di Italiano e Matematica. In teoria domani mattina potremmo pubblicare un qualche articolo con classifica, oppure decidere di lavorarci con R e analizzarli, oppure altro ancora.
Non so in realtà se ci faremo qualcosa né quando, ma la mia domanda è: vi rendete conto che così facendo i dati sono solo a disposizione di chi sa fare scraping avanzato?»
***

Andrea Nelson Mauro

unread,
Nov 15, 2015, 3:37:16 AM11/15/15
to Spaghetti Open Data
Al di là delle difficoltà di comunicazione date dal mezzo "google group", vorrei raccontarvi rapidamente il pregresso.
  1. Con @jenkin ci trovavamo in un contesto editoriale e ci chiedono: «Ehi, è uscita questa cosa sulla scuola, sarebbe figo fare la classifica delle scuole».
  2. Abbiamo scaricato i dati
  3. Siccome ho due figli piccoli (7 e 5 anni), mi sono chiesto: io da genitore di quali elementi ho bisogno per scegliere in quale scuola iscrivere i miei figli? Così sono andato da mia moglie e le ho detto: «Guarda qua, abbiamo visto che ci sono questi dati su Italiano e Matematica. Ti servirebbero per scegliere la scuola?». Mia moglie mi ha risposto: «No! A me interesserebbe sapere se le scuole hanno il giardino per fare uscire i bimbi, quali fanno attività extrascolastiche, tipo corsi di inglese, musica o teatro».
  4. Mi si sono aperti gli occhi (sic!) e mi sono detto: «Ma in effetti chi se ne frega della classifica». E da lì è sostanzialmente morto il mio interesse per le prove INVALSI... Sono persino disposto - @jenkin perdonami! :D - a dire al cliente/partner: «No, non sono in grado di venderti nessun lavoro sull'argomento!».
  5. Ma i dati ci sono: e quindi che fare? In questo probabilmente, l'unica strada è quella che dice @Alberto: «Secondo me il MIUR, erogatore dei dati, ha tutto il diritto e forse perfino il dovere di proporre una sua interpretazione dei dati». 
Ora, questa storia mi insegna che:
  • Ok hai dei dati, figo. Ma prima di farci qualsiasi cosa, chiediti: hai abbastanza competenze per interpretarli?
  • Sai che figata se nel "portale unico della scuola" ogni scuola potesse mettere oltre alle prove Invalsi, anche una serie di info del tipo: «Abbiamo il giardino, facciamo attività extra su XXX argomenti», compilando una propria pagina-profilo! Quello sì che sarebbe fighissimo, altro che classifica dei voti sui compiti d'italiano!
La comunità opendata (che imho non esiste, ma esistono persone che hanno in comune l'obiettivo OpenData) si trova in mezzo a tre cose:
  1. Il MIUR: elefante che pubblica i dati ma è un sistema complesso al cui interno c'è chi dice sì e c'è chi dice no, ciascuno per legitimissime ragioni/posizioni/opinioni/preoccupazioni
  2. I giornali: che dicono «facciamo la classifica delle scuole!»
  3. I genitori: che dicono «a me servono informazioni molto più diverse per poter scegliere la scuola».
Essenzialmente allora la classifica delle scuole per voti dei compiti non serve a nessuno (il MIUR si attira polemiche, il genitore ha bisogno d'altro) tranne che al giornale che ci fa il titolo nel giorno XXX e vende un po' di copie quel giorno.
Chiudo questo ragionamento lungo (e me ne scuso) dicendo che conosco almeno un po' le complessiva della PA, e sono perfettamente convinto che il rischio di una reazione di chiusura sia dietro l'angolo rispetto all'uso ritenuto superficiale del dato (quindi come dice Donatella, che il MIUR dica «Ecco, come prevedibile, tutto questo sforzo per avere semplicemente una graduatoria»)

Non so, mi pare davvero complesso trovare un punto di sintesi che sia win-win per tutti, ma ho provato a mettere in fila un po' di cose.

that'll do! :-)

Stefano

unread,
Nov 15, 2015, 6:07:32 AM11/15/15
to spaghett...@googlegroups.com
Piccolo offtopic sui test standardizzati https://www.youtube.com/watch?v=J6lyURyVz7k

Confesso che non avevo mai approfondito il nuovo portale della Scuola in chiaro (brr usa google maps) ma guardando su di esso la pagina del mio vecchio liceo[0] (per il quale avevo fatto promozione al salone dell'orientamento quando ero frequentante) vedo che contiene già vari elementi che possono permettere una valutazione come proponi te. C'è la sezione "Rapporto di autovalutazione" (dove ci sono vari parametri standard e le eventuali motivazioni) e quella sull'edilizia scolastica (che entra nel dettaglio della struttura compresa la raggiungibilità con gli autobus).
Basterebbe far migliorare le informazioni che mancano?
Visto che c'è lo spazio 'open data' potremmo proporre uno o più tracciati che raccolgano le informazioni del rav e dell'edilizia per permetterne il confronto?
 

that'll do! :-)

Ciao,
Stefano

davide mancino

unread,
Jan 23, 2016, 6:33:48 AM1/23/16
to Spaghetti Open Data
Riesumo il thread solo per dire, che dopo averci giocato per un po', temo che al momento i dati siano abbastanza inutilizzabili per analisi aggregate.
In primo luogo ci sono diversi errori, e inoltre la mancanza di metadati rende difficile capire esattamente di cosa si parla. Speriamo vada meglio in futuro.

Andrea Raimondi

unread,
Jan 23, 2016, 8:50:17 AM1/23/16
to Spaghetti Open Data
Caro Andrea (e cari tutti)
  i dati devono servire per fare scelte migliori. Un progetto a partire dai dati MIUR deve avere in mente la scelta che i genitori (e altre figure) farebbero per i propri figli e su quali parametri si basterebbe la scelta. Una volta disegnato il progetto gli impedimenti tecnici passano in secondo piano. Al tempo, vi assicuro, erano molto ma molto maggiori. Dovetti fare la geoloc a manella ad esempio, dovetti tirar su un db modellando i fogli metadati che erano messi in degli xls che gridavano vendetta. Ma anche sti cazzi, si poteva fare. 

Feci una cosa del genere ormai anni fa con il rilascio dei primi dati (C'era Lorenzo B. al tempo). La cosa difficile fu costruire indicatori di scelta a partire dai dati disponibili. Ma basta un po' di studio sui genitori e po' di lavoro e non fu difficile implementarli in due settimane. Il tempo di sviluppo fu un po' più lungo perché alcune tipologie di istituti educativi non cadono sotto il MIUR ma sotto i comuni di riferimento, come gli asili. E i genitori devono poter scegliere la scuola indipendentemente da quanti anni ha il figlio. Questo ha comportato un altro ciclo di sprint per riarmonizzare dati e (soprattutto) metadati di due diverse tipologie di istituti. 

Il progetto fu sviluppato quando mi occupavo di Opendata in EVODEVO (azienda di Roma ancora attiva). Attualmente è tutto giù. Dovrete contattare loro se volete più informazioni. Sottoponemmo il progetto per un concorso app sulla scuola a Roma. Non vinse. Ma ci citò la World Bank come uno tra i tre più interessanti esperimenti mondiali in termini di opendata e scuola. Risultato molto migliore rispetto a quei ridicoli contest che vengono organizzati. Non ho visto i nuovi dati, ma basta avere un progettista in gamba per farci cose intelligenti e utili. 

A cause del NDA non posso girarvi nulla, ma posso allegare una presentazione del progetto, la pagina del progetto sul sito di evodevo e l'account twitter ormai morto @RomaScuola.

Che la forza sia con voi. 


nota a margine: investigate sulle differenze di finanziamenti privati/pubblici sulle scuole. Così poi si capace perché ci sono *scuole di serie A* e *scuole di serie B*.
Presentazione Romascuola.pdf

Andrea Raimondi

unread,
Jan 23, 2016, 8:58:03 AM1/23/16
to Spaghetti Open Data
Nota di precisione: NON lavoro più con EVODEVO, nonostante nella loro pagina risulti ancora così. Ora ho un nuovo progetto che si chiama OSD. Mi occupo, in ogni caso, sempre di progettazione. 



Andrea Zedda

unread,
Feb 14, 2016, 6:53:22 AM2/14/16
to Spaghetti Open Data
La questione"superata" dei dati pubblici che devono essere aperti al pubblico non mi trova affatto d'accordo. Il problema e' che non e' stato superato un bel niente, anzi persiste un grossissimo e imbarazzante problema di cultura di corretta archiviazione, lettura e pubblicazione dei dati, oltreche' enormi limiti sulla comprensione del reale valore che talune basi dati, se conservate, documentate, aggiornate continuamente, e condivise possono avere.
Posso citare un caso pratico non riferito strettamente al concetto di open data ma di capacita' e volonta' nell'utilizzare i dati per sostenere e rendere efficienti le politiche pubbliche.
Anni fa ho lavorato come consulente presso un osservatorio scolastico provinciale. Uno dei compiti che aveva l'osservatorio era la produzione di statistiche puntuali, definite e aggiornate i modo da coordinare le attivita' di tutte le amministrazioni locali e scolastiche in modo da migliorare l'offerta formativa e soprattutto combattere la dispersione scolastica.
Ora, dei dati super aggregati, e le statistiche di molto limitate fornite dal MIUR, l'osservatorio se ne faceva una cippa. Servivano dati molto piu' granulari in modo da ottenere statistiche che rispondessero alle richieste pressanti dei territori che vivono il fenomeno della dispersione come un dramma.
La provincia fece diverse richieste al miur richiedendo determinati dati, specifiche variabili e osservazioni. La risposta furono le solite statistiche super sintetiche dalle quali non era possibile ricavare nulla, oppure si rimandava ad altri enti che in realta' non avevano nulla (i provveditorati, la Regione).
Il risultato fu che riusci' a produrre un proprio archivio grazie al progetto dell'Anagrafe dell'Obbligo Formativo.
In pratica ci aggnciammo per un pelo a tale progetto (del MISE) e ci arrangiammo. Fummo costretti a richiedere alle singole scuole (coloro che realmente detengono i dati) tutte le anagrafiche degli studenti, non vi dico il casino visto che le scuole non usano tutte lo stesso software gestionale, ma ce ne sono a pacchi. Abbiamo dovuto fare un ETL, poi una sanguinosa validazione dei dati,  e ci fu un lavoro mostruoso di interfacciamento con tutti gli istituti scolastici, il tutto portato avanti con mezzi miserissimi.
Quindi il lavoro che si poteva fare in un paio di mesi e' durato piu' di un anno, son state spese molte piu' risorse di quelle necessarie... il tutto per ottenere dei dati che il ministero aveva gia' ma che non era in grado di fornire ad una amministrazione pubblica. E' state reinventata la ruota.
L'unica nota positiva di questa storia e' che avendo a disposizione una vera e propria anagrafe si e' potuta sviluppare un'analisi longitudinale sul fenomeno della dispersione (con tanto di diagrammi di Lexis, e studio delle coorti), in piu' si monitoravano pure i singoli studenti: quando qualcuno scompariva dalle anagrafi si cercava di contattarlo per capire se aveva prematuramente abbandonato gli studi oppure no.

Il problema e' quindi che dal punto di vista amministrativo, la cultura del dato e' pesantemente inefficiente, la politica non potra' mai dare risposte efficaci perche' non riusciamo a gestire le informazioni quantitative necessarie.

Alberto

unread,
Feb 14, 2016, 10:08:52 AM2/14/16
to Spaghetti Open Data
Molto interessante questa storia, grazie Andrea! 

Andrea Zedda

unread,
Feb 14, 2016, 12:58:50 PM2/14/16
to Spaghetti Open Data
prego! mi rendo conto ora che e' scritta in un italiano pessimo, dovrei rileggere quel che scrivo ogni tanto :-\

davide mancino

unread,
Feb 15, 2016, 7:07:57 AM2/15/16
to Spaghetti Open Data
Non potrei essere più d'accordo con Andrea.

La questione dei dati pubblici è talmente superata che lo stesso sito di cui si parla in questo thread è stato costruito in modo da mascherare i dati per non farli neppure comparire nell'HTML.
Superatissima, ecco: talmente tanto che ha fatto il giro ed è tornata indietro
Reply all
Reply to author
Forward
0 new messages