Pubblicato l'elenco degli incarichi 2011 della PA

157 views
Skip to first unread message

mfortini

unread,
Jun 21, 2013, 5:58:23 AM6/21/13
to spaghett...@googlegroups.com
Ciao,
hanno pubblicato il 2013-06-17 gli open data sugli incarichi ai consulenti

I giornali ci stanno già facendo qualche riflessione a spanne, potrebbe essere interessante fare analisi più precise.

Ciao,
Matteo

Maurizio Napolitano

unread,
Jun 21, 2013, 6:00:34 AM6/21/13
to spaghett...@googlegroups.com
Peccato che non si capisca se sono in licenza IODL 1.0 o IODL 2.0

2013/6/21 mfortini <matteo....@gmail.com>:
> --
> Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open
> Data" di Google Gruppi.
> Per annullare l'iscrizione a questo gruppo e non ricevere più i suoi
> messaggi, invia un'email a spaghettiopend...@googlegroups.com.
> Visita questo gruppo all'indirizzo
> http://groups.google.com/group/spaghettiopendata.
> Per ulteriori opzioni, visita https://groups.google.com/groups/opt_out.
>
>



--
Maurizio "Napo" Napolitano
http://de.straba.us

mfortini

unread,
Jun 21, 2013, 9:30:18 AM6/21/13
to spaghett...@googlegroups.com
C'è modo di saperlo, secondo voi?

Maurizio Napolitano

unread,
Jun 21, 2013, 9:34:01 AM6/21/13
to spaghett...@googlegroups.com
2013/6/21 mfortini <matteo....@gmail.com>:
> C'è modo di saperlo, secondo voi?


Immagino che basti mandare una email alla persona che si occupa del dataset.

Andrea Nelson Mauro

unread,
Jun 21, 2013, 11:49:17 AM6/21/13
to spaghett...@googlegroups.com
ci sono solo i nomi delle aziende e non le partite iva. ARG!

Francesco Minazzi

unread,
Jun 23, 2013, 8:19:51 AM6/23/13
to spaghett...@googlegroups.com
Secondo me non è neanche IODL, perché manca l'eplicita motivazione di adozione di licenza diversa sulla base delle linee guida nazionali, come prescritto dall'art. 52 CAD, per cui sono open by default.  

mfortini

unread,
Jun 24, 2013, 8:28:50 AM6/24/13
to spaghett...@googlegroups.com
Ho chiesto informazioni alla responsabile del documento indicata nella pagina web, che ha segnalato la cosa a PerlaPA, vi tengo aggiornati.

Andrea Nelson Mauro

unread,
Jul 15, 2013, 2:56:00 AM7/15/13
to spaghett...@googlegroups.com

Alberto

unread,
Jul 15, 2013, 3:31:16 AM7/15/13
to spaghett...@googlegroups.com
Andrea, ottimo lavoro. Ho una domanda: cliccando sulla provincia, non trovi per cosa sono stati spesi i soldi, ma, se capisco bene, chi li ha spesi. Cioè, la voce "università" non raggruppa le consulenze affidate all'università, ma le consulenze che l'università ha comprato (per esempio per progetti di ricerca). Ho capito bene?

Se avessi capito bene, questo darebbe anche una prima interpretazione del fatto che i capoluoghi di regione hanno spese mediamente più alte; una delle voci più importanti è sempre "Regioni e autonomie locali": le regioni sono committenti di consulenze. Scusa se mi permetto di fare un po' il metadataninja :-)


Andrea Nelson Mauro

unread,
Jul 15, 2013, 4:37:50 AM7/15/13
to spaghett...@googlegroups.com
alberto, se fai il metadataninja è un onore :))) 
e cmq hai ragione, i dati vanno spiegati meglio, faccio una sintesi del nostro scambio e la aggiungo al post

dunque: i dati originali sono abbastanza completi, mentre nella mappa c'è solo la quantità di denaro spesa per provincia (esattamente come dicevi tu, chi li ha spesi). Esatto anche l'esempio dell'università. 

però questa è solo la punta dell'iceberg e ci vorrebbero tante cose da appronfidire
1) se non ho capito male ad esempio, nelle consulenze rientrano anche gli incarichi di medici e docenti (dovrebbe essere la famosa riforma brunetta)
2) i dati originali (350mila righe circa) contengono anche i nomi, quindi si potrebbe fare anche una ricerca per nome, o l'elenco dei più pagati (con SQL è un attimo)
3) ancora: per ogni consulenza c'è una descrizione dell'incarico, quindi anche lì ci sarebbe da scavare

fra l'altro il dataset originale sul sito .gov.it non va più, me l'hanno segnalato in tanti

cmq mi piacerebbe che ci lavorassimo in gruppo, già ne parlavamo con Stefano Durì, Davide Mancino e Mara Cinquepalmi.
La mappa è veramente una roba banale rispetto a quello che si potrebbe fare


Francesca Sensini

unread,
Jul 15, 2013, 4:49:15 AM7/15/13
to spaghett...@googlegroups.com
grazie mille, ottimo lavoro!
e ora via di spam :))


--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più i suoi messaggi, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per ulteriori opzioni, visita https://groups.google.com/groups/opt_out.
 
 



--
Francesca Sensini
skype: kika67it
twitter: @FraSens

Maurizio Napolitano

unread,
Jul 15, 2013, 4:50:55 AM7/15/13
to spaghett...@googlegroups.com
2013/7/15 Andrea Nelson Mauro <andrea.ne...@gmail.com>:
> mappettina! :)
> http://www.dataninja.it/consulenze-pa-lo-stato-spende-piu-a-nord-mappa-opendata/
>
> i dati sono ottimi! scateniamoci!

Hai provato a rappresentare i dati secondo una classificazione migliore?
Intendo qualcosa come il metodo di classificazione naturale Jenks breaks[1] ?
Lo chiedo solo perche', spesso, quando si colorano mappe rimane il problema
della rappresentazione dei valori in relazione alla dimensione del poligono.

[1]
http://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

Andrea Nelson Mauro

unread,
Jul 15, 2013, 5:16:45 AM7/15/13
to spaghett...@googlegroups.com
napo non ancora, ma vogliamo fare un po' di lavoro comunitario.
Sarebbe fantastico se ti unissi anche tu, magari appunto rappresentandoli col metodo che suggerisci

ti aggrego alla mail?

nota: qualcun altro vuole partecipare?

Andrea Nelson Mauro

unread,
Jul 15, 2013, 5:23:36 AM7/15/13
to spaghett...@googlegroups.com

Luigi Reggi

unread,
Jul 15, 2013, 6:24:05 AM7/15/13
to spaghett...@googlegroups.com
apprezzo molto dati e analisi!

ho visto al volo il ricco dataset (grazie davide mancino e andrea) e anch'io continuerei a scavarci dentro per superare il solito dibattito pubblico sui "consulenti della PA", "precari della PA", etc.  in cui si buttano dentro lo stesso calderone situazioni completamente diverse, come si può vedere dai dati: dalla prestazione occasionale di uno psicologo allo stipendio di un anno di un collaboratore che lavora 8 ore al giorno tutti i giorni, dai contratti a imprese da diversi milioni fino alla "docenza" o "consulenza" spot, magari strapagata... 
Il campo "durata" è immediatamente utilizzabile per aiutare a distinguere..  Ad esempio nel dataset 2012 ci sono contratti che inizano prima del 2012 e finisco dopo, e di cui è fondamentale considerare ad esempio solo la "quota annuale" (non so se l'avete già fatto...).
Sul resto (chi paga la consulenza e per farci cosa) è più complicato lavorarci in termini di classificazioni ... ma vale la pena tentare essendoci qui molti veri dataninja!! :)


2013/7/15 Andrea Nelson Mauro <andrea.ne...@gmail.com>
i dati originali sono qui  https://docs.google.com/file/d/0BwitINOUK2oUcU01cFVtRVZfTnc/edit

Il giorno lunedì 15 luglio 2013 11:16:45 UTC+2, Andrea Nelson Mauro ha scritto:
napo non ancora, ma vogliamo fare un po' di lavoro comunitario.
Sarebbe fantastico se ti unissi anche tu, magari appunto rappresentandoli col metodo che suggerisci

ti aggrego alla mail?

nota: qualcun altro vuole partecipare?


Il giorno lunedì 15 luglio 2013 10:50:55 UTC+2, napo ha scritto:
2013/7/15 Andrea Nelson Mauro <andrea.ne...@gmail.com>:
> mappettina! :)
> http://www.dataninja.it/consulenze-pa-lo-stato-spende-piu-a-nord-mappa-opendata/
>
> i dati sono ottimi! scateniamoci!

Hai provato a rappresentare i dati secondo una classificazione migliore?
Intendo qualcosa come il metodo di classificazione naturale Jenks breaks[1] ?
Lo chiedo solo perche', spesso, quando si colorano mappe rimane il problema
della rappresentazione dei valori in relazione alla dimensione del poligono.

[1]
http://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più i suoi messaggi, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per ulteriori opzioni, visita https://groups.google.com/groups/opt_out.
 
 



--
Luigi Reggi
+39 328 6785249
www.luigireggi.eu
twitter: @luigireggi
Message has been deleted

mfortini

unread,
Jul 15, 2013, 8:06:42 AM7/15/13
to spaghett...@googlegroups.com
Andrea, aggiungeresti anche me alla mailing list? Se ho un attimo darei una mano molto volentieri.

Grazie,
M

Andrea Nelson Mauro

unread,
Jul 15, 2013, 10:10:48 AM7/15/13
to spaghett...@googlegroups.com
@mfortini: ma in realtà pensavo che forse è meglio tenere la discussione sul gruppo, così chiunque vuole si aggrega, commenta, propone, etc.

se hai qualche idea per usare i dati, proponila pure, o se li vuoi analizzare, visualizzare.

Insomma, se riusciamo a lavorarci in gruppo potrebbero venire fuori cose interessanti
daje :)


mfortini

unread,
Jul 15, 2013, 11:17:43 AM7/15/13
to spaghett...@googlegroups.com
Ok per me va bene, condividere è sicuramente un bene perché chi può anche soltanto revisionare i risultati fa già un lavoro utilissimo.

Ciao,
Matteo

Andrea Maurino

unread,
Jul 15, 2013, 12:07:02 PM7/15/13
to spaghett...@googlegroups.com

Ho guardato i dati di base, mentre è facile aggregare per ente pagatore è molto rischioso farlo su chi ha parcepito i soldi perché c'è solo nome della ditta (no piva) e nome e cognome (no codice fiscale) e aggregare per nomi uguali o simili potrebbe essere pericoloso.
Sul tema delle consulenze in università, vedo poca didattica (i cosidetti prof a contratto) ma dai nomi stranieri associati a università per didattica potrebbero essere seminaro tenuti da docenti stranieri (ovverio invito un collega per parlare di lavoro e gli chiedo una lezione sul suo tema di ricerca), ma le spese legali (per esempio notai) alcuni comuni li mettono come consulenze e le università no (eppure di atti da notai ne facciamo).
Sicuramente si può fare qualche analisi interessante con un po di analisi automatica dei dati e un po di "intelligence"  umana.
Se servono competenze in db e affini e identificazione dati duplicati posso dare una mano.
Andrea Maurino

Mara Cinquepalmi

unread,
Jul 15, 2013, 2:36:57 PM7/15/13
to spaghett...@googlegroups.com
Anche se non intervengo in mailing, io leggo sempre ;-)).
Bella la discussione su questo punto. Se riesco, scrivo qualcosa a proposito dei dati.
Saluti

Benedetto Ponti

unread,
Jul 15, 2013, 4:41:08 PM7/15/13
to spaghett...@googlegroups.com
Ciao a tutti,
rimando le presentazioni ad un'altra occasione...
Grazie dell'accoglienza nel gruppo di discussione, intanto.

Mi pare davvero ottimo il lavoro fatto con la mappa.
Provo a formulare qualche suggerimento (di più, non posso, non posseggo le indispensabili conoscenze e capacità operative ...).

I dati assoluti (sempre per provincia:le vogliono abolire, ma restano l'unico livello utile per confronti di questi tipo...) potrebbero essere "normalizzati", relativamente ai seguenti denominatori
1) per le uscite annuali di ciascuna provincia, così da verificare la percentuale di spesa in consulenze su spesa (dati qui: http://www.istat.it/it/archivio/91854)
2) per le spese per il personale, aggregabili dalla banca dati SICO del mef (ma temo che sia l'nnesima banca dati non aperta, come SIOPE e molte altre), così da confrontare il rapporto tra personale dipendente e personale preso "in consulenza" dall'esterno (indicato efficienza/efficacia delle politiche di reclutamento e gestione del personale)
3) per il pil pro capite di ciascuna provincia

Insomma, c'è da sbizzarrirsi...
E sono convinto che ne verrebbero fuori cose molto interessanti, e soprendenti.

Benedetto
Benedetto Ponti, Ph.D.
Ricercatore in Diritto amministrativo
Dipartimento Istituzioni e Società
University of Perugia
via Pascoli, 33
06123 Perugia  Italy
Tel.: +39-075-5852469
Fax: +39-075-5852476
Port.: 3391964222
E-mail: benedet...@unipg.it

mfortini

unread,
Jul 16, 2013, 2:35:19 AM7/16/13
to spaghett...@googlegroups.com
Sono d'accordo con Benedetto: è interessante sia un confronto comparativo fra province/comuni, in modo da raggruppare enti simili e vedere cosa li renda differenti, se una variabile di cui non si è tenuto conto, o una semplice propensione delle amministrazioni a spendere di più/di meno. Il mio Comune, ad esempio, è appena stato sul giornale per aver speso 50.000€ in un paio di consulenze, ma se vado a vedere i comuni vicini, la provincia o la regione, è davvero un comune che spende di più della media della sua zona?
Inoltre, sarebbe anche interessante un'analisi globale che confronti le "abitudini" di spesa per le consulenze della PA con altri settori, come le ONLUS o le aziende private, per vedere se si tratta di malcostume della PA, o se sia "normale" così (assumendo come ipotesi che la percentuale di spesa per consulenze dei privati sia corretta dal Mercato e quindi sia la minima indispensabile).

Se ho un po' di tempo ci metto mano anch'io.

M

Andrea Nelson Mauro

unread,
Jul 16, 2013, 8:09:27 AM7/16/13
to spaghett...@googlegroups.com
Andrea:


Il giorno lunedì 15 luglio 2013 18:07:02 UTC+2, Andrea Maurino University of Milano Bicocca ha scritto:

Ho guardato i dati di base, mentre è facile aggregare per ente pagatore è molto rischioso farlo su chi ha parcepito i soldi perché c'è solo nome della ditta (no piva) e nome e cognome (no codice fiscale) e aggregare per nomi uguali o simili potrebbe essere pericoloso.

assolutamente sì, avevo chiesto anche a stefano durì, ma era pessimista
 

Sul tema delle consulenze in università, vedo poca didattica (i cosidetti prof a contratto) ma dai nomi stranieri associati a università per didattica potrebbero essere seminaro tenuti da docenti stranieri (ovverio invito un collega per parlare di lavoro e gli chiedo una lezione sul suo tema di ricerca), ma le spese legali (per esempio notai) alcuni comuni li mettono come consulenze e le università no (eppure di atti da notai ne facciamo).
Sicuramente si può fare qualche analisi interessante con un po di analisi automatica dei dati e un po di "intelligence"  umana.
Se servono competenze in db e affini e identificazione dati duplicati posso dare una mano.
Andrea Maurino

e assolutamente sì anche qui: ci vorrebbe una riflessione collettiva per denifinire qualche filone da seguire...

tu quale aspetto approfondiresti? 

Andrea Maurino

unread,
Jul 16, 2013, 10:46:02 AM7/16/13
to spaghett...@googlegroups.com

A meno che qualche collega giornalista/appassoonato di pa abbia già in mente qualcosa di preciso si potrebbe lavorarr in maniera esplorativa. Per esempio Classifichiamo le spese per geografia, livello politico (stato, regione,  provincia,  comune, etc) poi si potrebbero normalizzare per abitanti/fatturato ente e inziamo a vedere medie/mediane/outlier..
Se volete posso mettere  i dati su un piccolo db-datawarehouse e facciamo un po di query.

--

mfortini

unread,
Jul 16, 2013, 10:55:35 AM7/16/13
to spaghett...@googlegroups.com
Sarebbe molto interessante averli su un DB, anche perché così sarebbe facile collegarci altre tabelle, penso ad esempio ai dati di popolazione per Comune che si trovano sul sito Istat, o possiamo aggiungere le colonne per la classificazione.

Io un server virtuale a disposizione ce l'ho, però non saprei che sistema installare per poter consentire l'accesso a tutti senza rischiare che gli altri servizi mi vengano "forati". Se avete idee anche su questo posso lavorarci.

Grazie ciao

Andrea Maurino

unread,
Jul 16, 2013, 12:01:19 PM7/16/13
to spaghett...@googlegroups.com

Si potrebbe pensare di mettere un db con due utenti (o classi di utenti). Il primo può leggere e scrivere sul db (e decidi tu chi può accederci) l'altro utente accede solo alle viste delle tabelle (viste del tipo select × from tabella). In quanto viste quest'ultimo utente può solo accedere in lettura..
Troppo banale?

Stefano Durì

unread,
Jul 16, 2013, 2:56:38 PM7/16/13
to spaghett...@googlegroups.com
utilizzando kettle ho cercato di capire come si distribuiscono le righe e come si combinano tra loro i vari parametri

Qualche considerazione sparsa:
- ci sono righe con CR nella descrizione. Kettle legge 373947 righe complete, mentre il file aperto in Notepad++ ne conta 374246

- i dati vanno un po' ripuliti: circa 4300 righe sono senza importo previsto, 357 senza l'erogato e in quasi 200 sono a zero entrambi. Quasi 29000 righe non hanno data di fine, il che può avere anche senso, ad es. nel caso di incarichi legali. E' evidente che il dato di spesa deve essere in qualche modo normalizzato per definire la quota da assegnare al 2011. Credo che l'unico criterio applicabile sia un metodo di imputazione lineare (spesa / durata totale dell'incarico * durata dell'incarico nel 2011). 

la normalizzazione basata sulla durata dell'incarico - che produce un valore giornaliero - non mi convince: non sempre la durata ha a che fare con i "giorni lavorati" effettivamente, né il valore della commessa è necessariamente commisurato al valore della giornata/uomo
- analogamente fuorviante può essere il rapporto con il PIL dell'area considerata. Le spese per la scuola, ad es., dovrebbero essere riferite a parametri come il numero di insegnanti (v. corsi di formazione) o di alunni
- non vorrei confondere "origine" e "destinazione" della spesa. Se non capisco male, i livelli decisionali che insistono su uno stesso territorio sono parecchi. Sommando le spese decise da livelli diversi si rischia, non so, di imputare un "eccesso di spesa" alla provincia X quando in realtà la spesa di competenza provinciale è solo una quota di quella erogata nel territorio corrispondente. Per capirci qualcosa bisognerebbe avere una buona conoscenza dei metadati 

Una volta sistemati i dati bisogna capire da che parte cominciare per analizzarli. Forse si può realizzare una "macchinetta" composta di tre parti:
a) un set di filtri sui tipi di spesa (definiti in base a qualche combinazione dei parametri "non geografici")
b) un sistema di analisi che produca - per un qualunque insieme di righe - alcuni parametri standard (totale spesa, media, mediana, moda, ..) e la distribuzione della spesa in quantili. Forse anche un'analoga analisi delle durate (totali) potrebbe essere interessante
c) un iteratore che applica alle righe selezionate da uno dei filtri (a) un ulteriore filtro relativo a ciascun livello geografico (regione / provincia) e produce i valori (b) per ciascun livello, salvandoli da qualche parte. Noto che i problemi di omonimia, una volta applicati i filtri a e b, si ridurrebbero parecchio, consentendo quindi anche qualche analisi di concentrazione delle spese su singoli soggetti.

L'obbiettivo è quello di confrontare "la forma" di uno stesso tipo di spesa in diversi contesti geografici, in modo da offrire qualche spunto per analisi di dettaglio. 

Andrea Nelson Mauro

unread,
Jul 17, 2013, 3:25:58 AM7/17/13
to spaghett...@googlegroups.com
non vorrei dire un boiata, ma con Alessio Cimarelli li abbiamo messi su mySQL e le interrogazioni funzionano benissimo (io poi con sta scusa ho cominciato ad entrare nel mondo mySQL e sono rimasto piacevolmente folgorato :D )

bisognerebbe chiedere cmq il rilascio anche delle partite iva. che dite?

davide mancino

unread,
Jul 18, 2013, 7:49:56 AM7/18/13
to spaghett...@googlegroups.com
Per come la vedo, la cosa complicata è stabilire criteri sensati per poter dire "queste consulenze vanno bene" e "queste altre sono uno spreco" (che alla fine è l'unica cosa che ci interessa, no?)

I dati sono talmente eterogenei e riguardano realtà così diverse che è complicato fare paragoni. Per esempio, andrea titola il suo post "consulenze, al nord si spende di più". Considerando che in media le amministrazioni sono più efficienti al nord, se ne può dedurre che anche il sud dovrebbe ricorrere di più alle consulenze? (Ma non sono proprio sicuro che questa fosse l'inferenza suggerita da andrea :-P )

Un altro esempio: se ben ricordo dalla mia tabella, la provincia di trento è una di quelle in cui la spesa pro capite è più alta. Certo i soldi sono molti, ma quanto sono efficienti i servizi? Più o meno, in proporzione, rispetto ad altre realtà?

Io non ho una risposta a queste domande, ma se non ne troviamo una diventa complicato rendere sensate tutte queste informazioni.

Andrea Nelson Mauro

unread,
Jul 18, 2013, 9:29:30 AM7/18/13
to spaghett...@googlegroups.com
ok folks la pagina è pronta :) 
per il momento ho messo la mia mappa nel primo thumb.

chiunque vuol fare una propria pagina - con mappe, grafici o con qualsiasi altro genere di analisi - può farlo usando come base questa > http://www.dataninja.it/projects/consulenze_pa/pages/mappaspese.html
appena fatto mandatemi il file .html qui sul gruppo o in PM e lo metto su.

la pag ha un solo url di sharing quindi si condivide il lavoro di tutti

ciao :)

Andrea Nelson Mauro

unread,
Jul 18, 2013, 9:59:57 AM7/18/13
to spaghett...@googlegroups.com
@davide: sull'inferenza la risposta è "ni", nel senso che visto il poco tempo ma cmq la voglia di fare qualcosa, ho asciugato tutto al minimo per dire meno fesserie possibili. Secondo me più dibattito c'è meglio il tutto prenderà la via di un'analisi verosimile

Calogero Bonasia

unread,
Jul 18, 2013, 10:09:48 AM7/18/13
to spaghett...@googlegroups.com
io vi seguo (per imparare) da qualche tempo.

ho esperienza nell'ambito del protocollo informatico, in particolare essendo stato "consulente" per la regione siciliana nell'arco di sette anni vorrei apportare il mio contributo (non appena capisco come si fa) per evidenziare una certa informazione.

in sette anni sono stati spesi, sotto forma di "consulenza" meno di 100.000 euro, per realizzare un sistema di protocollo informatico basato su software open source, formare più di duecento dipendenti pubblici e comperare hardware per far funzionare il tutto (la spesa maggiore è stata questa), poi... altri "consulenti" sono sopraggiunti e hanno comportato una spesa di ben 12 milioni di euro sempre in relazione al protocollo informatico.

ora... cliccando sulla mappa e selezionando Palermo, non riesco a capire come si fa a vedere se queste "spese" di cui parlo io ci sono oppure no e non riesco a capire come eventualmente "inserirle".




--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più i suoi messaggi, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per ulteriori opzioni, visita https://groups.google.com/groups/opt_out.
 
 



--
Calogero Bonasia

Alberto

unread,
Jul 18, 2013, 2:28:11 PM7/18/13
to spaghett...@googlegroups.com
Stefano, ottima proposta. Ci aggiungo un pezzo e una critica. Il pezzo: la normalizzazione per numero di abitanti proposta da Benedetto non mi convince. Il motivo è che, come sappiamo bene, la pubblica amministrazione ha economie di scala: la Lombardia ha 10 milioni di abitanti, e la provincia di Bolzano circa mezzo milione; ma i dipendenti pubblici in Lombardia sono 406.000, in provincia di Bolzano 40.000. Se normalizzi la spesa per consulenze come propone Benedetto, probabilmente trovi che le Regioni grandi spendono meno di quelle piccole, ma non stai facendo una grandissima scoperta; e soprattutto non mi è chiaro cosa vuole dire una normalizzazione del genere. Esiste una "spesa fisiologica per consulenza per abitante", indipendente dall'assetto amministrativo? Non credo.

La critica: in generale, quello che mi manca in questa discussione (e in generale quando si parla di dati) è un modello teorico che generi ipotesi. Per esempio, un'ipotesi potrebbe essere: "gli enti pubblici italiani ricorrono alle consulenze per sopperire alle carenze di personale dovute al blocco delle assunzioni". Una volta che hai un'ipotesi, puoi costruirti un test che sfrutta la VARIANZA tra i diversi territori. Per esempio, se il blocco delle assunzioni fosse avvenuto in anni diversi in regioni diverse, si potrebbe tentare di correlare la spesa in consulenza con il tempo intercorso dal blocco: se non vi è nessuna correlazione, l'ipotesi è rigettata.

Questa cosa mi manca particolarmente nel data journalism. Ok, io magari sono un pedante ma se tu NON hai ipotesi e butti fuori una mappa o un'infografica poi non puoi lamentarti se il lettore la legge in modo tendenzioso, o se viene strumentalizzata nel dibattito politico.

Matteo Fortini

unread,
Jul 18, 2013, 3:23:23 PM7/18/13
to spaghett...@googlegroups.com

Intanto, non avendo e conoscendo niente di meglio, ho caricato la tabella su postgres su un server virtuale. Se qualcuno vuole giocarci e promette di non farmi casini posso fornire magari per email username e password. Avrei intenzione nei prox giorni di normalizzare un po' la tabella e di associarvi un po' di dati presi da ISTAT o simili. Ho provato a creare una fusion table perché sarebbe molto utile, ma con tanti record non ce la fa.

@Alberto hai ragione, se non si ha un'ipotesi da testare, si possono prendere tante cantonate. Io vorrei confrontare la spesa per esempio con le tasse pagate nel territorio, se sono dati in qualche modo disponibili, per capire se, a partire dall'assunto "chi ha più soldi da spendere, ne può spendere di più", ci sono territori più o meno risparmiatori rispetto alla media. Qualcuno ha dei dati simili? Li vorrei caricare sempre nel DB sopra.

Inviato da Nexus phone

Benedetto Ponti

unread,
Jul 19, 2013, 3:57:02 AM7/19/13
to spaghett...@googlegroups.com
Caro Alberto,
sono partito dalla necessità di rendere significativo in qualche modo il dato assoluto, che di per sé dice già qualcosa, ma non consente di rendere "comparabili" scelte, performance, opzioni prevalenti nei diversi enti.
Quindi, occorre rendere i dati assoluti confrontabili tra loro. Ovviamente, ogni "normalizzazione" applicata a questo fine, è esposta ad un qualche bias (le economie organizzative di scala uno di questi).
Tuttavia, qualche parametro per fare i confronti occorre applicarlo, altrimenti il dato lasciato così com'è è ancora più "ingannevole".
Per ridurre l'effetto di bias, è utile applicarne diversi (di parametri di normalizzazione), prima separatamente (poi, magari, insieme). Così, non c'è solo la normalizzazione per numerod i abitanti, ma anche quella relativa al numero di dipendenti (che neutralizza le economie di scala), e così via.
Mi pare che se non si procede in questo senso, non si fa quella che considero essere il vero servizio/ruolo in termini di trasparenza, da parte dei un mediatore che propone una lettura dei dati. Ossia fare in modo (dichiarando le proprie scelte intepretative) che i dati offrano dei significati, un senso, con il quale interpretare il fenomeno. Ovviamente, qualcun altro potrà applicare altri paramentri, e offrire significati solo in parte coincidenti. Si attiverà un dibattito, e si affineranno le tecniche di intepretazione.

BP

jenkin

unread,
Jul 19, 2013, 9:01:55 AM7/19/13
to spaghett...@googlegroups.com
Ottimo, Alberto, hai evidenziato un punto importantissimo... che è poi forse l'unico punto "scientifico" della questione, in senso di metodo.
Ma in fondo è proprio la base del giornalismo investigativo e di inchiesta: ho una tesi, seguo una pista, dimostro un legame tra premesse e conseguenze.
Il data journalism non può che rientrare in questa logica, tanto più che si basa per costituzione su dati quantitativi. Ha però un problema: siccome è piuttosto facile
ormai visualizzare per bene i dati, si rischia di fermarsi a questo punto, senza scavare oltre.

Non c'entra con la questione del thread, ma in fondo il tentativo fatto con la nostra inchiesta sulle slot da poco uscito su Wired ha visto poco tempo impiegato nella
visualizzazione dei dati, ma molto tempo speso nell'incrocio di vari dataset eterogenei e nella ricerca di correlazioni tra fenomeni, a partire da una tesi: la presenza delle slot
ha ricadute economiche, sociali, sanitarie? Nel nostro piccolo abbiamo ottenuto un paio di regressioni lineari significative. Siamo ben lontani dall'aver individuato un rapporto
di causa-effetto, ma qualcosa sotto c'è... 

Personalmente gli insegnamenti che ho tratto da questo lavoro, e che penso possano essere esportati anche al lavoro di cui si discute in questo thread, sono due:
1) difficilmente un solo dataset, per quanto ampio e grande sia, contiene informazioni veramente interessanti e soprattutto "notizie"... la chiave è l'interazione tra i dati;
2) il lavoro più importante non è trattare tanti dati, ma "buttare" quelli in eccesso... è un lavoro di asciugatura e focalizzazione dell'attenzione... per le slot avevamo mille mila esercizi e tante altre cose,
ma alla fine (al di là della mera statistica descrittiva) ciò che contava davvero era esercizi dedicati / spesa e sale giochi / ludopatia. Basta.

Nel caso delle consulenza, è molto peggio. Quindi il mio consiglio è buttate il grosso, ma fatelo guidati da una teoria, da una ipotesi, dalla puzza della notizia. Scegliete cosa vi interessa dimostrare e
"buttate" il resto. Meglio filtrare prima i dati, che dopo le conclusioni!

Bah, ho scritto un po' di menate, ve le lascio in pasto... ciao! :)

Alberto

unread,
Jul 19, 2013, 9:38:42 AM7/19/13
to spaghett...@googlegroups.com
Alessio, Benedetto, siamo sulla stessa lunghezza d'onda. Poi possiamo affezionarci a ipotesi di lettura diverse, e magari anche a metodi diversi; ma poi, attraverso il dibattito e le correzioni di rotta, da qualche parte arriviamo.

Stefano Durì

unread,
Jul 19, 2013, 2:30:49 PM7/19/13
to spaghett...@googlegroups.com
@Alberto
Sul discorso delle ipotesi di lavoro hai assolutamente ragione. Credo che ancora non siano emerse con chiarezza proprio a causa della complessità del dataset, nel quale compaiono tipi di spesa eterogenei per tipo di "decisore", di destinatario, di contenuto. Direi che siamo ancora ai preliminari, che per me comportano sempre e obbligatoriamente sia una comprensione decente dei metadati (ad es. non mi è del tutto chiara l'articolazione comparto/settore) sia un controllo sulla qualità dei dati. Ad es., se penso che mi serviranno gli importi erogati, sarà bene che analizzi i valori presenti. Scoprirò così che ci sono oltre 90k righe in cui il valore è nullo o < 1. Se ignoro questo fatto, qualsiasi lavoro di interpretazione rischia di traballare. 
Sono anche convinto che almeno qualche obbiettivo si possa scartare a priori, in particolare quello di valutare la "bontà" della spesa. Questo sia per la questione dell'eterogeneità sia perché penso che la "bontà" si misuri in termini di rapporto costo/benefici, e qui abbiamo soltanto il costo. In linea di massima, credo che da questo dataset possiamo nel migliore dei casi trarre qualche "indizio". Le misure che proponevo vanno appunto in questa direzione: evidenziare alcune difformità, alcune "tracce". Sono misure indipendenti da dati esterni, cioé non prevedono normalizzazioni: sono in sostanza descrizioni di pattern, che vorrebbero focalizzare e indirizzare il lavoro interpretativo. Questo viene dopo e deve utilizzare parametri e indagini esterni al dataset (è qui che entra in ballo la normalizzazione). 
Un'ipotesi di lavoro che mi sembra interessante è l'analisi basata sulle tipologie di spesa (il campo "Attività economica"). Si potrebbe ad esempio cercare di raggruppare le "attività economiche" in poche grandi categorie e vedere come si distribuisce la spesa per categoria nelle varie regioni (me lo immagino come un grafico "radar"). Ho provato a fare qualche calcolo sulla distribuzione degli importi erogati a livello nazionale, per Lombardia e per Calabria (le ho scelte supponendo che avessero pattern di spesa differenti). Poi ho provato a calcolare gli scostamenti tra i valori delle singole regioni e il dato nazionale. E' giusto un esercizio, per vedere se salta fuori qualche altra idea. Lo trovate qui https://docs.google.com/spreadsheet/ccc?key=0ArUcdTifQwNodFF1b0N1QTZwNXc3SDNDNFVEMU02Smc&usp=sharing

Alberto

unread,
Jul 19, 2013, 5:59:52 PM7/19/13
to spaghett...@googlegroups.com
Ma infatti, @Stefano. Tra l'altro, questo tipo di lavoro, quando porta a scartare domande che sono potenzialmente interessanti, porta a un risultato secondo me prezioso: che puoi dire al soggetto proprietario dei dati "Grazie, bello. Se ci rilasci anche X e Y possiamo usarlo per studiarci l'interessantissimo comportamento della variabile Z, che è importante per questo e quest'altro motivo". In altre parole, puoi suggerirgli come valorizzare al meglio l'investimento già fatto nel rilasciare il dataset di partenza! Ma se NON si fa il lavoro di ipotesi questo discorso non esce, e non puoi che fermarti a quella che all'università chiamavamo statistica descrittiva. E con quella si va poco lontano.

Alfredo Serafini

unread,
Jul 20, 2013, 2:02:33 AM7/20/13
to spaghett...@googlegroups.com
ciao bello seguire le discussioni e vedere che ne sbuca fuori anche qualcuna sul metodo :-) Ovviamente sono d'accordo su dove state convergendo, e allora la questione su cui viene da ragionare è che anche per fare data journalism non basti l'analisi sui dati esistenti, ma anche diverse fasi di feedback. Cioè mi viene da pensare a prototipi da dober creare anche solo per poter capire o visualizzare i dati, e decidere in che direzione andare... questo credo sia un tipo di rotta assolutamente percorribile qui dentro no? :-)

Alberto

unread,
Jul 20, 2013, 5:28:42 AM7/20/13
to spaghett...@googlegroups.com
Pensa te... io da giovane (18-21) facevo il giornalista. Mi hanno proposto un contratto "serio", e io ho rifiutato perché studiavo economia, e pensavo che l'economista è come il giornalista (lo pagano per andare in giro a fare domande e cercare risposte), ma ha sei mesi per rispondere a ogni domanda invece che tre ore. Adesso mi pare che ci sia una specie di convergenza tra le due professioni! :-)

carlo romagnoli

unread,
Jul 21, 2013, 8:45:53 AM7/21/13
to spaghett...@googlegroups.com
Sono d'accordissimo sul discorso della convergenza tra professioni...e questo forum ne è l'esempio... è popolato da giornalisti, ricercatori, statistici, informatici...sia come ricercatore puro con esperienze nel pubblico e privato sia come datajournalist alle prime armi il problema che mi pongo è un altro...quali prodotti sviluppare e a quale mercato rivolgersi... mi spiego meglio...l'econometria è fantastica ma dal punto di vista comunicativo non funziona..persino quando realizzo ricerche di mercato qualche committente storce il naso dinanzi all'ipotesi di cluster o modelli di regressione...d'altro canto infografiche, analisi descrittiva, anche solo un dato particolarmente eclatante funziona ottimamente sul lato comunicazione, ma riduce all'osso tematiche spesso complesse...poi ci sono quel milione di possibili combinazioni tra i due estremi...ma il problema è sempre lo stesso...in un paese che spende meno del 2% del pil in ricerca e sviluppo esiste ancora ed esisterà in futuro un mercato per questi prodotti?

carlo romagnoli

unread,
Jul 21, 2013, 8:56:47 AM7/21/13
to spaghett...@googlegroups.com
....ovviamente la mia domanda riguardava anche il tema delle consulenze nella PA..possiamo fare anche un libro bianco con analisi descrittiva...econometria avanzata...indagini campionarie e focus group...ma sarebbe bello anche trovare un committente...

Con questo sfogo pre-estivo chiudo e vado in vacanza...Buona estate a tutti!

Stefano Durì

unread,
Jul 21, 2013, 3:27:05 PM7/21/13
to spaghett...@googlegroups.com
mi stavo chiedendo se - statistiche a parte - non si potrebbe utilizzare il dataset per fare ricerche del tipo "ho bisogno di un lavoro del tipo X (ricerca su attività economica) relativo all'argomento Y (ricerca di testo nella descrizione). Chi ci ha già lavorato su (in Italia, in regione,..)? quanto è costato? quanto tempo ha richiesto?". E' vero che non ci sono identificativi univoci, ma forse è un problema che una ricerca sul web o un contatto con il committente possono risolvere. C'è anche da dire che sono dati già vecchiotti

morena ragone

unread,
Jul 22, 2013, 8:34:15 AM7/22/13
to spaghett...@googlegroups.com
Appunto... 
Però perchè non provare a fare accesso civico per chiedere i dati 2012?
La norma è chiara (ved. art. 10, comma 8, lett d) e art. 15, commi 1 e 2 del decreto 33/2013) e - prendo da tabella CIVIT - l'obbligo va assolto tempestivamente (art. 8, stesso decreto).
Cosa aspettate? :)
Se non altro, potrebbe essere da stimolo...

Morena

Alessio 'Blaster' Biancalana

unread,
Jul 22, 2013, 8:48:04 AM7/22/13
to spaghett...@googlegroups.com

Per rispondere a Stefano, un'altra cosa molto carina che si potrebbe fare avendo a disposizione questi dati e dei dati relativi magari al 2012 è vedere come è evoluto il costo del lavoro confrontando cose simili.

Ale
Inviato da Android

Il giorno 21/lug/2013 21:27, "Stefano Durì" <stefan...@aster.it> ha scritto:
mi stavo chiedendo se - statistiche a parte - non si potrebbe utilizzare il dataset per fare ricerche del tipo "ho bisogno di un lavoro del tipo X (ricerca su attività economica) relativo all'argomento Y (ricerca di testo nella descrizione). Chi ci ha già lavorato su (in Italia, in regione,..)? quanto è costato? quanto tempo ha richiesto?". E' vero che non ci sono identificativi univoci, ma forse è un problema che una ricerca sul web o un contatto con il committente possono risolvere. C'è anche da dire che sono dati già vecchiotti

--

Andrea Nelson Mauro

unread,
Jul 28, 2013, 3:18:48 AM7/28/13
to spaghett...@googlegroups.com
scusate la latitanza ma ero beatamente disperso tra i mari siculi :)
sarò un po' lungo, vi avviso 

ovviamente la mappettina che avevo fatto (qui il link per chi non l'ha vista) non ha alcuna pretesa informativa se non quella espressa nel titolo ("Lo Stato spende più a Nord"), che mi sembrava davvero l'unica cosa che si potesse dire. Fatta in poche ore, consiste in una banale pivot dei centri di spesa per provincia, messa poi altrettanto banalmente su Fusion Table con un grafico a barre per ciascuna provincia. 
(ho usato FT e non cartoDB con OSM, per il semplice motivo che su cartoDB non si può fare al volo un chart dentro la infowindow - #napoperdonami :D )

Non l'ho normalizzata con la popolazione perché semplicemente non mi pareva interessante, e anzi poteva apparire tendenzioso (riflessione istintiva, ma sono pronto a ricredermi ovviamente). L'ipotesi che faceva @Alberto - normalizzare in base al numero di dipendenti - mi sembra la più interessante, perché potrebbe far venire fuori una sorta di tasso di "precariato", e poi ancora metterlo in relazione con altri indicatori.

Sempre citando @Alberto, @Alessio, @Stefano e gli altri concordo pienamente: da un dataset di 370mila righe c'è necessariamente da togliere e non si può credo facilmente lavorare su una massa di dati la cui omogeneità sta solo nel fatto che si tratta di incarichi e fondi destinati dalla PA a soggetti esterni. 

Al di là della validazione dei dati, all'interno del dataset ci sono i precari (come tanti amici, alcuni dei quali presenti qui in lista), ci sono pure le aziende specializzate, gli studi legali, i superconsulenti. Questo solo per quanto riguarda i soggetti coinvolti. Se poi si passa ai topic delle consulenze/collaborazioni, l'eterogeneità è ancora maggiore. Quanto alla dimensione temporale, come si fa a mettere sullo stesso piano un un cocopro che dura 12 mesi e costa ad esempio 20mila euro (configurato come lavoro subordinato), con una consulenza di un mese da 50k (da libero professionista)?-

Per di più ho la certezza assoluta che ci siano errori. In un caso specifico ad esempio mi risultava che una persona che conosco avesse percepito 28milioni di euro per un incarico, quando invece nella realtà si trattava di 28mila (gli ho proprio scritto per verifcare).

Dunque: rilasciare dataset così grossi e con dati così eterogenei è un po' rischioso, e rilasciare dei dati del 2011 un anno e mezzo dopo ha un'utilità molto relativa. Ciò non toglie che nel mio piccolo apprezzo moltissimo il fatto che i dati siano stati pubblicati, ma nessun giornale credo che dedicherebbe risorse e approfondimenti a questi dati perché sono stravecchi.

Il data journalism per come la vedo io è un'attività per il momento ancora libero-professionale (per quanto ne so non esiste questa figura professionale nei media in pianta organica) che deve fare i conti con tutto questo. Ma come si fa a immaginare, come diceva @Carlo Romagnoli, un modello di business per questi prodotti quando hai dati vecchi, eterogenei, spesso sbagliati, e per tirarci fuori qualcosa ci metti settimane/mesi? 

Si può cercare di stimolare un po' il dibattito pubblicando un contenuto data driven - io ho solo cercato di fare questo - chiaramente però partendo dal presupposto che quel contenuto nel 99,9% dei casi è "povero", imperfetto, suscettibile di critiche (e meno male che ci sono). Immaginare allora quel contenuto come se fosse il titolo di un thread, un'occasione per favorire la nascita di una discussione e che il risultato di quella discussione potrebbe portare a dire esattamente il contrario di quando spiegato all'interno del contenuto pubblicato

Andrebbe straordinariamente valorizzato il ruolo dei centri di ricerca, delle università, di persone in grado di riflettere con calma e aggiungere al dibattito considerazioni che necessitano di più tempo e competenze (il data journalist, come peraltro il giornalista, non può sapere tutto, ma deve avere la capacità di ascoltare tutti e cercare al massimo di fare sintesi quanto più fedelmente possibile. Senza vendere certezze, mai, perché sarebbero semplicemente ridicole). Ecco, finora con Dataninja abbiamo cercato di avere un approccio del genere.

L'importante è che alla base di tutto restino sempre i dati, cosa che va un po' oltre il vecchio modo italico di fare un certo giornalismo.
my 2 cents :)



Reply all
Reply to author
Forward
0 new messages