Ciao Alfie,
allora non sei iscritto alla newsletter di onData :D :D
On Wed, 7 Sept 2022 at 18:50, Alfredo Serafini ser...@gmail.com wrote:
qualcuno sa se esiste una pagina con i link o gli allegati ai programmi elettorali di tutte le liste presentate?A partire dalla pagina: https://dait.interno.gov.it/elezioni/trasparenza/elezioni-politiche-2022 non ne trovo traccia.
Se guardi la source dei testi di quella pagina, trovi questo:
https://dait.interno.gov.it/documenti/trasparenza/POLITICHE_20220925/POLITICHE_20220925.json
Ci abbiamo un po’ lavorato e trovi gli esiti descritti qui (vi invito a leggere un po’ tutto): https://github.com/ondata/elezioni-politiche-2022/blob/main/programmi/README.md
La grande parte di questi file sono PDF con immagini e non testo.
Questa storia di documente non accessibili, con queste entità in gioco (partiti e ministero), nella sezione trasparenza del ministero è veramente una cosa orribile.
C’è un’asimmetria che fa stare male, che fa un gran danno culturale.
Se non c'è sarebbe interessante raccoglierli dai vari siti (anche in pdf) e metterli in un unico posto, così che chi vuole abbia ancora tempo per leggerli.
Non siamo riusciti a fare un lavoro pulito, ma abbiamo abilitato uno spazio documentcloud per fare ricerca testuale.
Basterà aggiungere del testo al campo di ricerca presente. Ad esempio:
"crisi energetica"
(come nell’immagine di sotto), troverà tutti i documenti in cui le due parole sono entrambe presenti, una dopo l’altra. È importante in questo caso l’uso delle virgolette "
in cui racchiudere le due parole;scuola AND inclusione
, per tutti i programmi in cui sono presenti sia la parola scuola
, che inclusione
. Qui c’è da fare attenzione al maiuscolo di AND
; "scuola inclusione"~10
, per avere tutti i documenti in cui la parola scuola
e la parola inclusione
non distano tra loro più di 10 parole. È il carattere ~
seguito da 10
, dopo le due parole tra "
, che imposta la distanza in parole.È possibile anche utilizzare le API di DocumentCloud (❓guida), per avere restituito l’esito delle ricerche in formato JSON
.
Per "crisi energetica"
tramite API l’URL da chiamare sarà questo.
Poi abbiamo visto che c’era pure il caso di programma in sezione trasparenza da 15 pagine, e sul sito del partito da 115. Allora abbiamo messo su Document Cloud quelli con tag “No Ministero”.
Abbiamo fatto pure qualcosa sulle liste.
Saluti a tutte/i
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo argomento, visita https://groups.google.com/d/topic/spaghettiopendata/0hQ-2EYVY94/unsubscribe.
Per annullare l'iscrizione a questo gruppo e a tutti i suoi argomenti, invia un'email a spaghettiopend...@googlegroups.com.
Per visualizzare questa discussione sul Web, visita https://groups.google.com/d/msgid/spaghettiopendata/CAHEdGZNU48wMVqnLj6p4MX%3DR6tY-EU_9S4Pm4iC8B6CJ8TBHmw%40mail.gmail.com.
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Per visualizzare questa discussione sul Web, visita https://groups.google.com/d/msgid/spaghettiopendata/0be48c9b-9984-45d0-84a1-4cd8a18a3c81n%40googlegroups.com.
Per annullare l'iscrizione a questo argomento, visita https://groups.google.com/d/topic/spaghettiopendata/0hQ-2EYVY94/unsubscribe.
Per annullare l'iscrizione a questo gruppo e a tutti i suoi argomenti, invia un'email a spaghettiopend...@googlegroups.com.
Per visualizzare questa discussione sul Web, visita https://groups.google.com/d/msgid/spaghettiopendata/CALP9R4%3DVmzBP7ppYUOf5bTFeGdVXa6V7WWQMnTH584OA%3D8CG6A%40mail.gmail.com.
Per visualizzare questa discussione sul Web, visita https://groups.google.com/d/msgid/spaghettiopendata/CADawF4M23PAmh0mHQch22NdieMrR7ZsWYavc3Yww3Yr8pwP_rg%40mail.gmail.com.
Per visualizzare questa discussione sul Web, visita https://groups.google.com/d/msgid/spaghettiopendata/CAHEdGZOoTu5PK0MLkSf7uqEC5Zy6Ah23f11XUc8d8%3DV7WiYS9Q%40mail.gmail.com.