ho provato a vedere se si riesce ad analizzare un file xml con dati sugli appalti (v. Legge190) utilizzando un Google Spreadsheets + script incorporato. Un giochino, eh.
Per esaminare un file (uno "semplice, non uno di quelli organizzati come indici di file "semplici") basta aprire la voce di menu "Lettura XML" (ultima a dx), scegliere "start" e inserire l'URL completo del file.
Vengono salvati, in altrettanti fogli, i metadati, i lotti, le partecipazioni, le aggiudicazioni, i partecipanti con il totale dei relativi importi aggiudicati, un paio di pivot e di elaborazioni, basate su range "denominati".
Ad ogni lotto viene associata una "bag of words" estratte dall'oggetto previa eliminazione di stopword (via regex). L'elenco delle stopword - ampiamente perfettibile - è salvato in un foglio
Sono ovviamente necessari miglioramenti e la gestione delle eccezioni è del genere "chissenefrega, tanto lo uso solo io", quindi qualsiasi commento è assolutamente gradito.