Alternativa a OpenRefine?

51 views
Skip to first unread message

Alberto

unread,
Oct 23, 2022, 2:53:10 AM10/23/22
to Spaghetti Open Data
Ciao spaghettopoli,

devo fare un po' di manutenzione su alcuni files CSV, e quindi ho scaricato OpenRefine – non l'avevo mai messo su questo laptop. Brutta sorpresa: almeno su Mac, mi chiede di installare legacy Java 6 runtime. Hmmm. Va beh, alle brutte lo faccio, ma forse c'è una solutione più elegante?

Voi che siete professori di datasaiens mi suggerite un'alternativa? Probabilmente nessuno usa più OpenRefine da quando si pagava in lire, e io sono rimasto indietro. Abbracci!

Alberto

unread,
Oct 23, 2022, 2:55:27 AM10/23/22
to Spaghetti Open Data
Correzione: installare Java 6 non mi va, perché devo disinstallare la versione di Java più aggiornata.

Maurizio Napolitano

unread,
Oct 23, 2022, 4:15:45 AM10/23/22
to Spaghetti Open Data
Ciao Alberto
Nel frattempo ti sei risolto il problema, condivido comunque alcune considerazioni.
Nelle ultime versioni dei vari fogli di calcolo (in particolare quelli online) sono spuntate delle funzioni di pulizia dei dati che possono anche essere avviate come suggerimento e che fanno molte pulizie di base (es conversioni di stringhe, individuazione di dati mancanti, caratteri "invisibili" in coda ai testi ecc...).
Per una pulizia preliminare vanno più che bene.
L'alternativa è usare R o python/Pandas e usare le varie funzioni.



--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Per visualizzare questa discussione sul Web, visita https://groups.google.com/d/msgid/spaghettiopendata/f415ec0a-8e89-4af2-a470-354a1f71167dn%40googlegroups.com.

Alberto

unread,
Oct 23, 2022, 4:37:13 AM10/23/22
to Spaghetti Open Data
Ottimo suggerimento, Napo. In effetti per la cosa che devo fare Pandas è molto efficiente, però già che ci sono mi piacerebbe riaggiornarmi un po' sulla pulizia dei dati.

Tra parentesi: mi ha molto colpito questo paper, che mostra come alcuna scelte apparentemente innocenti sulla pulizia possano rovesciare completamente i risultati dell'analisi. Bisogna stare attentissimi.

elio e laura giulianelli

unread,
Oct 23, 2022, 4:03:40 PM10/23/22
to spaghett...@googlegroups.com
Buona sera a tutti, 
giusto per ulteriore informazione,
GraphDB (es.installato nella versione Free sotto Docker: https://github.com/Ontotext-AD/graphdb-docker
integra OntoRefine, una versione aggiornata di OpenRefine:

Matteo Fortini

unread,
Oct 24, 2022, 11:33:27 AM10/24/22
to spaghett...@googlegroups.com
Aggiornamento:
ora lo sviluppano esternamente https://platform.ontotext.com/ontorefine/1.1/index.html



Il 23/10/22 22:03, elio e laura giulianelli ha scritto:

Alberto

unread,
Nov 15, 2022, 8:04:48 AM11/15/22
to Spaghetti Open Data
Ottimo, Matteo, grazie.
Reply all
Reply to author
Forward
0 new messages