Qualche tool utile per l'hackthon magari, e non solo, by SpazioDati

124 views
Skip to first unread message

Matteo Brunati

unread,
Mar 27, 2014, 12:38:59 PM3/27/14
to spaghett...@googlegroups.com
Ciao ragazzi/e,
allora, riemergo dal trasloco e mi metto un po' in pari in viaggio per Bologna, e vi faccio una segnalazione spero utile, per le giornate a seguire, specie per la giornata di sabato.

[hat SpazioDati on]

Vi aggiorno in maniera informale e veloce su alcune cose a cui stiamo lavorando come SpazioDati, oltre a quelle già raccontate attraverso il blog:
- il progetto linkedStat già accennato in lista a fine febbraio[0], utile anche per la sessione di domenica mattina sul linked data, dalla doc si possono mettere le mani in pasta al tema linked seguiti da un comodo tutorial, se si vuole portare avanti la formazione della domenica

Tra i tool abbiamo:

 1. estensione per fare entity extraction con Open Refine, di cui parlerò domenica mattina velocemente, collegandomi magari alla sessione su Refine di domani pomeriggio[1]. L'estensione si trova qui http://freeyourmetadata.org/named-entity-extraction/ e funziona sia con refine 2.5 che con 2.6.

 2. anticipazione per gli amici data journalist e non solo: tra poco, pochissimo, sarà disponibile uno script per google spreadsheet che permette l'uso delle API di dataTXT-NEX direttamente dalla singola cella del foglio elettronico. Questo significa che potreste fare estrazione di entità, disambiguazione e linking verso risorse di DBpedia direttamente dalle celle di un google spreadsheet, come fosse una formula qualsiasi applicata al vostro contenuto. Chi volesse restare aggiornato su questo, si iscriva pure a dandelion.eu che verrà avvisato live sulle novità:
https://dandelion.eu/accounts/register/?next=/
Le potenzialità messe a disposizione da un tool di questo tipo per facilitare il lavoro di pulizia, e di link verso la LOD dei dati contenuti nei fogli elettronici condivisi sono davvero tantissime :) Chi mi conosce sa che credo nel valore dell'avvicinare per piccoli step alcuni pezzetti del mondo Linked Data, senza la paura di tutto lo stack tecnologico tradizionale. A volte basta poco .)
 3. per chi ama Python, abbiamo fatto questo: https://github.com/SpazioDati/python-dandelion-eu un modo veloce ed agevole per accedere alle semantic text api di dandelion.eu. Alberto, adesso potresti pure fare delle prove ora che smanetti in Python :) La doc direi che è esautistiva:
http://python-dandelion-eu.readthedocs.org/en/latest/

 
4. il servizio dataTXT-NEX è ora tra i servizi integrati anche a NERD, citato tra i tool anche dell'evento romano del 20-21 febbraio:
http://nerd.eurecom.fr

[\hat SpazioDati off]

Visto che ci sarò fino a domenica mattina, se vorrete approfondire qualsiasi cosa, rompetemi pure le scatole nei prossimi giorni :)

 matt

[0] - https://groups.google.com/d/msg/spaghettiopendata/_j6VuSEypuI/TG8Wz7e93FMJ
[1] - http://www.spaghettiopendata.org/content/google-refine-python-e-l-anagrafe-delle-scuole-italiane#.UzQ2xcdtalk

andy

unread,
Apr 18, 2014, 4:21:28 AM4/18/14
to spaghett...@googlegroups.com
Caro Matteo,

2014-03-27 17:38 GMT+01:00 Matteo Brunati <matteo....@gmail.com>:
 1. estensione per fare entity extraction con Open Refine, di cui parlerò domenica mattina velocemente, collegandomi magari alla sessione su Refine di domani pomeriggio[1]. L'estensione si trova qui http://freeyourmetadata.org/named-entity-extraction/ e funziona sia con refine 2.5 che con 2.6.

ho appena lanciato un  "Extract named entities" su una colonna che contiene dei topinimi italiani (Comuni) e usando dataTXT.
Lasciando le opzioni di default ottengo sempre null. Sono sicuro che dipende da me, ma volevo esserne certo.

Grazie mille,

a




--
Andrea Borruso
website: http://blog.spaziogis.it
GEO+ geomatica in Italia http://bit.ly/GEOplus 
38° 7' 48" N, 13° 21' 9" E, EPSG:4326
--

"cercare e saper riconoscere chi e cosa,
 in mezzo all’inferno, non è inferno, 
e farlo durare, e dargli spazio"

Italo Calvino

fralu

unread,
Apr 18, 2014, 11:16:38 AM4/18/14
to spaghett...@googlegroups.com
Ciao Andrea,

se ti può essere utile, io ho fatto una prova  su Google Refine e funziona.

Anche a me dava risultati nulli , era sempre perchè non costruivo in maniera corretta la URI:
https://api.dandelion.eu/datatxt/nex/v1/?text=CALTABELLOTTA&$app_id=---------&$app_key=-----------------.


Ciao
f.l...@converge.it
citta_sicilia.JPG

andy

unread,
Apr 19, 2014, 5:32:15 AM4/19/14
to spaghett...@googlegroups.com
Ciao Francesco,

2014-04-18 17:16 GMT+02:00 fralu <frances...@gmail.com>:
se ti può essere utile, io ho fatto una prova  su Google Refine e funziona.

probabilmente non avevo capito nulla.

Provo con le tue indicazioni.

Grazie mille 

Matteo Brunati

unread,
Apr 22, 2014, 2:56:34 AM4/22/14
to spaghett...@googlegroups.com
Ciao ragazzi,
in questi giorni mi rimetto sul tutorial, ed uso i vostri feedback per chiarire un po' di cose, visto che ci sono.

Thanks intanto per la pazienza!

 Matt

Matteo Brunati

unread,
Jul 17, 2014, 3:22:24 AM7/17/14
to spaghett...@googlegroups.com
Ping veloce su Refine: ecco qualche spunto per chiarire quando serve usare l'entity extraction in OpenRefine.
-> http://www.slideshare.net/spaziodati/using-entity-extraction-extension-with-openrefine-and-datatxt-apis

Se avete use cases ulteriori, e scenari che volete far conoscere, ditemelo pure che metto in cantiere alcuni tutorial verticali su temi di interesse.
In generale è utile per chiarire l'ambito, che a volte non è semplice da avere presente.
Specie perchè Refine è un mondo di possibilità... oltre la già potente capacità di normalizzare/pulire dati molto sporchi.

Uno di quelli già in programma è l'uso di Refine per migliorare e gestire l'ampliamento delle keywords per il SEO.[0]

#dataTXT #refine #ner #openrefine

 matt

[0] - https://twitter.com/MagdMartin/status/489430691739074560

Riccardo Grosso

unread,
Jul 17, 2014, 3:31:39 AM7/17/14
to spaghett...@googlegroups.com
Grazie Matteo Brunati ! Cose utili per il restyling dei miei esperimenti ontologici :)


--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.



--
http://about.me/riccardo.maria.grosso

Matteo Brunati

unread,
Jul 25, 2014, 9:42:18 AM7/25/14
to spaghett...@googlegroups.com
Per completezza,
ecco il post collegato, per capire e lanciare il sasso sugli scenari attorno all'uso di Refine con l'estensione NER - Named Entity Extraction, oltre all'uso della reconciliation:

-> http://blog.spaziodati.eu/en/2014/07/24/using-openrefine-to-perform-text-mining-on-your-data-food-for-thoughts/

Next step: tutorial tematici in alcuni degli ambiti citati, sul tema della gestione di colonne di testo non strutturato ( ecco quando serve usare l'entity extraction oltre la semplice reconciliation ).

 matt
Reply all
Reply to author
Forward
0 new messages