Testo come open data: quali esempi?

20 views
Skip to first unread message

Alberto

unread,
Jan 21, 2016, 7:22:07 AM1/21/16
to Spaghetti Open Data
Ciao a tutti, mi interesso di intelligenza collettiva e vorrei capire se esistono comunità online che pubblicano i loro contenuti come open data. Normalmente non pensiamo che una frase in linguaggio naturale possa essere considerata un dato, ma per alcune discipline quello è proprio il formato dei dati grezzi.

Quindi cerco comunità online che:
  • mettano una licenza aperta al loro contenuto
  • abbiano un modo machine-readable di accedere al contenuto, data dump o API.
  • la prima condizione è più importante della seconda, perché se la licenza è giusta tutti i CMS ti permettono di montare una API.
Ne conoscete?

Maurizio Napolitano

unread,
Jan 21, 2016, 8:08:37 AM1/21/16
to Spaghetti Open Data
2016-01-21 13:22 GMT+01:00 Alberto <alberto...@gmail.com>:
> Ciao a tutti, mi interesso di intelligenza collettiva e vorrei capire se
> esistono comunità online che pubblicano i loro contenuti come open data.

se sono contenuti si tratta di open content, no?

> Normalmente non pensiamo che una frase in linguaggio naturale possa essere
> considerata un dato, ma per alcune discipline quello è proprio il formato
> dei dati grezzi.

Certo, anche tutti i contenuti possono essere analizzati.
ad esempio una immagine è una ottima matrice di dati.

Cmq mi sembra di capire che la questione sia legata a NLP

> Quindi cerco comunità online che:
>
> mettano una licenza aperta al loro contenuto
> abbiano un modo machine-readable di accedere al contenuto, data dump o API.
> la prima condizione è più importante della seconda, perché se la licenza è
> giusta tutti i CMS ti permettono di montare una API.
>
> Ne conoscete?

Immagino che Wikipedia e tutti i progetti fratelli siano già
contemplati dalla tua lista
Bene o male anche molte piattaforme wiki usano licenze aperte.
Es.
http://www.wikihow.com/

Hai già visto la questione reddit ?
https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/

Marco Brandizi

unread,
Jan 21, 2016, 11:37:09 AM1/21/16
to spaghett...@googlegroups.com
Ciao Alberto,

una delle sotto-comunità di questo genere è quella biomedica. Non sono specializzato in questo, ma è sicuramente una delle comunità da prendere in considerazione, per via delle sfide che un campo così eterogeneo e complesso comportano. Sfide che riguardano sia la pubblicazione di dati di base sui testi (la risorsa stra-famosa per questo è PUBMED), sia l'estrazione di informazioni strutturare dai testi in lingua naturale (es, http://www.ncbi.nlm.nih.gov/pmc/articles/PMC3041576/), che la ricerca di testi in base a dati strutturati e non (https://en.wikipedia.org/wiki/GoPubMed). Qui dove sono io c'è un gruppo interessante che fa queste cose (http://www.ebi.ac.uk/about/people/johanna-mcentyre), e un altro autore che stimo è https://www.insight-centre.org/users/dietrich-rebholz-schuhmann.

Quanto alle licenze, immagino sia noto il movimento per l'open access. Una persona che lavora molto a questo è Peter Rust (https://en.wikipedia.org/wiki/Peter_Murray-Rust#Activism).

Infine, nel mio piccolo, sto lavorando proprio ora ad un tool per text-mining (http://www.ebi.ac.uk/spot/zooma/) :-)

Marco
--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo https://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

-- 

=========================================================================
Marco Brandizi <marco.b...@gmail.com> 
http://www.marcobrandizi.info

Reply all
Reply to author
Forward
0 new messages