OT - Convertire un file audio in testo ???

cesare gerbino

unread,

Apr 13, 2015, 7:58:16 AM4/13/15

to spaghett...@googlegroups.com

Ciao a tutti,

scusate se approfitto della lista ma forse qui c'è qualcuno che mi può almeno indirizzare .....

Mi hanno chiesto se conosco qualcosa che permetta di convertire un file audio di un discorso in un file testuale ...... Non sono per nulla pratico di queste cose e, vado per intuito, non credo che sia così facile trovare qualcosa che produca un risultato accettabile ma magari mi sbaglio.

Non ho cercato molto per ora ma mi sembra che di tools non commerciali non ce ne siano tantissimi e quei pochi che ho provato velocemente compreso un servizio web (di cui ho provato la demo ...) che è il seguente http://www.voicebase.com/, producono risultati scarsisismi .....

Ringrazio anticipatamente ......

Buon pomeriggio

Cesare Gerbino

http://cesaregerbino.wordpress.com/
http://www.facebook.com/cesare.gerbino
http://www.facebook.com/pages/Cesare-Gerbino-GIS-Blog/246234455498174?ref=hl
https://twitter.com/CesareGerbino
http://www.linkedin.com/pub/cesare-gerbino/56/494/77b

Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni espresse sono personali e non riflettono necessariamente quelle del mio datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino: the views expressed are mine and not necessarily those of my employer.

.

Paolo Mainardi

unread,

Apr 13, 2015, 9:13:35 AM4/13/15

to spaghett...@googlegroups.com

Ciao Cesare,

Puoi partire da qui: http://en.wikipedia.org/wiki/List_of_speech_recognition_software e filtrare per "open source" :)

Grazie e tienici aggiornati,

P.

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per altre opzioni visita https://groups.google.com/d/optout.

--

Paolo Mainardi
Twinbit Founder - CTO

www:      twinbit.it
mobile:   (+39) 3401678089
skype: paolo_mainardi
linkedin: paolomainardi
twitter:  @paolomainardi
blog:     paolomainardi.com

Alfredo Serafini

unread,

Apr 17, 2015, 12:14:11 PM4/17/15

to spaghett...@googlegroups.com

ciao Cesare

il problema è spesso legato anche e soprattutto ai dati su cui fare apprendimento: i tool opensource necessitano di solito di una fase di apprendimento in cui dovreste fornire voi un buon (e abbastanza ampio!) dataset da cui partire, quindi diffiderei degli esiti immediati in termini soprattutto di precisione. Diversa è ovviamente la questione se si vuole partire con un progetto destinato a durare un tempo medio-lungo: in quel caso se partiste fin da subito per costruire un buon dataset, è praticabile l'idea di convergere su una buona qualità anche con tool opensource.

Se non ricordo male c'erano dei datasets già pronti su cui fare un po' di machine learning, però per l'inglese :-/ e presumo vi serva l'italiano.
Se il risultato che cercate è immediato, la cosa più pratica temo sia utilizzare un software commerciale, o comprare in abbonamento un qualche servizio web che lo faccia.

non ho contatti con questo tipo di tecnologie da un po' e quindi magari (probabilmente) le cose sono migliorate un bel po', se avete tempo io partirei nella ricerca proprio dai dataset, per trovare "a ritroso" qualche bel progetto opensource che sappia usarli. Il limite grosso è che qui l'approccio è molto basato su features dell'audio, che andrebbero idealmente correlate sul testo. Quindi tra i tool nella paginetta che suggeriva Paolo io proverei ad esempio iatros:
https://www.prhlt.upv.es/software/iatros/doc/speech/

che a naso (magari mi sbaglio, non lo ho provato, sto solo leggendo le caratteristiche) sembrerebbe utilizzabile. Però il problema resterebbe l'addestramento: se invece trovate un servizio web probabilmente non avete problemi di installazione su certe tecnologie, è più facile paradosslamente creare un wrapper, e sarà loro cura di fornirvi qualcosa di già funzionante con buona precisione. Avete provato a cercare anche presso sistemi che fanno traduzione multilingua? (magari esiste attualmente qualcosa che registra, e trascrive)

cesare gerbino

unread,

Apr 19, 2015, 2:56:29 AM4/19/15

to spaghett...@googlegroups.com

Ciao Paolo e Alfredo,

scusate il ritardo ... Grazie mille delle indicazioni, vedrò di approfondire e se ne esce fuori qualcosa di interessante che possa servire eventualmente anche ad altri vedrò di riportare il lista.

Buona giornata!

Cesare Gerbino

http://cesaregerbino.wordpress.com/
http://www.facebook.com/cesare.gerbino
http://www.facebook.com/pages/Cesare-Gerbino-GIS-Blog/246234455498174?ref=hl
https://twitter.com/CesareGerbino
http://www.linkedin.com/pub/cesare-gerbino/56/494/77b

Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni espresse sono personali e non riflettono necessariamente quelle del mio datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino: the views expressed are mine and not necessarily those of my employer.

.

Maurizio Napolitano

unread,

Apr 19, 2015, 11:55:09 AM4/19/15

to Spaghetti Open Data

Potresti provare con textract
http://textract.readthedocs.org/en/latest/
si tratta di una libreria/command line in python
La parte di riconoscimento audio è basata sulla libreria
SpeechRecognition che, a sua volta,
si appoggia su Google API.
Per il resto vale quanto detto dagli altri in particolare in merito al
training del software

cesare gerbino

unread,

Apr 19, 2015, 12:57:21 PM4/19/15

to spaghett...@googlegroups.com

Grazie Napo ..... :-)

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.
Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.
Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.

Per ulteriori opzioni, visita https://groups.google.com/d/optout.

--

Alfredo Serafini

unread,

Apr 20, 2015, 4:52:45 AM4/20/15

to spaghett...@googlegroups.com

facendo un paio di ricerche ulteriori, aggiungo ai suggerimenti sopra:

https://github.com/lkuza2/java-speech-api/wiki/Duplex---Hello-World

(wrapper per google speech API, ma utilizzabile su piattaforme JVM: Java etc)

non è niente male poi Sphinx:
http://cmusphinx.sourceforge.net/wiki/tutorial

speravo di trovare traccia di qualche modello già costruito e riutilizzabile sull'italiano, ma invece niente.
Se avere però una buona raccolta di registrazioni che possono essere utilizzate per creare modelli in tal senso, potrebbe non essere male come approccio, dipende se cercate una trascrizione immediata di un po' di roba, o la possibilità di ragionare in prospettiva su come fare trascrizioni insomma, come già detto su

Il giorno domenica 19 aprile 2015 18:57:21 UTC+2, cesare gerbino ha scritto:

Grazie Napo ..... :-)

Il domenica 19 aprile 2015, Maurizio Napolitano <napo...@gmail.com> ha scritto:

Potresti provare con textract
http://textract.readthedocs.org/en/latest/
si tratta di una libreria/command line in python
La parte di riconoscimento audio è basata sulla libreria
SpeechRecognition che, a sua volta,
si appoggia su Google API.
Per il resto vale quanto detto dagli altri in particolare in merito al
training del software

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.

Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopendata+unsubscribe@googlegroups.com.

Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per ulteriori opzioni, visita https://groups.google.com/d/optout.

Cristian Consonni

unread,

Apr 20, 2015, 5:19:04 AM4/20/15

to spaghett...@googlegroups.com

Il 13 aprile 2015 13:58, cesare gerbino <cesare...@gmail.com> ha scritto:
> Mi hanno chiesto se conosco qualcosa che permetta di convertire un file
> audio di un discorso in un file testuale

Quant'è lungo?
Per completare il quadro vale la pena dire che esistono anche dei
tool web e/o dei software standalone da installare sul proprio PC
che permettono di facilitare queste operazioni (ossia, l'intelligenza
di riconoscimento ce la mette la persona che fa la trascrizione), per
esempio per sottotitolare video conosco Amara:
http://amara.org/

Mentre per la trascrizione ho trovato questo
http://otranscribe.com/
(quest'ultimo non l'ho mai usato)

(esistono anche dei servizi di trascrizione a pagamento, se dovete
fare una cosa una tantum)

Cristian

cesare gerbino

unread,

Apr 20, 2015, 6:02:05 AM4/20/15

to spaghett...@googlegroups.com

Grazie Alfredo!

Cesare Gerbino

http://cesaregerbino.wordpress.com/
http://www.facebook.com/cesare.gerbino
http://www.facebook.com/pages/Cesare-Gerbino-GIS-Blog/246234455498174?ref=hl
https://twitter.com/CesareGerbino
http://www.linkedin.com/pub/cesare-gerbino/56/494/77b

Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni espresse sono personali e non riflettono necessariamente quelle del mio datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino: the views expressed are mine and not necessarily those of my employer.

.

Il giorno 20 aprile 2015 10:52, Alfredo Serafini <ser...@gmail.com> ha scritto:

facendo un paio di ricerche ulteriori, aggiungo ai suggerimenti sopra:

https://github.com/lkuza2/java-speech-api/wiki/Duplex---Hello-World

(wrapper per google speech API, ma utilizzabile su piattaforme JVM: Java etc)

non è niente male poi Sphinx:
http://cmusphinx.sourceforge.net/wiki/tutorial

speravo di trovare traccia di qualche modello già costruito e riutilizzabile sull'italiano, ma invece niente.
Se avere però una buona raccolta di registrazioni che possono essere utilizzate per creare modelli in tal senso, potrebbe non essere male come approccio, dipende se cercate una trascrizione immediata di un po' di roba, o la possibilità di ragionare in prospettiva su come fare trascrizioni insomma, come già detto su

Il giorno domenica 19 aprile 2015 18:57:21 UTC+2, cesare gerbino ha scritto:

Grazie Napo ..... :-)

Il domenica 19 aprile 2015, Maurizio Napolitano <napo...@gmail.com> ha scritto:

Potresti provare con textract
http://textract.readthedocs.org/en/latest/
si tratta di una libreria/command line in python
La parte di riconoscimento audio è basata sulla libreria
SpeechRecognition che, a sua volta,
si appoggia su Google API.
Per il resto vale quanto detto dagli altri in particolare in merito al
training del software

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.

Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.
Per ulteriori opzioni, visita https://groups.google.com/d/optout.

--
Cesare Gerbino

http://cesaregerbino.wordpress.com/
http://www.facebook.com/cesare.gerbino
http://www.facebook.com/pages/Cesare-Gerbino-GIS-Blog/246234455498174?ref=hl
https://twitter.com/CesareGerbino
http://www.linkedin.com/pub/cesare-gerbino/56/494/77b

Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni espresse sono personali e non riflettono necessariamente quelle del mio datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino: the views expressed are mine and not necessarily those of my employer.
.

--
Hai ricevuto questo messaggio perché sei iscritto al gruppo "Spaghetti Open Data" di Google Gruppi.

Per annullare l'iscrizione a questo gruppo e non ricevere più le sue email, invia un'email a spaghettiopend...@googlegroups.com.

Visita questo gruppo all'indirizzo http://groups.google.com/group/spaghettiopendata.

cesare gerbino

unread,

Apr 20, 2015, 6:04:05 AM4/20/15

to spaghett...@googlegroups.com

>>Quant'è lungo?

eh diciamo una buona oretta ..... ma in totale sarebbero tanti più o meno della medesima durata

Grazie anche delle tue indicazioni, metto nella lista delle cose da provare e vediamo se ne viene fuori qualcosa

Buona giornata

Cesare Gerbino

http://cesaregerbino.wordpress.com/
http://www.facebook.com/cesare.gerbino
http://www.facebook.com/pages/Cesare-Gerbino-GIS-Blog/246234455498174?ref=hl
https://twitter.com/CesareGerbino
http://www.linkedin.com/pub/cesare-gerbino/56/494/77b

Questo è un account di posta personale di Cesare Gerbino: tutte le opinioni espresse sono personali e non riflettono necessariamente quelle del mio datore di lavoro

This is Cesare Gerbino mail account. Text is written by Cesare Gerbino: the views expressed are mine and not necessarily those of my employer.

.

Reply all

Reply to author

Forward