Reconhecimento de Voz

823 views
Skip to first unread message

Igor Oliveira

unread,
Apr 28, 2016, 8:19:17 PM4/28/16
to Python Brasil
Alguém sabe uma lib em que possa reconhecer a voz do user e transforma-lá em um arquivo de texto?

Diego Tolentino

unread,
Apr 29, 2016, 10:20:56 AM4/29/16
to python...@googlegroups.com
Bom dia Igor, 

O Google tem uma API que usa todo aquele poder computacional pra reconhecimento de voz, não é coisa de outro mundo interagir mais tem um trabalho grande até dominar a api, tem diversos santos que fizeram intermediação com essa API vale procurar, abaixo vai um artigo falando dela e algumas libs.



Att
Diego Tolentino
Desenvolvedor Web
Skype: diegotolentino

“Do not go where the path may lead, go instead where there is no path and leave a trail.” - Ralph Waldo Emerson
"Qualis homo est ille qui orbem terrarum meliorem non facit?"

Em 28 de abril de 2016 11:54, Igor Oliveira <devigo...@gmail.com> escreveu:
Alguém sabe uma lib em que possa reconhecer a voz do user e transforma-lá em um arquivo de texto?

--
--
------------------------------------
Grupo Python-Brasil
http://www.python.org.br/wiki/AntesDePerguntar
 
<*> Para visitar o site do grupo na web, acesse:
http://groups.google.com/group/python-brasil
 
<*> Para sair deste grupo, envie um e-mail para:
python-brasi...@googlegroups.com

---
Você recebeu essa mensagem porque está inscrito no grupo "Python Brasil" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para python-brasi...@googlegroups.com.
Para mais opções, acesse https://groups.google.com/d/optout.

Relsi Maron

unread,
May 1, 2016, 4:45:29 AM5/1/16
to Python Brasil

Ola Igor, como o Diego já mencionou tu pode usar um serviço como o do Google, como o Amazon Alexa [1] que ao meu ver tem mais vantagens em relação a API do Google se a tua intenção é fazer algo voltado a automação.

Se tu quiser criar tua própria ferramenta, tu pode utlizar uma engine como o CMU Sphinx [2] ou o Julius [3], os dois possuem uma boa integração com python.

Ambos os caminhos são legais, o primeiro vai te trazer mais facilidades e agilidade no desenvolvimento, o problema é que são serviços que só funcionam online, ou seja, na falta de uma conecção tua aplicação fica sem essa funcionalidade, alé de serem serviços proprietários. A Amazon parece que tem investindo pesado no Alexa e acredito que va ser uma predominância nesse mercado, o Google é o Google. O segundo caminho vai te fazer ir por uma caminho mais complexo, mas vai te trazer uma carga de conhecimento bem maior, porém tu vai ter que criar quase tudo do zero, principlamente no que diz respeito aos corpus, eu tentei seguir por esse caminho porém por conta do tempo disponível para meu projeto, resolvi deixar essa parte para mais adiante. :)

[1] http://awshub.com.br/novo-alexa-skills-kit-alexa-voice-service-fundo-alexa/
[2] http://cmusphinx.sourceforge.net/wiki/
[3] http://julius.osdn.jp/en_index.php

Rayan Sóstenes

unread,
May 2, 2016, 10:55:34 PM5/2/16
to Python Brasil
Imagino que a melhor opção seja usar https://pypi.python.org/pypi/SpeechRecognition/3.4.3 Assim caso seja um projeto voltado para automação e a conexão com a internet não esteja disponível no momento, você pode fazer fallback para uma solução off-line on-the-fly.


--
--
------------------------------------
Grupo Python-Brasil
http://www.python.org.br/wiki/AntesDePerguntar
 
<*> Para visitar o site do grupo na web, acesse:
http://groups.google.com/group/python-brasil
 
<*> Para sair deste grupo, envie um e-mail para:
python-brasi...@googlegroups.com

---
Você recebeu essa mensagem porque está inscrito no grupo "Python Brasil" dos Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para python-brasi...@googlegroups.com.
Para mais opções, acesse https://groups.google.com/d/optout.
--
Rayan Sóstenes
Analista de Sistemas
Graduando em Engenharia de Controle e Automação
+55 (62) 8248-4091

Eder Souza

unread,
May 12, 2016, 9:13:47 AM5/12/16
to python...@googlegroups.com
Eu fiz isso a muito tempo atras usando a API do google, na época era a versão 1, você vai ter que alterar a URL de envio para a versão 2, dá uma olhada no meu github, caramba olhando as datas já faz 5 anos que fiz ...


Também tem uma outra versão  que usa iteração com servidor VOIP + Python para pegar em tempo real palavras/frases ditas via telefoneIP e enviar a consulta para o google (esse já está usando a versão 2), faz muito tempo que não testo:

Felipe Barreto Volpone

unread,
May 16, 2016, 9:20:20 AM5/16/16
to Python Brasil
Fala Igor, beleza?

Há um tempo que eu vi esse blog post sobre reconhecimento de voz, acho que pode te ajudar: https://ggulati.wordpress.com/2016/02/24/coding-jarvis-in-python-3-in-2016/?utm_content=buffere04ea&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer

me parece bem legal e explicativo.
Reply all
Reply to author
Forward
0 new messages