Ola Igor, como o Diego já mencionou tu pode usar um serviço como o do Google, como o Amazon Alexa [
1] que ao meu ver tem mais vantagens em relação a API do Google se a tua intenção é fazer algo voltado a automação.
Se tu quiser criar tua própria ferramenta, tu pode utlizar uma engine como o CMU Sphinx [
2] ou o Julius [
3], os dois possuem uma boa integração com python.
Ambos os caminhos são legais, o primeiro vai te trazer mais facilidades e agilidade no desenvolvimento, o problema é que são serviços que só funcionam online, ou seja, na falta de uma conecção tua aplicação fica sem essa funcionalidade, alé de serem serviços proprietários. A Amazon parece que tem investindo pesado no Alexa e acredito que va ser uma predominância nesse mercado, o Google é o Google. O segundo caminho vai te fazer ir por uma caminho mais complexo, mas vai te trazer uma carga de conhecimento bem maior, porém tu vai ter que criar quase tudo do zero, principlamente no que diz respeito aos corpus, eu tentei seguir por esse caminho porém por conta do tempo disponível para meu projeto, resolvi deixar essa parte para mais adiante. :)
[1]
http://awshub.com.br/novo-alexa-skills-kit-alexa-voice-service-fundo-alexa/[2]
http://cmusphinx.sourceforge.net/wiki/[3]
http://julius.osdn.jp/en_index.php