Como reduzir a taxa de erro (WER) no reconhecimento de voz ?
No Ubuntu 14.04.3 LTS 64 bits, estou utilizando os modelos acústicos e de linguagem coruja_jlapsapi para reconhecimento de voz em tempo real com entradas a partir de um microfone. Estive testando diversos parâmetros mas a taxa de erro ainda é alta, principalmente para frases, mesmo que simples.
Fiz o seguinte:
- Instalei as dependências
- ~$ sudo apt-get install build-essential zlib1g-dev flex
- ~$ sudo apt-get install libasound2-dev libesd0-dev libsndfile1-dev
- Baixei Julius versão atual julius-4.3.1.tar.gz e extraí
- Em .../julius-4.3.1/
- Extraí os modelos acústicos e de linguagem LaPSAM 1.5 x64
- Executei os comandos:
- ./configure
- make clean
- make
- sudo make install
- Em .../julius-4.3.1/coruja_jlapsapi/
- Executei o comando abaixo para iniciar a aplicação conforme os parâmetros especificados no arquivo .jconf
- $ julius -C julius.jconf -input mic -d ./LaPSLM1.5.lm.bin -h ./LaPSAM1.5.am.bin -hlist ./LaPSAM1.5.tiedlist -v ./dic.temp -force_ccd
- Neste diretório estão todos os arquivos especificados nos argumentos do comando acima
Caso essas informações não sejam suficientes, estou à disposição para responder eventuais dúvidas.
--