Olás,
Primeiramente parabéns aos idealizadores do projeto e aqueles que fazem parte. Sensacional!
Questionamento:
Estou com uma dúvida sobre o
script de treinamento de modelo acústico disponibilizados na página de vocês.
Estou com uma base de dados para treinamento do modelo, contendo o arquivos wav fragmentados e a transcrição de cada um deles em outros arquivos. No README encontrado junto ao conjunto de scrips do treinamento não esta disponibilizado a forma como se usa os scripts somente o objetivo de cada um. Dei uma olha no arquivo Inicial.sh e ele parece não fazer nada somente copiar os arquivos passados nos parâmetros
#!/bin/bash
CORPUS=/diretorio/corpus/
TRAIN="lista de treino"
TEST="lista de teste"
TXT="lista de arquivos txts"
echo Criando listas de treino e teste ...
# copia lista de arquivos (treino e teste)
cp $TRAIN .
cp $TEST .
cp $TXT .
echo
Gostaria de saber se existe algum passo a passo para realizar o treinamento a partir destes scripts que pudessem disponibilizar para este fim levando em conto que já possuo a lista de arquivos wav de treino de teste e a lista de transcritos txt...
Ainda, se não for possível a orientação a partir deste script, existe outro meio para treinamento do modelo acústico a partir destes dados que falei possuir?
Motivação:
Faço parte de um grupo de pesquisa na Universidade Federal de Juiz de Fora (UFJF) que utiliza o Coruja para a transcrição de video-aulas e usa deste transcrito para relacionar estas a partir de tags identificando o assunto abordado nela.
Estamos focado na parte de aperfeiçoamento dos resultados para que o transcrito tenha um nível de acerto ainda maior e possibilite assim uma melhor recuperação de informações.
Deixo aberto para dicas de aperfeiçoamento do resultados.
Já temos algumas ideias, se alguém se interessar seria ótimo compartilha-las para que nos ajudem e mais ideias apareçam para o projeto Coruja
att,