zeroth 훈련 결과를 활용하려는데 어떤 파일을 써야할지 모르겠습니다.(vosk)

385 views
Skip to first unread message

John Doe

unread,
Aug 4, 2021, 10:07:46 AM8/4/21
to zeroth-help
안녕하세요.
kaldi egs에 있는 zeroth 레시피로 제공된 데이터를 통하여 훈련은 완료하였습니다.
해당 결과를 vosk api를 통해서 활용해 보려고 하는데 훈련 결과 중 어떤 파일을 사용해야 하는지 모르겠어서 도움을 받을수 있을까요?

vosk에서 요구하는 모델 파일은 다음과 같습니다.
###################
모델을 훈련시킨 후 다음 레이아웃에 따라 파일을 정렬합니다(자세한 내용은 en-us-spire 참조).
  • am/final.mdl - 음향 모델
  • conf/mfcc.conf- mfcc 구성 파일. 고용 모델(대부분의 외부 모델)을 사용하는 경우 mfcc_hires.conf 버전을 사용하는지 확인하십시오.
  • conf/model.conf- 기본 디코딩 빔 및 무음 전화를 제공합니다. 이 파일을 직접 만들어야 합니다. kaldi 모델에는 없습니다.
  • conf/pitch.conf- 피치 기능이 있는 기능 파이프라인을 생성하기 위한 선택적 파일입니다. 모델이 피치를 사용하지 않는 경우 누락될 수 있습니다.
  • ivector/final.dubm - ivector 추출기에서 ivector 파일 가져오기(모델이 ivector로 훈련된 경우 선택적 폴더)
  • ivector/final.ie
  • ivector/final.mat
  • ivector/splice.conf
  • ivector/global_cmvn.stats
  • ivector/online_cmvn.conf
  • graph/phones/word_boundary.int - 그래프에서
  • graph/HCLG.fst - lookahead를 사용하지 않는 경우 디코딩 그래프입니다.
  • graph/HCLr.fst - 재채점을 실행하려면 하나의 큰 HCLG.fst 대신 Gr.fst 및 HCLr.fst를 사용하십시오.
  • graph/Gr.fst
  • graph/phones.txt - 그래프에서
  • graph/words.txt - 그래프에서
  • rescore/G.carpa- carpa rescoring은 선택 사항이지만 큰 모델에서 유용합니다. 일반적으로 data/lang_test_rescore 안에 위치
  • rescore/G.fst - 또한 재채점을 사용하려는 경우 선택 사항이며 RNNLM과의 보간에도 사용됩니다.
  • rnnlm/feat_embedding.final.mat- 재채점을 위한 RNNLM 임베딩. 있는 경우 선택 사항입니다.
  • rnnlm/special_symbol_opts.conf - RNNLM 모델 옵션
  • rnnlm/final.raw - RNNLM 모델
  • rnnlm/word_feats.txt - RNNLM 모델 단어 위업
###########################

상기의 파일들을 zeroth 훈련 결과인 exp폴더에서 검색했을 때 final.mdl 파일만 하더라도 각기 다른 폴더 안에 여러개가 생성 되어 있더라구요...  어떤 파일을 사용해야 하는지 도움을 주실 수 있는 분 계실까요?

이승현

unread,
Aug 6, 2021, 1:10:22 AM8/6/21
to zeroth-help

안녕하세요.
run.sh 파일을 크게 건드리지 않고 레시피 그대로 학습하셨다고 가정하겠습니다. (파일명, 디렉터리 명 등)

exp 디렉터리를 들어가보시면 여러가지 디렉터리가 존재할 것입니다.
모델을 포함한 최종적인 학습 결과들은 chain_rvb 디렉터리에 존재합니다.
나머지는 음향 모델을 구축하는 과정에서 생성된 것들입니다.
디렉터리에 관한 설명을 하면 너무 길어지니 요구 모델 파일들에 대해서만 설명드리겠습니다.

- final.mdl = exp/chain_rvb/tdnn1n_rvb_online/final.mdl
- conf/mfcc.conf = exp/chain_rvb/tdnn1n_rvb_online/conf/mfcc.conf (model.conf와 pitch.conf는 zeroth 기본 레시피에 없기 때문에 생략)
- ivector/* = exp/chain_rvb/tdnn1n_rvb_online/ivector_extractor/* 
- graph/* = exp/chain_rvb/tree_a/graph_tgsmall/*
- rescore/G.carpa = data/lang_test_fglarge/G.carpa
- rescore/G.fst = data/lang_test_tgsmall/G.fst
- rnnlm은 zeroth 기본 레시피에 없기 때문에 생략

graph/HCLr.fst와 graph/Gr.fst도 zeroth 기본 레시피에 없습니다. 

잘 이해가 안 가시면 local/export.sh 파일을 참고하시면 됩니다.
해당 파일은 kaldi gstreamer server에 사용할 수 있도록 필요한 모델 파일들을 export합니다. 유사한 부분이 많아 도움이 될 것입니다.
2021년 8월 4일 수요일 오후 11시 7분 46초 UTC+9에 orig...@gmail.com님이 작성:
Reply all
Reply to author
Forward
0 new messages