subset_data_dir.sh 에러

BK Kim

unread,

Nov 1, 2021, 4:04:55 AM11/1/21

to zeroth-help

안녕하세요

음성인식을 공부하려는 개발자 입니다.

거의 막바지 다됬다고 생각했는데 또 고치기 어려운 에러가 나왔습니다

utils/subset_data_dir.sh: cannot subset to more utterances than you originally had.

마지막에 이런 메시지를 찍고 멈추었는데요. 위에 메시지들까지 읽어 보면

먼가 다운받은 데이터에 빠진게 있는거 같은데 이런 에러 보신분 계신가요?

그리고 이부분이 마지막 run_tdnn_1n.sh 실행부분으로 보이는데

이런 에러가 났을때 run_openslr 로 처음부터 돌려야 할까요?

fix_data_dir.sh: kept all 44526 utterances.

fix_data_dir.sh: old files are kept in data/train_clean_rvb1/.backup

utils/copy_data_dir.sh: copied data from data/train_clean_rvb1 to data/train_clean_rvb1_hires

utils/validate_data_dir.sh: Successfully validated data-directory data/train_clean_rvb1_hires

utils/data/perturb_data_dir_volume.sh: added volume perturbation to the data in data/train_clean_rvb1_hires

steps/make_mfcc.sh --nj 20 --mfcc-config conf/mfcc_hires.conf --cmd run.pl --mem 2G data/train_clean_rvb1_hires exp/make_hires/train_clean_rvb1 mfcc_rvb

utils/validate_data_dir.sh: Successfully validated data-directory data/train_clean_rvb1_hires

steps/make_mfcc.sh: [info]: no segments file exists: assuming wav.scp indexed by utterance.

steps/make_mfcc.sh: Succeeded creating MFCC features for train_clean_rvb1_hires

steps/compute_cmvn_stats.sh data/train_clean_rvb1_hires exp/make_hires/train_clean_rvb1 mfcc_rvb

Succeeded creating CMVN stats for train_clean_rvb1_hires

local/multi_condition/copy_ali_dir.sh: copied alignments from exp/tri4b_ali_train_clean to exp/tri4b_ali_train_clean_temp_0

local/multi_condition/copy_ali_dir.sh: copied alignments from exp/tri4b_ali_train_clean to exp/tri4b_ali_train_clean_temp_1

steps/combine_ali_dirs.sh data/train_clean_rvb1 exp/tri4b_ali_train_clean_rvb exp/tri4b_ali_train_clean_temp_0 exp/tri4b_ali_train_clean_temp_1

steps/combine_ali_dirs.sh: warning: Alignment lattices (lat.*.gz) are not present in exp/tri4b_ali_train_clean_temp_0, not combining. Consider '--combine_lat false' to suppress this warning.

steps/combine_ali_dirs.sh: note: Temporary directory exp/tri4b_ali_train_clean_rvb/temp.CZOOBw will not be deleted in case of script failure, so you could exa mine it for troubleshooting.

steps/combine_ali_dirs.sh: Gathering alignments from each source directory.

steps/combine_ali_dirs.sh: Splitting combined alignments into 4 archives on speaker boundary.

steps/combine_ali_dirs.sh: Combined 44228 alignments for 44526 utterances. There were 298 utterances (1%) without alignments, and 0 alignments not matching an y utterance.

steps/combine_ali_dirs.sh: Stored combined alignments in exp/tri4b_ali_train_clean_rvb

utils/subset_data_dir.sh: cannot subset to more utterances than you originally had.

SH Lee

unread,

Nov 2, 2021, 2:19:10 AM11/2/21

to zeroth-help

local/nnet3/multi_condition/run_ivector_common.sh에서의 Data augmentation이 잘 안 이루어진 것 같습니다.

기본 레시피면 여기서 data augmentation이 적용되서 utterance 개수가 불어나서 subset_data_dir에서 subset하는 단위(아마 저기는 100000일 겁니다)보다 많아지게 됩니다.

이전 로그를 살펴보시거나 옵션 중에 빠진 것이 있는지 확인하셔야할 것 같습니다.

2021년 11월 1일 월요일 오후 5시 4분 55초 UTC+9에 eyek...@gmail.com님이 작성:

BK Kim

unread,

Nov 6, 2021, 6:42:35 AM11/6/21

to zeroth-help

안녕하세요

소스를 좀더 보니까

/s5/local/nnet3/multi_condition/run_ivector_common.sh 소스의 내용이 kaldi 에 기본으로 내장된 것과 git있는 것과

아래 부분이 다른데요. git에서 받은걸 컴파일 했을때 제거는 디렉토리중에 data/train_100k_hires 부분이 없더라고요.

제가 데이터를 잘못카피한건지 다 지우고 한번 다시 해보겠습니다.

utils/subset_data_dir.sh data/${trainset}_rvb${num_data_reps}_hires 100000 data/train_100k_hires
utils/subset_data_dir.sh data/${trainset}_rvb${num_data_reps}_hires 30000 data/train_30k_hires

2021년 11월 2일 화요일 오후 3시 19분 10초 UTC+9에 SH Lee님이 작성:

Reply all

Reply to author

Forward