안녕하세요
음성 인식 관련 서치 중에 칼디 및 제로스를 알게 되었습니다.
몇가지 궁금한 것이 있습니다.
1. zeorth(or kaldi)에서 input data에 대해 알고 싶습니다.
aucostic model 을 훈련시키기 위해 결국 샘플링된 20ms 단위 음성 데이터가 입력으로 들어가고(ex input node 320)
Label으로는 그에 맞는 발음(phone)이 될것 같습니다.
주어진 data로는 크게 audio data와 그에 맞는 transcript가 있을 것 같은데요.
정확하게 음성파일의 특정 부분(20ms)에 해당되는 transcript 및 그에 맞는 발음기호를 찾는게 중요할 것 같습니다.
data/train 안에 보면 몇가지 파일등이 있는데요.(text, segments, wavscp, utt2spk, spk2utt)
-> 위 파일 및 주어진 스크립트 파일을 이용하여 20ms 음성 및 발음을 만드는 것인지요?
-> audio 및 transcript파일이 있다면 추가적으로 훈련데이타로 이용할수 있는지 궁금합니다.
audio 및 transcript파일만 가지고 input data 및 label 데이터를 만들 수 있는지요?
2. zeroth을 가지고 모델을 만들었을 시 라이센스 정책이 어떻게 되는지 궁금합니다.
3. 현재까지 수집된 음성 데이터가 몇시간 정도인지요?
4. zeroth를 및 현재 제공되는 데이터(약 100시간)를 이용하면 한국어 인식 성능이 어느 정도 되는지 궁금합니다.
혹시 training 된 모델 등이 있는지 궁금합니다.
감사합니다.