zeroth 관련 문의드립니다

299 views
Skip to first unread message

beomg...@gmail.com

unread,
Jun 24, 2019, 10:08:54 PM6/24/19
to zeroth-help

안녕하세요
음성 인식 관련 서치 중에 칼디 및 제로스를 알게 되었습니다.
몇가지 궁금한 것이 있습니다.

1. zeorth(or kaldi)에서 input data에 대해 알고 싶습니다.
    aucostic model 을 훈련시키기 위해 결국 샘플링된 20ms 단위 음성 데이터가 입력으로 들어가고(ex input node 320)
    Label으로는 그에 맞는 발음(phone)이 될것 같습니다.
    주어진 data로는 크게 audio data와 그에 맞는 transcript가 있을 것 같은데요.
    정확하게 음성파일의 특정 부분(20ms)에 해당되는 transcript 및 그에 맞는 발음기호를 찾는게 중요할 것 같습니다.
    data/train 안에 보면 몇가지 파일등이 있는데요.(text, segments, wavscp, utt2spk, spk2utt)
    -> 위 파일 및 주어진 스크립트 파일을 이용하여 20ms 음성 및 발음을 만드는 것인지요?

    -> audio 및 transcript파일이 있다면 추가적으로 훈련데이타로 이용할수 있는지 궁금합니다.
        audio 및 transcript파일만 가지고 input data 및 label 데이터를 만들 수 있는지요?


2. zeroth을 가지고 모델을 만들었을 시 라이센스 정책이 어떻게 되는지 궁금합니다.

3. 현재까지 수집된 음성 데이터가 몇시간 정도인지요?

4. zeroth를 및 현재 제공되는 데이터(약 100시간)를 이용하면 한국어 인식 성능이 어느 정도 되는지 궁금합니다.
혹시 training 된 모델 등이 있는지 궁금합니다.

감사합니다.

Lucas Jo

unread,
Jun 25, 2019, 2:50:19 AM6/25/19
to zeroth-help
1. zeorth(or kaldi)에서 input data에 대해 알고 싶습니다.
    aucostic model 을 훈련시키기 위해 결국 샘플링된 20ms 단위 음성 데이터가 입력으로 들어가고(ex input node 320)
    Label으로는 그에 맞는 발음(phone)이 될것 같습니다.
    주어진 data로는 크게 audio data와 그에 맞는 transcript가 있을 것 같은데요.
    정확하게 음성파일의 특정 부분(20ms)에 해당되는 transcript 및 그에 맞는 발음기호를 찾는게 중요할 것 같습니다.
    data/train 안에 보면 몇가지 파일등이 있는데요.(text, segments, wavscp, utt2spk, spk2utt)
    -> 위 파일 및 주어진 스크립트 파일을 이용하여 20ms 음성 및 발음을 만드는 것인지요?

    -> audio 및 transcript파일이 있다면 추가적으로 훈련데이타로 이용할수 있는지 궁금합니다.
        audio 및 transcript파일만 가지고 input data 및 label 데이터를 만들 수 있는지요?
   
text, segments, wavscp, utt2spk, spk2utt 와 같은 파일들은 준비된 audio 와 transcript 를 칼디에서 사용하도록 
준비하는 과정에 만들어진 파일들일 뿐입니다. 칼디가 세부적인 내용은 https://kaldi-asr.org/doc/data_prep.html 에서 확인하시기 바랍니다. 
20ms 는 MFCC라는 feature 를 뽑는데 사용되는 analysis window 크기입니다. 
칼디에서 사용하는 음성인식 학습데이터는 MFCC 이며 100Hz (초당 100개) 속도로 만들어지는 vector 값입니다.


2. zeroth을 가지고 모델을 만들었을 시 라이센스 정책이 어떻게 되는지 궁금합니다.
제로스에서 제공되는 데이터는 License: [CC BY 4.0] (https://creativecommons.org/licenses/by/4.0/) 을 따르며
제로스 오픈소스 코드드는 Apache 2.0 을 따릅니다.

3. 현재까지 수집된 음성 데이터가 몇시간 정도인지요?
http://www.openslr.org/40/ 에 공개된 오디오는 50시간 
모어코인을 통해 1시간 기부에 참여하시면 96시간 정도의 데이터를 받으실 수 있습니다.

4. zeroth를 및 현재 제공되는 데이터(약 100시간)를 이용하면 한국어 인식 성능이 어느 정도 되는지 궁금합니다.
혹시 training 된 모델 등이 있는지 궁금합니다.
상용화 수준으로 사용하시려면 더 많은 데이터가 필요합니다.
학습이 완료된 모델을 따로 배포하지는 않습니다.

beomg...@gmail.com

unread,
Jun 25, 2019, 11:30:53 PM6/25/19
to zeroth-help
안녕하세요.
빠른 답변 감사드립니다.

training data관련 문의드립니다.
zeroth_korean.tar.gz를 다운받아서 압축을 풀어보았는데요.

zeroth.lm.fg.arpa.gz
zeroth.lm.tg.arpa.gz
이런류의 파일이 의미하는 것이 무엇인가요??

그리고 실제 train data로 가보면 transcript와 오디오파일로 이루어져 있는데요.
transcript가 각각 아래와 같은 식으로 되어 있습니다.
오디오파일 id 문장 오디오파일id 문장

데이터 확보에 대해 고민중에 있는데요
상용 ASR을 사용하여 audio대한 transcript를 확보하고 이것을 training data로 써보는 것을 생각했습니다.
그런데 kaldi를 사용하려면 audio파일을 문장단위로 나누고 transcript도  "오디오id 문장" 식으로 바꿔주어야 되는 건가요??

감사합니다.

Lucas Jo

unread,
Jun 26, 2019, 12:40:02 AM6/26/19
to zeroth-help

zeroth.lm.fg.arpa.gz
zeroth.lm.tg.arpa.gz 
이런류의 파일이 의미하는 것이 무엇인가요??

해당 파일들은 n-gram 방식으로 만들어진 ARPA 언어모델 입니다.
언어모델과 발음사전 그리고 학습을 통해 얻어지는 음향모델이 있어야 디코딩이 가능합니다. 
차분히 코드를 읽어보시기를 추천합니다
  
그리고 실제 train data로 가보면 transcript와 오디오파일로 이루어져 있는데요.
transcript가 각각 아래와 같은 식으로 되어 있습니다.
오디오파일 id 문장 오디오파일id 문장

데이터 확보에 대해 고민중에 있는데요
상용 ASR을 사용하여 audio대한 transcript를 확보하고 이것을 training data로 써보는 것을 생각했습니다.
그런데 kaldi를 사용하려면 audio파일을 문장단위로 나누고 transcript도  "오디오id 문장" 식으로 바꿔주어야 되는 건가요??

칼디에서 데이터를 사용하는 방식은  https://kaldi-asr.org/doc/data_prep.html 에서 확인하시기 바랍니다.
Reply all
Reply to author
Forward
0 new messages