kaldi-zeroth의 WER, CER 평가

930 views
Skip to first unread message

chao.bu...@gmail.com

unread,
Jun 24, 2020, 11:32:30 AM6/24/20
to zeroth-help
안녕하십니까?


kaldi-zeroth의 WER, CER, PER등을 어떻게 평가 할수 있습니까?
최근에 이런 기사를 봤는데요...여기에서 kaldi-zeroth는 어느 항목에 해당되는건지....
그리고 여기에 있는 자료들에 대한 분석을 듣었으면 합니다.

날이 갈수록 이 마당이 정말 훌륭한 마당이라는것을 절실히 느끼게 되고 여기의
모든 분들과 함께 할수 있어서 긍지스럽게 생각합니다.

jeng...@gmail.com

unread,
Jun 24, 2020, 8:15:06 PM6/24/20
to zeroth-help
kaldi는 wer 및 cer 평가 할 수있게 쉘 스크립트가 존재합니다.

zeroth  음향모델 생성 거의 마지막 단계에 보면 test_online_decoding 부분에서

true로 설정하고 학습시키면,,, 테스트 셋에 대한 wer 결과를 자동으로 보여주고요.


확인 하시면 되겠습니다.(테스트 셋 결과를 자동으로 wer처럼 보여주는것은 조금 수정하면 되지 않을까 싶습니다.)

맞고 틀리고, 대체된거라고 판단하는 프로그램은 간단치 않더라도,

단순 wer/cer 측정 공식은 의외로 굉장히 간단합니다. 인터넷 잠깐만 찾아도 나오고. 여기 사이트에서 정확도라고 검색해도 자료가 나올것 같네요..

per은 저로서는 처음 듣는 단어네요 ㅠㅠ(정확도 측정하는게 많네요. ser도 있던데...)

2020년 6월 25일 목요일 오전 12시 32분 30초 UTC+9에 chao.bu...@gmail.com님이 작성:

Lucas Jo

unread,
Jun 25, 2020, 9:50:57 AM6/25/20
to zeroth-help
word error rate, character error rate, phone error rate  모두 기본적으로 edit distance 를 구하는 작업입니다.

reference (정답지)가 hypothesis (디코딩결과) 와 얼마나 다른지를 몇 번의 edit 통해 수정해서 정답지로 바꿀 수 있는지를 구하는 것이고

수정에는 삽입(insertion)/삭제(deletion)/치환(substitution) 이 얼마나 들어가는 지 입니다. 검색해보시면 많은 자료가 나올 것이고요

한국어는 보통 CER 을 기준 성능으로 봅니다. 다만 상용에서는 결국 띄어쓰기도 얼마나 정확하게 맞추는지를 보기 때문에 WER 도 보는 편이고요.

PER은 특별한 발음 교정과 같은 목적을 위해서는 지표로 활용될 수 있습니다.

관련 칼디 스크립트는 이미 정인수 님이 말씀하신 곳들에서 찾으시면 됩니다.


2020년 6월 25일 목요일 오전 12시 32분 30초 UTC+9, chao.bu...@gmail.com 님의 말:
Reply all
Reply to author
Forward
0 new messages