kspon 학습시키는 부분 질문입니다.

장언일(WX)

unread,

Oct 28, 2019, 5:23:07 AM10/28/19

to zeroth-help

안녕하세요. zeroth및 help포럼 도움받아 설치,학습 gstreamer 테스트까지 완료했습니다. 감사합니다.

인식률이 좋지 않아 이제부터 시작이구나 해서 전투력 상승중에 있습니다.

우선 kspon 데이터를 추가 학습시키는 방법부터 해보려고 합니다.

기존 음성데이터의 차이를 보니 kspon은 wav파일+txt파일 한쌍, zeroth는 falc파일+ 해당폴더 txt파일하나에 전부

이 차이더라구요.

그래서 다음과 같은 과정을 거치려고 합니다.

1. 자동 컨버터를 만들어서 zeroth에 맞는형태를 구축한다. ( ffmpeg로 wav -> flac 자동변환 , 하나의 txt파일로 뽑는 기능 )

2. zeroth_korean.tar.gz 파일로 다시 합친다.

3. 학습시킨다.

질문입니다.

1. zeroth_korean.tar.gz 풀면 나오는 저 파일들중 AUDIO_INFO정도는 자동생성을 할순 있을거 같은데 나머지 파일들 무시하고 학습 진행해도 괜찮을까요?(AUDIO_INFO도 맞춰줘야 하나요?)

2. 위 2번 zeroth_korean.tar.gz 파일로 굳이 merge 안하고 kspon데이터만 묶은압축 파일로 추가해도 되는지. -> 추후 추가되는 음성데이터 확장성.

3. zeroth데이터 학습후 kspon데이터 학습을 추가로 하는 방법이 있을까요? ->이 부분은 죄송합니다. 충분히 더 파보고 물어봐야 하는데 당장 11월말까지 동작해야 하는 작업을 혼자 하고 있습니다. ㅠ.ㅠ

이상입니다.

Lucas Jo

unread,

Nov 4, 2019, 4:08:44 AM11/4/19

to zeroth-help

1,2

kspon 데이터를 활용하시려면 해당 데이터가 data/ 드렉토리 및 에 kaldi 데이터 형태로 들어오면 됩니다.

이 부분은 https://kaldi-asr.org/doc/data_prep.html 을 읽어보시고 기존 제로스에서 이 문서에 있는 내용을 어떻게 구현했는지 확인하면 충분히

확장하실 수 있습니다. 이미 올라온 PR (https://github.com/goodatlas/zeroth/pull/13) 환경을 테스트 해보실 수도 있습니다.

3.

이 부분은 사실 시간이 날때 kspon 데이터로 제가 full script 를 짜서 업데이트를 하려했으나 ... 현재로서는 시간이 나지 않습니다.

1,2 부분을 진행하시면서 내용을 이해하시면 기존 스크립트를 수정해서 데이터만 추가해서 학습하셔도 가능합니다.

시간이 좀 여유로울 때 업데이트는 하겠다고 약속드립니다.

2019년 10월 28일 월요일 오후 6시 23분 7초 UTC+9, 장언일(WX) 님의 말:

장언일(WX)

unread,

Nov 5, 2019, 10:15:17 PM11/5/19

to zeroth-help

답변 너무너무 감사합니다.

그동안 1,2번에 해당되는 현재 스크립트 분석해서 확인해보는 노가다중이였습니다.

2번 파일의 압축으로묶는건 필요없겠더라구요. 어차피 speechDATA 폴더에 압축푼뒤에 데이터를 스크립트에서 읽는 방식이라...

그래서 speechDATA/AUDIO_INFO 파일내용을 수정하고 실제 폴더안의 wav파일과 텍스트의 규격을 맞추면 얼추되지 않을까해서 최소데이터로 변경해서 학습시켜보고있습니다.

train 2개폴더, test 2개폴더로 해보고 있는데 s5/data폴더에 local 폴더를 제외하고 다지우고 run_openslr.sh 를 실행해야 되더라구요. (기존학습된게(원래수량) 남아있어서 그런지 수가 안맞는다고 중간에 exit 되더군요.)

또 run_openslr.sh 의 nCPU수를 2개미만으로 변경했습니다. 폴더수가 최소한 cpu수보다 작으면 중간에 또 exit되더군요.

이거말고도 nj값이 수가 많거나 할때 exit되는게 꽤 많습니다. 수동으로 바꿔주고 있습니다.ㅎ

잘 안되면 처음부터 다시해서 speechDATA/AUDIO_INFO 파일 변경해서 해보려고 합니다.

제가하는 작업은 음성인식 명령솔루션을 구축하는거라 특정 단어의 인식 정확도가 높아야 하는 작업입니다.

그래서 최소데이터 학습이 성공되면 custum 음성파일들 추가해서 해당 부분 인식이 좋아지면 인식해야 할 단어구문을 집중적으로 학습시켜보려고 합니다.

이게 잘 되고나면 kspon데이터를 추가로 학습시켜볼 예정입니다.

수고하세요.

2019년 11월 4일 월요일 오후 6시 8분 44초 UTC+9, Lucas Jo 님의 말:

익명

unread,

Oct 26, 2021, 10:28:19 PM10/26/21

to zeroth-help

혹시 학습이 되셨다면 방법좀 알 수 있을까요?

2019년 11월 6일 수요일 오후 12시 15분 17초 UTC+9에 od...@wemade.com님이 작성:

Reply all

Reply to author

Forward