상세한 설명 감사합니다.
보다 확실한 이해를 위해서는 조금 더 해봐야 알 것 같습니다..
현재 morfessorUpdate를 false로 한 상태로 data/local/lm/run_task.sh를 진행하여 생성된 파일이
corpus.lm.(tg, fg, tgmed, tgsmall).arpa.gz 파일이 buildLM/_corpus_task_ 폴더에 위치해있습니다.
이 상태에서 bulidLM/_corpus_ 폴더에 zeroth.lm.(tg, fg, tgmed, tgsmall).arpa.gz 파일을 위치시켜 놓고
data/local/lm/rum_merge.sh 스크립트에서 general_domain_lm 변수를 _corpus_폴더에 위치한
zeroth.lm.tg.arpa.gz 및 zeroth.lm.fg.arpa.gz를 가리키게 변경한 후 run_merge.sh 스크립트를 실행시켜서
data/local/lm/buildLM 폴더에 mixed_~~~.lm.(tg, fg, tgsmall, tgmed).arpa.gz 파일을 얻어냈습니다.
1. 해당 파일들을 모델에 적용하려면 data/local/lm 폴더에 위치한 zeroth.lm.(tg, fg, tgmed, tgsmall).arpa.gz 파일들을 mixed 파일로 대체해주면 되는 것인가요?
zeroth_lexicon 및 zeroth_morfessor.seg 파일은 그대로 사용해도 문제가 없는지 궁금합니다.
또 추가적으로 생긴 의문이 du -sh 명령어로 확인한 파일들의 용량이
zeroth.lm.fg.arpa.gz 은 4.2G
zeroth.lm.tg.arpa.gz 은 2.7G
zeroth.lm.tgmed.arpa.gz 은 64M
zeroth.lm.tgsmall.arpa.gz은 25M 입니다.
하지만 새로 추가된 파일은
mixed_~~~.lm.tg.arpa.gz 2.7G
mixed_~~~.lm.fg.arpa.gz 2.6G
mixed_~~~.lm.tgmed.arpa.gz 21M
mixed_~~~.lm.tgsmall.arpa.gz 14M 입니다.
2. 크롤링해서 구한 텍스트 파일의 크기가 59M 정도인데, 용량이 작아서 크게 변화가 없다고 한들
fg.arpa.gz 파일의 용량이 감소한 것은 이해가 가질 않습니다.
혹시 도움이 되실까 싶어서 실행했던 로그를 남겨봅니다!
항상 감사합니다.
다음은 data/local/lm/run_task.sh를 실행한 결과입니다.
중간에 buildLM/_scripts/buildLexcion.sh 에서 오류가 한 번 발생했었습니다.
다음은 data/local/lm/rum_merge.sh 를 실행한 결과입니다.
2021년 10월 18일 월요일 오전 10시 59분 53초 UTC+9에 이승현님이 작성: