코퍼스 "추가" 학습 방법

196 views
Skip to first unread message

dry...@gmail.com

unread,
Apr 12, 2019, 2:03:58 AM4/12/19
to 은전한닢 프로젝트
Mecab을 커스터마이징 하는 방안에 대해서 여러가지로 시도해보는 중입니다.
(여기서 배포버전은 빗버킷 Downloads에 있는 압축파일을 말하고요)
  • A. Mecab-ko-dic 배포버전에 사용자사전 추가
  • B. Mecab-ko-dic 소스로 새로운 코퍼스를 학습시킨 버전 빌드
  • C. Mecab-ko-dic 배포버전에 새로운 코퍼스 "추가" 학습
크게 위 세가지를 시도해보고 있습니다. 
A는 스크립트만 적절히 활용하면 잘 되는 것 같아요.
B 역시 build.sh로 eunjeon_corpus.txt가 적용되는 것 확인했습니다.

C가 문제인데요.
앞축파일로 공개해놓은 Mecab-ko-dic은 세종코퍼스를 학습시킨 결과인 것으로 압니다.
이 결과에 추가로 다른 코퍼스를 학습시키는 경우도 가능한지 궁금합니다. 
build.sh를 똑같이 사용해도 기존 matrix나 cost 위에 추가로 적용되는 걸까요? 아니면 새 코퍼스 기준으로 리셋되는걸까요?
Reply all
Reply to author
Forward
0 new messages