mecab-ko-dic은 간단하게 mecab 엔진에서 사용할 수 있는,
사전 + 형태소 분석을 위한 통계 데이터를 가지고 있다고 생각하시면 됩니다.
위의 결과물은 학습에 의해서 나오게 되는데요. 이때 사용하는 것이 세종 말뭉치이며 이에 관한 자료는 라이센스 문제로 배포를 하지 않습니다.
위의 링크에서 mecab-ko-dic 배포 파일을 받으실 수 있고, tar.gz를 해제하시면 다음과 같은 파일을 볼 수 있습니다.
bibreen@sagan:~/git/mecab-ko-dic/mecab-ko-dic-1.6.0-20140514-alpha$ ls
AUTHORS INSTALL NP.csv VV.csv dicrc
COPYING Inflect.csv NR.csv VX.csv feature.def
ChangeLog J.csv NorthKorea.csv Wikipedia.csv install-sh
CoinedWord.csv MAG.csv Person-actor.csv XPN.csv left-id.def
EC.csv MAJ.csv Person.csv XR.csv matrix.def
EF.csv MM.csv Place-address.csv XSA.csv missing
EP.csv Makefile.am Place.csv XSN.csv model.def
ETM.csv Makefile.in Preanalysis.csv XSV.csv pos-id.def
ETN.csv NEWS README autogen.sh rewrite.def
Foreign.csv NNB.csv Symbol.csv char.def right-id.def
Group.csv NNBC.csv VA.csv clean tools
Hanja.csv NNG.csv VCN.csv configure unk.def
IC.csv NNP.csv VCP.csv configure.ac
위의 파일을 보시면 XX.csv 로 된 파일들이 모두 사전 파일이고 나머지는 설정이나 통계 데이터라고 보시면 됩니다.
mecab에 대한 내용을 더 알고 싶으시면 mecab 홈페이지를 참조하시거나.
(일본어 입니다. 크롬을 사용하여 일어 번역을 해서 보시면 좋습니다.)
다음의 문서를 참조해주시기 바랍니다.
저희 프로젝트에 관심 가져주셔서 매우 감사합니다. :)