기존 사전에 등록되어 있는(또는 학습되어 있는) 내역을 열어서 볼 수 있는지요?

nina

unread,

May 14, 2014, 3:13:46 AM5/14/14

to eun...@googlegroups.com

제목 그대로 입니다..

기존에 학습되어 있는 내역을 열어서 볼 수 있는지요?

Yong-woon Lee

unread,

May 14, 2014, 3:33:56 AM5/14/14

to eun...@googlegroups.com

'학습되어 있는 내역'이 무엇을 뜻하는지 모르겠습니다.

각 단어에 대한 정보라면, 배포된 사전의 모든 csv 파일을 보시면됩니다.

사전의 형식은 아래의 문서에서 사전 형식 sheet에서 확인하실 수 있습니다.

nina

unread,

May 14, 2014, 4:36:45 AM5/14/14

to eun...@googlegroups.com

- meCab-ko-dic 는 세종 뭉치말을 이용하여 만들어진 학습 데이터로 이해를 하고 있습니다.

- 학습 데이터는 사전데이터라고 이해를 하고 있고요,

- 누구든 임의로 추가할 수 있는 사전데이터 만드는 방법을 보니, csv 형태이던데요..

세종 뭉치말을 이용하여 만들어져 현재 제공되는 meCab-ko-dic의 데이터의 원형인 csv파일을 확인할 수 있는지요?

이게 제대로 이해된건지도 잘 몰라서;;;

Yong-woon Lee

unread,

May 14, 2014, 5:54:33 AM5/14/14

to eun...@googlegroups.com

mecab-ko-dic은 간단하게 mecab 엔진에서 사용할 수 있는, 사전 + 형태소 분석을 위한 통계 데이터를 가지고 있다고 생각하시면 됩니다.

위의 결과물은 학습에 의해서 나오게 되는데요. 이때 사용하는 것이 세종 말뭉치이며 이에 관한 자료는 라이센스 문제로 배포를 하지 않습니다.

https://bitbucket.org/eunjeon/mecab-ko-dic/downloads

위의 링크에서 mecab-ko-dic 배포 파일을 받으실 수 있고, tar.gz를 해제하시면 다음과 같은 파일을 볼 수 있습니다.

bibreen@sagan:~/git/mecab-ko-dic/mecab-ko-dic-1.6.0-20140514-alpha$ ls
AUTHORS         INSTALL      NP.csv             VV.csv         dicrc
COPYING         Inflect.csv  NR.csv             VX.csv         feature.def
ChangeLog       J.csv        NorthKorea.csv     Wikipedia.csv  install-sh
CoinedWord.csv  MAG.csv      Person-actor.csv   XPN.csv        left-id.def
EC.csv          MAJ.csv      Person.csv         XR.csv         matrix.def
EF.csv          MM.csv       Place-address.csv  XSA.csv        missing
EP.csv          Makefile.am  Place.csv          XSN.csv        model.def
ETM.csv         Makefile.in  Preanalysis.csv    XSV.csv        pos-id.def
ETN.csv         NEWS         README             autogen.sh     rewrite.def
Foreign.csv     NNB.csv      Symbol.csv         char.def       right-id.def
Group.csv       NNBC.csv     VA.csv             clean          tools
Hanja.csv       NNG.csv      VCN.csv            configure      unk.def
IC.csv          NNP.csv      VCP.csv            configure.ac

위의 파일을 보시면 XX.csv 로 된 파일들이 모두 사전 파일이고 나머지는 설정이나 통계 데이터라고 보시면 됩니다.

mecab에 대한 내용을 더 알고 싶으시면 mecab 홈페이지를 참조하시거나.

http://mecab.googlecode.com/svn/trunk/mecab/doc/index.html

(일본어 입니다. 크롬을 사용하여 일어 번역을 해서 보시면 좋습니다.)

다음의 문서를 참조해주시기 바랍니다.

https://docs.google.com/presentation/d/1qhuhi7A-4XF0X4DVJrSIjKbtMYO9Fh09czpL0mheGjg/edit?usp=sharing

저희 프로젝트에 관심 가져주셔서 매우 감사합니다. :)

유영호

unread,

May 14, 2014, 6:22:45 AM5/14/14

to eun...@googlegroups.com

구체적으로 설명해주셨는데, 혹시나 하는 마음으로 추가 설명 드리면,

학습을 통해 단어 자체의 비용과 형태소와 형태소 간의 연접비용 이 만들어진다고 이해하시면 됩니다.

단어 자체의 비용은 *.csv 파일을 보시면 됩니다.

가격,1093,1932,-815,NNG,.....

위와 같은 형태이고 "가격"이라는 단어의 비용은 -815입니다.

두번째, 세번째 필드의 1093과 1932는 NNG라는 형태소의 왼쪽ID와 오른쪽ID입니다.

그리고 형태소간 연접비용을 보시려면 matrix.def 파일을 보시면 됩니다.

...
2673 1417 2544
...

위와 같은 형태로 되어 있고 2673번 형태소와 1417번 형태소의 연접비용은 2544입니다.

원하는 대답인지 잘 모르겠네요.

조금 더 자세한 내용은 위에 Yong-woon Lee 님께서 공유해 드린.

https://docs.google.com/presentation/d/1qhuhi7A-4XF0X4DVJrSIjKbtMYO9Fh09czpL0mheGjg/edit?usp=sharing

문서를 참고 하세요.

애매한 부분은 부담없이 질문해주세요.

감사합니다.

Reply all

Reply to author

Forward