코퍼스 학습에 대한 질문

429 views
Skip to first unread message

GUKBEOM LEE

unread,
Apr 10, 2017, 3:52:54 AM4/10/17
to 은전한닢 프로젝트
안녕하세요. 매번 답변 하시느라 수고가 많으십니다.

많은 도움 주셔서 늘 감사합니다

제가 이번에 코퍼스를 자체 학습해 보려고 합니다.

여기 게시판에 어떤분이 남기신 글인 https://groups.google.com/forum/?hl=ko#!topic/eunjeon/uw9NBaKS_lo 를  보니
mecab-ko-dic/seed/build.sh를 사용해 보라고 하시더라구요. 그런데 mecab-ko-dic 폴더를 보니 seed폴더가 없어서 코퍼스 자체 제작을 진행하지 못하고 있습니다
혹시 seed폴더가 있는 mecab-ko-dic/은 https://bitbucket.org/eunjeon/mecab-ko-dic/downloads/ 에서 다운로드 받는 것이 아닌가요?

제 질문은 여기까지입니다. 읽어주셔서 고맙습니다

유영호

unread,
Apr 13, 2017, 7:25:29 AM4/13/17
to 은전한닢 프로젝트
요즘 게을러져서.. 답변이 많이 늦어졌습니다.. ..

https://bitbucket.org/eunjeon/mecab-ko-dic git clone 하시면 seed 디렉토리가 있습니다.
말뭉치는 따로 받으셔서..  corpus 디렉토리에 넣어주시면 됩니다..

좋은 결과 있으면 공유부탁드립니다.

GUKBEOM LEE

unread,
Apr 13, 2017, 8:19:49 PM4/13/17
to 은전한닢 프로젝트
답변에 감사드립니다.. 
그동안 일에 진전이 없었는데 답변을 보고 희망이 생겼습니다.
진심으로 감사드립니다.
좋은 결과 있으면 글 남기겠습니다

GUKBEOM LEE

unread,
Apr 13, 2017, 8:41:42 PM4/13/17
to 은전한닢 프로젝트
코퍼스를 보니 이미 다 분석이 완료된 형태의 데이터가 코퍼스로 들어가는 거 같네요

다시 말해 다른 형태소 분석기를 이용해서 형태소 분석 결과를 얻고, 그 결과를 정제해서 코퍼스를 만드는 것이라고 이해해도 될 가요?

GUKBEOM LEE

unread,
Apr 14, 2017, 1:11:13 AM4/14/17
to 은전한닢 프로젝트
자체 제작한 NER데이터가 포함된 ner.csv파일을 seed폴더에 넣고 build.sh파일을 실행시키니 오류가 나오네요..
final폴더에 def파일과 csv파일이 없다는 오류인데
build.sh 파일을 열어보니 final폴더는 build.sh내부에서 생성하는 것 같더라구요. 기존에 존재하던 final폴더를 지우고 다시 생성하던데
없어서 오류나는 파일을 직접 final폴더에 넣고 다시 실행해 봐도 의미가 없던데..
원인을 모르겠습니다.
이에 대해 아시는 바 있으신지요

그리고 혹시 seed생성에 대한 글을 아신다면 소개해주시면 정말 감사하겠습니다

이하 오류메시지 입니다

------------------
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
BOS/EOS,\*,\* | ETM,\*,은 ->10000
grep: ../final/right-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/left-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
BOS/EOS,\*,\* | ETN,\*,\* ->10000
grep: ../final/right-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/left-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
BOS/EOS,\*,\* | JX,\*,은 ->10000
grep: ../final/right-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/left-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
BOS/EOS,\*,\* | JKG,\*,의 ->10000
grep: ../final/right-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/left-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
MM,\~공간명사,T | SN,\*,\* ->0
grep: ../final/right-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/left-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
NNBC,\*,F,대 | NNBC,\*,명 ->10000
connection cost change... 's/ 10000 $/ 10000 /g;s/ 10000 $/ 10000 /g;s/ 10000 $/ 10000 /g;s/ 10000 $/ 10000 /g;s/ 1500 $/ 1500 /g;s/ 10000 $/ 10000 /g;s/ 10000 $/ 10000 /g;s/ 10000 $/ 10000 /g;s/ 10000 $/ 10000 /g;s/ 0 $/ 0 /g;s/ 10000 $/ 10000 /g;'
./change_connection_cost.sh: 줄 88: ../final/matrix.def: 그런 파일이나 디렉터리가 없습니다
./build.sh: 줄 35: pushd: ../final: 그런 파일이나 디렉터리가 없습니다
./build.sh: 줄 36: ./configure: 그런 파일이나 디렉터리가 없습니다
make: *** 타겟이 지정되지 않았고 메이크파일이 없습니다.  멈춤.
./build.sh: 줄 37: popd: 비어있는 디렉터리 스택
------------------------------------------------------------------

유영호

unread,
Apr 14, 2017, 7:06:16 AM4/14/17
to 은전한닢 프로젝트
코퍼스(말뭉치)는 세종 말뭉치를 가지고 만들었습니다. 사람이 직접 형태소분석해 놓은 파일들이 필요합니다.
다른 형태소분석기가 형태소분석한 결과를 넣어도 되지만.. 정확도가 떨어진다면 그만큼 학습결과가 좋지 않겠죠.

build.sh 의 어느부분에서 에러가 난걸까요?
 train과정에서 난걸까요?
bash -x ./build.sh
로 보시면 어느 명령어에서 나오는지 보일것같은데...

GUKBEOM LEE

unread,
Apr 17, 2017, 12:40:28 AM4/17/17
to 은전한닢 프로젝트
네 말씀해 주신대로 bash -./build.sh 을  해 봤습니다
tokenizer.open(*param) 에서 오류가 나는데 원인을 잘 모르겠습니다. 
mecab-cost-train는 바이너리 파일이지요? 내부 작동 프로세스를 알 방법이 없는데..

그 아래에 이어지는 에러 메시지들은 final 폴더 생성문제 & final폴더 내부의 파일 생성문제 같습니다. (생성할 수 없음: 그런 파일이나 디렉터리가 없습니다)
퍼미션 문제인가 싶어서 seed디렉토리에 들어가 " chmod -R 777 . " 을 해도 같은 문제가 발생하네요
뭔가 짐작가시는 게 있으시다면 가르쳐주시면 정말 감사하겠습니다..


---------------------------------------------------------------------
reading ./VV.csv ... 7331
reading ./IC.csv ... 1306
reading ./ner_nonID.csv ... dictionary.cpp(330) [type == MECAB_USR_DIC] cost field should not be empty in sys/unk dic.
+ model_file=model
+ corpus_file=corpus/eunjeon_corpus.txt
++ grep -c '^processor' /proc/cpuinfo
+ cpu_count=4
+ /usr/local/libexec/mecab/mecab-cost-train -p 4 -c 1.0 corpus/eunjeon_corpus.txt model
learner.cpp(76) [tokenizer.open(*param)] cannot open tokenizer
+ cp pos-id.def ../final/.
cp: 일반 파일 '../final/.'을(를) 생성할 수 없음: 그런 파일이나 디렉터리가 없습니다
+ /usr/local/libexec/mecab/mecab-dict-gen -o ../final -m model
dictionary_generator.cpp(218) [dic.open(DCONF(SYS_DIC_FILE), "r")] 
+ rm -rf ../final.org
+ cp -R ../final ../final.org
cp: '../final'를 설명할 수 없음: 그런 파일이나 디렉터리가 없습니다
+ ./change_word_cost_ex.sh
ls: '../final/Person*.csv'에 접근할 수 없습니다: 그런 파일이나 디렉터리가 없습니다
ls: '../final/Place*.csv'에 접근할 수 없습니다: 그런 파일이나 디렉터리가 없습니다
ls: '../final/NNG.csv'에 접근할 수 없습니다: 그런 파일이나 디렉터리가 없습니다
+ ./change_word_cost.sh
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
grep: ../final/*.csv: 그런 파일이나 디렉터리가 없습니다
+ ./change_connection_cost.sh
cp: '../final/matrix.def'를 설명할 수 없음: 그런 파일이나 디렉터리가 없습니다
grep: ../final/right-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/left-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
JX,\*,T,는 | JKO,\*,을 ->10000
grep: ../final/right-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/left-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
JX,\*,T,은 | JKO,\*,을 ->10000
grep: ../final/right-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/left-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
JX,\*,T,은 | JX,\*,은 ->10000
grep: ../final/right-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/left-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
JKG,\*,F,의 | BOS/EOS,\*,\* ->10000
grep: ../final/right-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/left-id.def: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
grep: ../final/matrix.def.org: 그런 파일이나 디렉터리가 없습니다
SSC,\*,\* | NR,\*,\* ->1500
+ pushd ../final
./build.sh: 줄 35: pushd: ../final: 그런 파일이나 디렉터리가 없습니다
+ ./configure
./build.sh: 줄 36: ./configure: 그런 파일이나 디렉터리가 없습니다
+ make
make: *** 타겟이 지정되지 않았고 메이크파일이 없습니다.  멈춤.
+ popd
./build.sh: 줄 37: popd: 비어있는 디렉터리 스택
+ date
2017. 04. 17. (월) 10:28:03 KST
lkb@lkb-B85M-HD3-A:~/mecab-ko-dic/seed$ ./build.sh                                                                                  

----------------------------------------------------------------------------------------

GUKBEOM LEE

unread,
Apr 18, 2017, 12:55:00 AM4/18/17
to 은전한닢 프로젝트
자체해결했습니다. 도움주셔서 진심으로 감사드립니다..
Reply all
Reply to author
Forward
0 new messages