elasticsearch에 은전한닢 붙여서 사용중인데 메모리가 조금씩 증가되고 다시 내려가지 않아서 문의드립니다.

995 views
Skip to first unread message

김호진

unread,
Feb 4, 2015, 12:07:47 AM2/4/15
to eun...@googlegroups.com
항상 말많고 탈많은 한글 ㅋㅋ 그런데 이렇게 훌륭한 형태소 분석기를 개발해주셔서 너무 감사합니다.
다른 형태소 분석기와 비교해서 은전한닢 품질이 훨씬 좋아 꼭 은전한닢 사용하고 싶어요.

그런데 메모리가 조금씩 올라가서 다시 내려오지 않는 이슈가 있어서 개발자분들깨 살짝쿵 문의드려봅니다.

데이타 건수 : 404422건

메모리 변화량

1회 : 1.2G  => 1.7G
2회 : 1.7G  => 2.0G
3회 : 2.0G  => 2.3G
4회 : 2.3G  => 2.7G
4회 : 2.7G  => 3.1G


사용하고 있는 mapping 정보입니다.(간랸하게 수정했어요)

{
    "settings" : {
                "index" : {
                        "analysis" : {
                                "analyzer" : {
"korean": {
"type" : "custom",
"tokenizer" : "mecab_ko_standard_tokenizer"
},
"default": {
"type": "standard"
}
                                }
                        }
                }
        },
        "mappings" : {
            "tvprogram" : {
                        "_analyzer" : {
                "path" : "language"
            },
                        "properties" : {
                                "id" : {"type" : "string", "index" : "not_analyzed", "store" : "no"},
                                "title" : {"type" : "string", "index" : "analyzed", "store" : "yes"},
                                "sub_title" : {"type" : "string", "index" : "analyzed", "store" : "yes"},
                                "summary" : {"type" : "string", "index" : "analyzed", "store" : "no"},
                                "thumbnail" : {"type" : "string", "index" : "no", "store" : "yes"},
"language" : {"type": "string", "store":"no", "index":"no"},
"start_time" : {"type" : "date", "index" : "not_analyzed", "store" : "yes"},
"end_time" : {"type" : "date", "index" : "not_analyzed", "store" : "yes"}
                        }
                }
        }
}


은전한닢을 잘못 사용하고 있는건지.. 혹시 저와 같은 현상으로 고민하고 있는 분들은 없으신지..
다른분들의 도움을 얻고자 질문게시판에 등록합니다.

많은 도움 부탁드립니다.

감사합니다.

유영호

unread,
Feb 5, 2015, 12:53:02 AM2/5/15
to eun...@googlegroups.com
bibreen님께서 수정해주신 rc버전 전달합니다.


설치해보시고 메모리 변화률 공유해주시면 좋겠습니다~

그리고, 색인은 어떤식으로 하는지도 알려주세요. (http 로 json을 날리는 것인지? river로 하는것인지? node clinet로 붙어서 하는 것인지?) 중간중간 특이한 사항이 있는지도 궁금해요~

김호진

unread,
Feb 5, 2015, 6:51:32 AM2/5/15
to eun...@googlegroups.com
빠른 확인 너무 감사드립니다.
수정해주신 rc버젼으로 확인을 하니 메모리 증가율이 확실히 감소하였습니다.

하지만 여전히 조금씩 증가하는 현상은 있네요.

메모리 변화률 공유해드립니다.


데이타 건수 : 385055건

메모리 변화량

1회 : 1.2G  => 1.3G
2회 : 1.3G  => 1.4G
3회 : 1.4G  => 1.5G
4회 : 1.5G  => 1.6G
4회 : 1.6G  => 1.7G


Yong-woon Lee

unread,
Feb 5, 2015, 7:21:16 AM2/5/15
to eun...@googlegroups.com
일단 눈에 보이는 부분은 다 잡았는데, mecab 내부에서 memory 사용량이 조금씩 증가하는 현상이 보이네요. 당장은 더 이상 메모리 사용량을 잡기는 쉽지 않을 것으로 생각됩니다.
일단 이번 버전으로 정식 릴리스 하겠습니다. 오류 보고 감사드립니다.

유영호

unread,
Feb 9, 2015, 7:14:11 AM2/9/15
to
mecab + swig + java 에서 메모리 릭이 발생했었습니다. swig 설정 수정해서 재배포 합니다.
일단 rc1 로 사용해주세요.  확인 결과 메모리 증가는 거의 없습니다. 
문제가 있다면 피드백 부탁드립니다.


감사합니다.

김호진

unread,
Feb 17, 2015, 8:59:36 PM2/17/15
to eun...@googlegroups.com
우선 모두들 즐거운 설 보내세요~
은전한닢 질답게시판 처음 사용해봤는데 확인 및 답변이 빨라서 너무 감동입니다.

rc1 확인 결과 메모리 증가는 거의 없습니다. 처음 두번째 실행까지만 메모리가 증가하고 그 이후에 변화는 미미합니다. 
메모리 문제 완벽히 해결된 것으로 보입니다.(테스트는 좀 더 진행하여 이슈있으면 다시 댓글 달겠습니다.)

또한 아리랑과 비교 결과 간단히 공유드리면
아리랑보다 은전한닢이 30%정도 속도가 빠르고 메모리 사용률도 낮은 것으로 보입니다.

은전한닢 초기버젼은 메모리가 증가하는데 비해 아리랑은 그런 현상은 없었으나,
은전한닢 rc1 버젼부터는 메모리 증가하는 현상도 완전히 없어진 것으로 보입니다.

테스트 환경에 따라 다르겠지만 제가 테스트한 수치가 궁금하시면 그것도 공유드리겠습니다.

감사합니다.

Tae Woo Kim

unread,
Feb 26, 2015, 8:00:04 PM2/26/15
to eun...@googlegroups.com
질문게시판에 링크 올려주신 메모리 문제를 해결한 RC버전은 
elasticsearch만 해당되는지 궁금합니다. solr 사용자도 반영 해 줘야 되나요?
solr도 해당 사항이 된다면 위에 올려주신 파일만 반영해도 되나요? ^^

유영호

unread,
Feb 26, 2015, 8:16:44 PM2/26/15
to eun...@googlegroups.com
solr는 정확히 확인이 안되었지만... (tokenizer 생명주기를 모르겠어서..)
시간나실 때 업데이트하시길.. 권합니다..

rc버전 말고 정식버전 릴리즈 하였습니다. 
간단히 설치를 원한다면 https://bitbucket.org/eunjeon/mecab-java/downloads/mecab-java-0.996.tar.gz 요놈만 새로 설치하면 됩니다.

Tae Woo Kim

unread,
Feb 27, 2015, 2:35:26 AM2/27/15
to eun...@googlegroups.com
궁금한게 있습니다!!. (solr 사용자)

설명해 주신데로 바로 개선 버전을 반영하려고 보니

은전한닢 사이트 메인에 정식 릴리즈 다운로드 링크를 보면 mecab-ko-lucene-analyzer-0.16.1.tar.gz 인데 일단 이 안에 jar만 반영하면 
개선 버전이 반영 되는건가요?

https://bitbucket.org/eunjeon/mecab-java/downloads/mecab-java-0.996.tar.gz  요것만 새로 설치하는 거랑 무슨 차이가 있나요?




유영호

unread,
Feb 27, 2015, 2:45:28 AM2/27/15
to eun...@googlegroups.com
MeCab.jar 가 교체되어야 하는거라..

mecab-ko-lucene-analyzer-0.16.1.tar.gz 에는 포함이 안되어 있네요..
(elasticsearch용 plugin에는 포함시켜서 배포하고 있어서..)

조금 헛깔릴수가 있었네요.. 암튼 MeCab.jar 만 교체해도 되겠습니다.

Tae Woo Kim

unread,
Feb 27, 2015, 2:46:53 AM2/27/15
to eun...@googlegroups.com
항상 빠른 답변 감사드립니다 ^^
Message has been deleted

장덕성

unread,
Jun 1, 2015, 1:24:06 AM6/1/15
to eun...@googlegroups.com
안녕하세요. Mecab을 이용하여 elasticsearch 엔진으로 색인을 하고 있습니다.

저도 메모리문제로 위 내용으로 적용을 해보려고 하는데 궁금한게 있어서 질문드립니다.

우선 설치 환경은 리눅스 레드헷 64비트, 메모리 32기가입니다.

설치는 아래와 같이 하였습니다.
1. mecab-0.996-ko-0.9.1 설치
2. mecab-ko-dic-1.6.1 설치
3. mecab-java-0.996 설치
4. ldconfig로 /usr/local/lib 확인.
5. elasticsearch 설치
6. elastic용 plugin 설치

위 상태에서 테스트를 하다 메모리 수정부분으로 적용하려고 합니다.

3번 make all에서 생성되는 libMecab.so, Mecab.jar를 새로이 적용하라고 하시는 것 같은데 Mecab.jar는 따로 copy한것 같지 않아서요.
아니면, 6번 부분을 새로운 rc로 적용하면 되는 것인지 궁금해서입니다.

품질이 좋아서 꼭 적용하고 싶습니다.

감사합니다.

장덕성

unread,
Jun 1, 2015, 2:14:10 AM6/1/15
to eun...@googlegroups.com
중요한게 빠졌습니다.
elasticsearch 0.90.13, jdk1.6.0_35를 사용하고 있습니다.
여기 환경(jboss 버전영향으로)이 별로라서 아직 최신버전 반영을 하지 못하고 있습니다.

2015년 6월 1일 월요일 오후 2시 24분 6초 UTC+9, 장덕성 님의 말:

Yong-woon Lee

unread,
Jun 1, 2015, 3:15:40 AM6/1/15
to eun...@googlegroups.com
안녕하세요. 은전한닢 프로젝트에 관심가져 주셔서 감사합니다.

3번에서 libMecab.so를 새로 적용하시고, elasticsearch-analysis-mecab-ko-0.16.3 플러그인을 새로 설치하시면 됩니다.

감사합니다.

장덕성

unread,
Jun 3, 2015, 10:23:20 PM6/3/15
to eun...@googlegroups.com
elasticsearch-analysis-mecab-ko-0.16.3 플러그인을 설치하면 jdk버전 문제가 발생하네요.

소스를 내려받아서 tagger, lexicon부분을 수정해서 재빌드하였습니다. (jdk1.6.0_35, lucene 4.6.0, elasticsearch 0.90.13 환경에서)

그래서 지금 다시 테스트 중에 있습니다.

추출된 텍스트 크기만 100MB가 넘는 파일이 많아 시간이 좀 걸리네요.

답변 감사드립니다.
Reply all
Reply to author
Forward
0 new messages