엘라스틱서치 2.0 적용시 user_words 를 파일로 생성하여 지정할 수 있나요?

338 views
Skip to first unread message

이윤희

unread,
Jan 13, 2016, 2:34:26 AM1/13/16
to 은전한닢 프로젝트
안녕하세요.
elasticsearch-analysis-seunjeon 2.1.0.0 설치가 너무 편합니다. ^^

사용법을 보던 중 궁금한 것이 있어서요.
사용자 사전을 아래와 같이 입력하는 방법 말고 파일로 저장하여 불러올 수 있는지요?
"user_words": ["낄끼빠빠,-100", "버카충"]

감사합니다.

유영호

unread,
Jan 13, 2016, 2:47:01 AM1/13/16
to 은전한닢 프로젝트
파일로 하는 것도 지원을 해야할까 고민을 했었는데요, 그렇게되면 elasticsearch 가 클러스터로 이루어져있을때,  사전 파일을 클러스터 노드마다 배포관리해야할것같고.. 노드마다 사전이 다르면 어떻게 되려나.. 등등... 
stop token filter 도 파일 지원은 따로 하지 않고 있어서 비슷한 수준에서 구현했습니다.
고민은 더 필요할 것 같구요.. 방금 찾아본건데 일본어형태소분석기 에서는 파일로 로딩을 하긴하는군요..
깔끔하게 구현/관리가 될지 고민이 필요해보이네요.

혹시 추가할 사용자 사전에 건수가 많은가요? user_words에 넣는게 조금 무식하게 보일려나요? ㅎ

이윤희

unread,
Jan 13, 2016, 5:44:22 AM1/13/16
to 은전한닢 프로젝트
제가 말씀하신 부분까지는 생각을 못했네요 ^^;;;
아직 정리를 못해서 정확하지는 않지만 운영하다보니 많아질 듯 해서요~
다른 방법도 있는지 고민해보겠습니다.

감사합니다~ 파이팅하세요~!!

유영호

unread,
Jan 13, 2016, 6:43:20 AM1/13/16
to 은전한닢 프로젝트
analysis-synonym-tokenfilter 처럼 파일 path를 지정할 수 있게 하면 좋을 것 같네요.

시간 나는대로 적용해볼게요. 언제가 될지는 잘 모르겠습니다 ^^;

의견 감사합니다!!

이윤희

unread,
Jan 13, 2016, 6:57:48 AM1/13/16
to 은전한닢 프로젝트
^^ 네.. 감사합니다~
건강도 챙기시면서 하세요.

유영호

unread,
Jan 18, 2016, 7:41:08 PM1/18/16
to 은전한닢 프로젝트
파일에서 로딩할 수 있게 기능 추가해서 배포했습니다. 즐ES되세요~ ㅎ

이윤희

unread,
Jan 18, 2016, 9:00:45 PM1/18/16
to 은전한닢 프로젝트
이렇게 빠르게 적용을 해 주시다니 감사드립니다. ^^
유용하게 사용하겠습니다~

하나 더 문의를 드립니다.
현재 synonym 필터도 적용이 되는지요?
테스트로

"아버지, 아빠"
"홍길동, 이윤희=>이윤희"

형태로 구성해서 필터에 적용을 해봤는데요. "아빠" 나 "홍길동" 으로 검색 했을 때 "아버지" 나 "이윤희" 가 검색결과에 포함이 되지 않아서요.
매번 부탁만 드려서 죄송합니다. ^^;;;

유영호

unread,
Jan 18, 2016, 9:08:22 PM1/18/16
to 은전한닢 프로젝트
질문 환영합니다~

여기 에 설명하긴 했는데요, 토큰을 "아버지/N" 와 같은 식으로 뽑고 있어서, sysnonym 사전과 매칭이 안되서 그렇습니다.  "pos_tagging": false 옵션을 사용해서 "아버지"로 토큰을 뽑으면 해결이 될것같습니다.
또는 synonym 사전을 "아버지/N, 아빠/N" 의 형태로 만들면 pos_tagging 옵션설정 없이 해결할 수도 있습니다. 장단이 있을 것 같으니 선택해서 사용하시면 될것같네요~

이윤희

unread,
Jan 18, 2016, 9:33:46 PM1/18/16
to 은전한닢 프로젝트
^^; 네.. 감사합니다.
제가 정리해주신 문서를 유심히 보지 못했습니다.
감사합니다~
Reply all
Reply to author
Forward
0 new messages