한글 사용자 사전 추가 후 우선순위 문의입니다.

519 views
Skip to first unread message

황인규

unread,
Jun 1, 2017, 7:47:12 AM6/1/17
to 은전한닢 프로젝트
elasticsearch에서 seunjeon plugin을 사용하고 있습니다.

'학생회관'이라는 단어를 사용자 사전에 추가해서 사용 중에 있는데 학생회관을 분석 시에 
학생 + 회관 으로 분석이 되고 있습니다.
elasticsearch 설정은 아래처럼 되어있습니다. 

{
  "eunjeon" : {
    "aliases" : { },
    "mappings" : { },
    "settings" : {
      "index" : {
        "creation_date" : "1496316675823",
        "analysis" : {
          "filter" : {
            "my_synonym" : {
              "type" : "synonym",
              "synonyms_path" : "analysis/synonym.txt"
            }
          },
          "analyzer" : {
            "korean" : {
              "filter" : [ "my_synonym" ],
              "type" : "custom",
              "tokenizer" : "seunjeon_default_tokenizer"
            }
          },
          "tokenizer" : {
            "seunjeon_default_tokenizer" : {
              "index_eojeol" : "false",
              "index_poses" : [ "N", "SL", "SH", "SN", "XR", "V", "UNK", "M" ],
              "pos_tagging" : "false",
              "user_dict_path" : "user-nnp.csv",
              "type" : "seunjeon_tokenizer"
            }
          }
        },
        "number_of_shards" : "5",
        "number_of_replicas" : "1",
        "uuid" : "9cy6HapTTSyA000G_hxxpg",
        "version" : {
          "created" : "2010199"
        }
      }
    },
    "warmers" : { }
  }
}

tools/mecab-bestn.sh으로 학생회관을 검색했을 때에는 

학생회관
학생회관	NNG,,1784,3537,2788,-1135,1653
EOS
학생회관	NNP,,1786,3541,3123,-2008,1115
EOS
학생	NNG,,1784,3537,1662,-1135,527
회관	NNG,,1784,3537,2734,196,3457
EOS
학생회	NNG,,1784,3536,1877,-1135,742
관	NNG,,1784,3537,4431,196,5369
EOS
학생회	NNG,,1784,3536,1877,-1135,742
관	JKB+JX,,282,1770,4702,-1175,4269
EOS
학생회	NNG,,1784,3536,1877,-1135,742
관	XSN,,2448,3678,5164,-236,5670
EOS
학생회	NNG,,1784,3536,1877,-1135,742
관	NNG+JX,,1784,1770,4490,196,5428
EOS
학	NNG,,1784,3537,5337,-1135,4202
생	XSN,,2548,3740,3070,-2289,4983
회관	NNG,,1784,3537,2734,-4260,3457
EOS
학생회	NNG,,1784,3536,1877,-1135,742
관	XR,,2424,3581,7120,515,8377
EOS
학생회	NNG,,1784,3536,1877,-1135,742
관	NNBC,,1101,3242,6825,773,8340
EOS

이렇게 결과가 나와 학생회관이 잘 나오는 것 같은데 elasticsearch로 analyze했을 때에는 학생 + 회관으로 나오고 있습니다ㅠㅠ
코스트를 낮춰서 해봤는데도 고쳐지지 않습니다. 사용자가 정의한 사전이 먼저 나오게 하려면 어떻게 해야 하나요..?

유영호

unread,
Jun 3, 2017, 6:19:51 AM6/3/17
to 은전한닢 프로젝트
비용을 낮추면 될것같기도 하고요.. 아니면...  decompound  옵션을 false로 해보시겠어요?

황인규

unread,
Jun 3, 2017, 9:06:47 AM6/3/17
to 은전한닢 프로젝트
비용을 낮춰서 해결했습니다! 답변 감사합니다ㅎㅎ

decompound 옵션은 어디서 줄 수 있죠..?
Reply all
Reply to author
Forward
0 new messages