elasticsearch에서 seunjeon plugin을 사용하고 있습니다.
학생 + 회관 으로 분석이 되고 있습니다.
{
"eunjeon" : {
"aliases" : { },
"mappings" : { },
"settings" : {
"index" : {
"creation_date" : "1496316675823",
"analysis" : {
"filter" : {
"my_synonym" : {
"type" : "synonym",
"synonyms_path" : "analysis/synonym.txt"
}
},
"analyzer" : {
"korean" : {
"filter" : [ "my_synonym" ],
"type" : "custom",
"tokenizer" : "seunjeon_default_tokenizer"
}
},
"tokenizer" : {
"seunjeon_default_tokenizer" : {
"index_eojeol" : "false",
"index_poses" : [ "N", "SL", "SH", "SN", "XR", "V", "UNK", "M" ],
"pos_tagging" : "false",
"user_dict_path" : "user-nnp.csv",
"type" : "seunjeon_tokenizer"
}
}
},
"number_of_shards" : "5",
"number_of_replicas" : "1",
"uuid" : "9cy6HapTTSyA000G_hxxpg",
"version" : {
"created" : "2010199"
}
}
},
"warmers" : { }
}
}
tools/mecab-bestn.sh으로 학생회관을 검색했을 때에는
학생회관
학생회관 NNG,,1784,3537,2788,-1135,1653
EOS
학생회관 NNP,,1786,3541,3123,-2008,1115
EOS
학생 NNG,,1784,3537,1662,-1135,527
회관 NNG,,1784,3537,2734,196,3457
EOS
학생회 NNG,,1784,3536,1877,-1135,742
관 NNG,,1784,3537,4431,196,5369
EOS
학생회 NNG,,1784,3536,1877,-1135,742
관 JKB+JX,,282,1770,4702,-1175,4269
EOS
학생회 NNG,,1784,3536,1877,-1135,742
관 XSN,,2448,3678,5164,-236,5670
EOS
학생회 NNG,,1784,3536,1877,-1135,742
관 NNG+JX,,1784,1770,4490,196,5428
EOS
학 NNG,,1784,3537,5337,-1135,4202
생 XSN,,2548,3740,3070,-2289,4983
회관 NNG,,1784,3537,2734,-4260,3457
EOS
학생회 NNG,,1784,3536,1877,-1135,742
관 XR,,2424,3581,7120,515,8377
EOS
학생회 NNG,,1784,3536,1877,-1135,742
관 NNBC,,1101,3242,6825,773,8340
EOS
이렇게 결과가 나와 학생회관이 잘 나오는 것 같은데 elasticsearch로 analyze했을 때에는 학생 + 회관으로 나오고 있습니다ㅠㅠ
코스트를 낮춰서 해봤는데도 고쳐지지 않습니다. 사용자가 정의한 사전이 먼저 나오게 하려면 어떻게 해야 하나요..?