关于分词被包含的问题

11 views
Skip to first unread message

新手

unread,
May 28, 2010, 6:40:26 AM5/28/10
to sphinx-for-chinese
分词表中 有两个词 "有限公司", "公司“
数据内容为 "汽车销售有限公司",
做完索引后, 查询 "有限公司", "汽车销售有限公司"能搜得到,但 查询 "公司"时, "汽车销售有限公司"却搜不到,

现在想查但 查询 "公司"时, "汽车销售有限公司"却搜不到,并且分词表不变, 有什么办法吗?

好像 一个 分词 具有不可分割性。所以确定分词表时。如果一个词包含另一个词, 如果按照被包含的词来查询,有的内容会搜不出来。

Shi Zhuguo

unread,
May 28, 2010, 10:06:04 PM5/28/10
to sphinx-for-chinese
是的,会存在这种问题。虽然词表中有"有限公司", "公司" ,但是具体怎么分,是由分词方法决定的。现在使用的是MMSEG分词算法,所以有限公司
是极有可能优先使用的。一般的解决方法是修改词表,将"有限公司", "公司" 修改为"有限", "公司"。如果不修改词表,就不太好办了,可以尝试
一下word forms和exceptions(我不确定是否100%可以)
Reply all
Reply to author
Forward
0 new messages