关于中文字符串hash算法的一点想法

18 views
Skip to first unread message

diao

unread,
Feb 28, 2006, 2:33:50 AM2/28/06
to semean
可否利用现有的英文 hash 算法呢
可以把中文词汇看成汉语拼音,然后用英文 hash 算法得到散列值。单字重码就很多了,不过词汇的重码数量不会太多,最多时一个词重码有10几个,不过这种时候很少见,绝大多数词汇重码不超过4个,这样的话,现散列出一个值,得到一个很小的范围,在这个小范围内查找就已经快很多了。
我对散列算法不熟悉,只知道原理,一点想法,希望有所帮助,:P
--------------
diao
2006-02-28

percylee

unread,
Mar 16, 2006, 12:12:09 AM3/16/06
to cs的专栏 继续讨论区
恩,非常不错的想法.
只是这需要一个文字与声音的映射表.若是每一个"词"都来给出其发音,因为我们的目的是"词库"可以动态生成的,这个资源维护量太大.若由字的音来动态组成,汉字的个数总是确定的,似乎可以考虑.但字到词,发音上的变化,多选一等情况又非我们能处理.所以这其中又有很多困难.
^_^
Reply all
Reply to author
Forward
0 new messages