关于中文字符串hash算法的一点想法

18 views

Skip to first unread message

diao

unread,

Feb 28, 2006, 2:33:50 AM2/28/06

to semean

可否利用现有的英文 hash 算法呢
可以把中文词汇看成汉语拼音，然后用英文 hash 算法得到散列值。单字重码就很多了，不过词汇的重码数量不会太多，最多时一个词重码有10几个，不过这种时候很少见，绝大多数词汇重码不超过4个，这样的话，现散列出一个值，得到一个很小的范围，在这个小范围内查找就已经快很多了。
我对散列算法不熟悉，只知道原理，一点想法，希望有所帮助，：P
--------------
diao
2006-02-28

percylee

unread,

Mar 16, 2006, 12:12:09 AM3/16/06

to cs的专栏继续讨论区

恩,非常不错的想法.
只是这需要一个文字与声音的映射表.若是每一个"词"都来给出其发音,因为我们的目的是"词库"可以动态生成的,这个资源维护量太大.若由字的音来动态组成,汉字的个数总是确定的,似乎可以考虑.但字到词,发音上的变化,多选一等情况又非我们能处理.所以这其中又有很多困难.
^_^

Reply all

Reply to author

Forward

0 new messages