謝謝好心人。
大家好,我是哈佛大學東亞系的學生,我想咨詢一下果我想對古文進行分詞,可以么?需要進行什么預設定呢?
謝謝好心人。
恩,謝謝指導。大概明白了,需要進行訓練。我還有一個問題,就是bamboo+postgresql+TSearch2 和 Sphinx 有什么差別么?
2009/9/30 刘鑫 <marc...@gmail.com>
2009/10/1 Bo Zhao <jako...@gmail.com>大家好,我是哈佛大學東亞系的學生,我想咨詢一下果我想對古文進行分詞,可以么?需要進行什么預設定呢?
謝謝好心人。我抛砖引玉一下,先拿一份古文的文库来进行模型训练应该是起点吧,另外可能要设定stop words,把虚词和语气助词挑出来(类似兮、哉这样的)。
古文中有大量的减字现象,分词也应该和现代汉语不同吧:)。
--光见贼吃肉,没见贼挨打。
……
劉鑫
March.Liu
--
Bo, Zhao
Center for Geographic Analysis, Harvard
Mobile: +1-352-235-5029
Site: http://geoinformatics.cn
Coordinates: 42°22'32"N 71°04'55"W
但是我覺得用Sphinx 可能和python配合會更加方便吧?