新手問一個問題

22 views
Skip to first unread message

Bo Zhao

unread,
Sep 30, 2009, 4:34:41 PM9/30/09
to NlpBamboo
大家好,我是哈佛大學東亞系的學生,我想咨詢一下果我想對古文進行分詞,可以么?需要進行什么預設定呢?

謝謝好心人。

刘鑫

unread,
Sep 30, 2009, 8:26:02 PM9/30/09
to nlpb...@googlegroups.com


2009/10/1 Bo Zhao <jako...@gmail.com>

大家好,我是哈佛大學東亞系的學生,我想咨詢一下果我想對古文進行分詞,可以么?需要進行什么預設定呢?

謝謝好心人。
我抛砖引玉一下,先拿一份古文的文库来进行模型训练应该是起点吧,另外可能要设定stop words,把虚词和语气助词挑出来(类似兮、哉这样的)。
古文中有大量的减字现象,分词也应该和现代汉语不同吧:)。




--
光见贼吃肉,没见贼挨打。
……

劉鑫
March.Liu

Bo Zhao

unread,
Sep 30, 2009, 8:45:20 PM9/30/09
to nlpb...@googlegroups.com
恩,謝謝指導。大概明白了,需要進行訓練。

我還有一個問題,就是bamboo+postgresql+TSearch2 和 Sphinx 有什么差別么?



2009/9/30 刘鑫 <marc...@gmail.com>



--
Bo, Zhao
Center for Geographic Analysis, Harvard
Mobile: +1-352-235-5029
Site: http://geoinformatics.cn
Coordinates: 42°22'32"N  71°04'55"W

刘鑫

unread,
Sep 30, 2009, 8:52:31 PM9/30/09
to nlpb...@googlegroups.com


2009/10/1 Bo Zhao <jako...@gmail.com>

恩,謝謝指導。大概明白了,需要進行訓練。

我還有一個問題,就是bamboo+postgresql+TSearch2 和 Sphinx 有什么差別么?

前者要完整的多,奉送一个全功能数据库呢XD



2009/9/30 刘鑫 <marc...@gmail.com>


2009/10/1 Bo Zhao <jako...@gmail.com>

大家好,我是哈佛大學東亞系的學生,我想咨詢一下果我想對古文進行分詞,可以么?需要進行什么預設定呢?

謝謝好心人。
我抛砖引玉一下,先拿一份古文的文库来进行模型训练应该是起点吧,另外可能要设定stop words,把虚词和语气助词挑出来(类似兮、哉这样的)。
古文中有大量的减字现象,分词也应该和现代汉语不同吧:)。




--
光见贼吃肉,没见贼挨打。
……

劉鑫
March.Liu






--
Bo, Zhao
Center for Geographic Analysis, Harvard
Mobile: +1-352-235-5029
Site: http://geoinformatics.cn
Coordinates: 42°22'32"N  71°04'55"W


Bo Zhao

unread,
Sep 30, 2009, 8:54:13 PM9/30/09
to nlpb...@googlegroups.com
但是我覺得用Sphinx 可能和python配合會更加方便吧?

刘鑫

unread,
Sep 30, 2009, 9:29:46 PM9/30/09
to nlpb...@googlegroups.com


2009/10/1 Bo Zhao <jako...@gmail.com>
但是我覺得用Sphinx 可能和python配合會更加方便吧?
 
 需要自己处理的东西太多咯,实用场景我还是喜欢多用现成的可靠工具来组合,业余时间拿来造轮子:)
Reply all
Reply to author
Forward
0 new messages