但我觉得工业界不会用很复杂的算法的。他这个rank更新的快么?
当然这样数据量就太大了
一个是统计自然语言处理基础
一个是natural language processing with python
都有英文电子书下载,第一本偏理论一点,第二本适合入门。
On Aug 14, 11:38 pm, Joker Lee <jokerl...@gmail.com> wrote:
> 围观...下学期选自然语言处理
>
> 2009/8/14 yegle <cnye...@gmail.com>
>
> > 只是在想怎么实现这样的功能而已,呵呵。
> > 自然语言处理我不太了解,不知道正常情况下是怎么处理的...
>
> > 2009/8/14 Amelie Lee <yuhu...@gmail.com>
>
> > yegle要做抓取trending topic的程序吗?有天赋哇~
> >> 就我看到过的一些nlp的方法,三个词不算高的了。。。正常级别吧。google做过6-gram的研究的说。
> >> yegle的意思是说把它们存进数据库以后计算term frequency吗?
> >> 为了防止把"i am"这样在每个文档都有可能出现的2-gram误判成topic,还应该看看这些词/词组在所有文档中出现的频率吧。
>
> >> Best Regards,
> >> Huiying Lee
> >> --------------------
> >> Beijing University of Post and Telecommunications
> >> School of Software Engineeing
> >> Gtalk: willwin....@gmail.com
> >> MSN: wenjiu...@hotmail.com
>
> >> 2009/8/14 yegle <cnye...@gmail.com>
>
> >>> 人工处理也应该是在机选的基础上进行的。
> >>> 想到一个方法,不知道可行性:
> >>> 考虑一个词组最长3个词组成,用户的每条推,自动断句后保存到数据库表里面。比如:
> >>> today is friday and i am sleepy
> >>> 7个单词+6个双单词词组+5个3单词词组,一共存储18个记录
>
> >>> 当然这样数据量就太大了
>
> >>> On 8/14/09, Yu Chao <yuc...@exoweb.net> wrote:
> >>> > 可以人工对热门短语做一些纠正/优化/完善?
>
> >>> > 2009/8/14 yegle <cnye...@gmail.com>
>
> >>> >> 更新的算比较频繁,有daily trending topic/weekly trending topic,即时trending
> >>> >> topic大约每小时会变动几次
>
> >>> >> 也不象短语识别,比如说目前的daily trending topic,有一项是Gi Joe,实际对应的搜索词条是Gi Joe OR
> >>> >> Joe,自动识别为一项了
>
> >>> >> 2009/8/14 Solmyr <ptwcjs...@gmail.com>
On Aug 16, 9:55 pm, Joker Lee <jokerl...@gmail.com> wrote:
> thanks, 不过下学期未必有时间看,操作系统、编译原理、通原、汇编与接口,在加上一本身深入理解计算机系统....
>
> 2009/8/16 Solmyr <ptwcjs...@gmail.com>
On Aug 17, 7:02 pm, 小包|Cong Wang <silwi...@gmail.com> wrote:
> 出来一看才不由感慨北邮计算机专业的课程安排的真nb
>
> 2009/8/17 冠毅 孙 <falcom....@gmail.com>