也讨论个语言处理的问题

2 views
Skip to first unread message

yegle

unread,
Aug 13, 2009, 10:58:56 PM8/13/09
to bup...@googlegroups.com
Twitter的trends功能,是根据所有人的tweet,分析其中的词语,找到讨论最多的词或者词组,再统计出排名最靠前的topic

我一直不明白的是,twitter是怎么对词组进行统计的呢?

Yu Chao

unread,
Aug 13, 2009, 11:08:17 PM8/13/09
to bup...@googlegroups.com
http://blog.it.sohu.com/readwriteweb/archives/994
好像是根据标签来做得统计. (也许是搜索的关键词统计)

2009/8/14 yegle <cny...@gmail.com>

yegle

unread,
Aug 13, 2009, 11:12:02 PM8/13/09
to bup...@googlegroups.com
现在已经不使用hashtag来统计了,加不加#都会进入trending topic


2009/8/14 Yu Chao <yucha...@gmail.com>

Yu Chao

unread,
Aug 13, 2009, 11:29:09 PM8/13/09
to bup...@googlegroups.com
那就不知道了

2009/8/14 yegle <cny...@gmail.com>

Solmyr

unread,
Aug 14, 2009, 1:43:55 AM8/14/09
to buptdev
可能是用了短语识别吧?名词短语识别还是比较好做的

但我觉得工业界不会用很复杂的算法的。他这个rank更新的快么?

yegle

unread,
Aug 14, 2009, 1:51:04 AM8/14/09
to bup...@googlegroups.com
更新的算比较频繁,有daily trending topic/weekly trending topic,即时trending topic大约每小时会变动几次

也不象短语识别,比如说目前的daily trending topic,有一项是Gi Joe,实际对应的搜索词条是Gi Joe OR Joe,自动识别为一项了

2009/8/14 Solmyr <ptwc...@gmail.com>

Yu Chao

unread,
Aug 14, 2009, 3:01:53 AM8/14/09
to bup...@googlegroups.com
可以人工对热门短语做一些纠正/优化/完善?

2009/8/14 yegle <cny...@gmail.com>

yegle

unread,
Aug 14, 2009, 3:45:34 AM8/14/09
to bup...@googlegroups.com
人工处理也应该是在机选的基础上进行的。
想到一个方法,不知道可行性:
考虑一个词组最长3个词组成,用户的每条推,自动断句后保存到数据库表里面。比如:
today is friday and i am sleepy
7个单词+6个双单词词组+5个3单词词组,一共存储18个记录

当然这样数据量就太大了

小包|Cong Wang

unread,
Aug 14, 2009, 4:58:33 AM8/14/09
to bup...@googlegroups.com
应该就是人工识别的

2009/8/14 yegle <cny...@gmail.com>

Amelie Lee

unread,
Aug 14, 2009, 5:14:45 AM8/14/09
to bup...@googlegroups.com
yegle要做抓取trending topic的程序吗?有天赋哇~
就我看到过的一些nlp的方法,三个词不算高的了。。。正常级别吧。google做过6-gram的研究的说。
yegle的意思是说把它们存进数据库以后计算term frequency吗?
为了防止把“i am”这样在每个文档都有可能出现的2-gram误判成topic,还应该看看这些词/词组在所有文档中出现的频率吧。

Best Regards,
Huiying Lee
--------------------
Beijing University of Post and Telecommunications
School of Software Engineeing
Gtalk: willw...@gmail.com
MSN: wenj...@hotmail.com



2009/8/14 yegle <cny...@gmail.com>

yegle

unread,
Aug 14, 2009, 10:21:38 AM8/14/09
to bup...@googlegroups.com
只是在想怎么实现这样的功能而已,呵呵。
自然语言处理我不太了解,不知道正常情况下是怎么处理的…

2009/8/14 Amelie Lee <yuh...@gmail.com>

Joker Lee

unread,
Aug 14, 2009, 11:38:48 AM8/14/09
to bup...@googlegroups.com
围观...下学期选自然语言处理

2009/8/14 yegle <cny...@gmail.com>

小包|Cong Wang

unread,
Aug 14, 2009, 12:29:41 PM8/14/09
to bup...@googlegroups.com
路过

2009/8/14 Joker Lee <joke...@gmail.com>

Solmyr

unread,
Aug 16, 2009, 12:09:19 AM8/16/09
to buptdev
给你推荐两本书提前预习吧,如果感兴趣的话,可能你也听说过,呵呵

一个是统计自然语言处理基础

一个是natural language processing with python

都有英文电子书下载,第一本偏理论一点,第二本适合入门。

On Aug 14, 11:38 pm, Joker Lee <jokerl...@gmail.com> wrote:
> 围观...下学期选自然语言处理
>
> 2009/8/14 yegle <cnye...@gmail.com>
>
> > 只是在想怎么实现这样的功能而已,呵呵。
> > 自然语言处理我不太了解,不知道正常情况下是怎么处理的...
>
> > 2009/8/14 Amelie Lee <yuhu...@gmail.com>


>
> > yegle要做抓取trending topic的程序吗?有天赋哇~
> >> 就我看到过的一些nlp的方法,三个词不算高的了。。。正常级别吧。google做过6-gram的研究的说。
> >> yegle的意思是说把它们存进数据库以后计算term frequency吗?
> >> 为了防止把"i am"这样在每个文档都有可能出现的2-gram误判成topic,还应该看看这些词/词组在所有文档中出现的频率吧。
>
> >> Best Regards,
> >> Huiying Lee
> >> --------------------
> >> Beijing University of Post and Telecommunications
> >> School of Software Engineeing

> >> Gtalk: willwin....@gmail.com
> >> MSN: wenjiu...@hotmail.com
>
> >> 2009/8/14 yegle <cnye...@gmail.com>


>
> >>> 人工处理也应该是在机选的基础上进行的。
> >>> 想到一个方法,不知道可行性:
> >>> 考虑一个词组最长3个词组成,用户的每条推,自动断句后保存到数据库表里面。比如:
> >>> today is friday and i am sleepy
> >>> 7个单词+6个双单词词组+5个3单词词组,一共存储18个记录
>
> >>> 当然这样数据量就太大了
>
> >>> On 8/14/09, Yu Chao <yuc...@exoweb.net> wrote:
> >>> > 可以人工对热门短语做一些纠正/优化/完善?
>

> >>> > 2009/8/14 yegle <cnye...@gmail.com>


>
> >>> >> 更新的算比较频繁,有daily trending topic/weekly trending topic,即时trending
> >>> >> topic大约每小时会变动几次
>
> >>> >> 也不象短语识别,比如说目前的daily trending topic,有一项是Gi Joe,实际对应的搜索词条是Gi Joe OR
> >>> >> Joe,自动识别为一项了
>

> >>> >> 2009/8/14 Solmyr <ptwcjs...@gmail.com>

Joker Lee

unread,
Aug 16, 2009, 9:55:34 AM8/16/09
to bup...@googlegroups.com
thanks, 不过下学期未必有时间看,操作系统、编译原理、通原、汇编与接口,在加上一本身深入理解计算机系统....

2009/8/16 Solmyr <ptwc...@gmail.com>

冠毅 孙

unread,
Aug 17, 2009, 7:00:16 AM8/17/09
to buptdev
还是先学好专业课是王道

On Aug 16, 9:55 pm, Joker Lee <jokerl...@gmail.com> wrote:
> thanks, 不过下学期未必有时间看,操作系统、编译原理、通原、汇编与接口,在加上一本身深入理解计算机系统....
>

> 2009/8/16 Solmyr <ptwcjs...@gmail.com>

小包|Cong Wang

unread,
Aug 17, 2009, 7:02:29 AM8/17/09
to bup...@googlegroups.com
出来一看才不由感慨北邮计算机专业的课程安排的真nb

2009/8/17 冠毅 孙 <falco...@gmail.com>

冠毅 孙

unread,
Aug 17, 2009, 11:05:50 AM8/17/09
to buptdev
有点不合理。。。不过认真学,还是能受益不少的

On Aug 17, 7:02 pm, 小包|Cong Wang <silwi...@gmail.com> wrote:
> 出来一看才不由感慨北邮计算机专业的课程安排的真nb
>
> 2009/8/17 冠毅 孙 <falcom....@gmail.com>

小包|Cong Wang

unread,
Aug 17, 2009, 11:11:03 AM8/17/09
to bup...@googlegroups.com
不是。。我的意思是比这边的合理多了 覆盖了所有需要的基础知识 

2009/8/17 冠毅 孙 <falco...@gmail.com>

Joker Lee

unread,
Sep 3, 2009, 10:47:45 PM9/3/09
to bup...@googlegroups.com
这下必须看了,这学期去实验室实习,项目是网络舆情分析

2009/8/16 Solmyr <ptwc...@gmail.com>

yegle

unread,
Sep 3, 2009, 11:29:52 PM9/3/09
to bup...@googlegroups.com
校长那?不错啊…
Reply all
Reply to author
Forward
0 new messages