也讨论个语言处理的问题

yegle

unread,

Aug 13, 2009, 10:58:56 PM8/13/09

to bup...@googlegroups.com

Twitter的trends功能，是根据所有人的tweet，分析其中的词语，找到讨论最多的词或者词组，再统计出排名最靠前的topic

我一直不明白的是，twitter是怎么对词组进行统计的呢？

Yu Chao

unread,

Aug 13, 2009, 11:08:17 PM8/13/09

to bup...@googlegroups.com

http://blog.it.sohu.com/readwriteweb/archives/994

好像是根据标签来做得统计. (也许是搜索的关键词统计)

2009/8/14 yegle <cny...@gmail.com>

yegle

unread,

Aug 13, 2009, 11:12:02 PM8/13/09

to bup...@googlegroups.com

现在已经不使用hashtag来统计了，加不加#都会进入trending topic

2009/8/14 Yu Chao <yucha...@gmail.com>

Yu Chao

unread,

Aug 13, 2009, 11:29:09 PM8/13/09

to bup...@googlegroups.com

那就不知道了

2009/8/14 yegle <cny...@gmail.com>

Solmyr

unread,

Aug 14, 2009, 1:43:55 AM8/14/09

to buptdev

可能是用了短语识别吧？名词短语识别还是比较好做的

但我觉得工业界不会用很复杂的算法的。他这个rank更新的快么？

yegle

unread,

Aug 14, 2009, 1:51:04 AM8/14/09

to bup...@googlegroups.com

更新的算比较频繁，有daily trending topic/weekly trending topic，即时trending topic大约每小时会变动几次

也不象短语识别，比如说目前的daily trending topic，有一项是Gi Joe，实际对应的搜索词条是Gi Joe OR Joe，自动识别为一项了

2009/8/14 Solmyr <ptwc...@gmail.com>

Yu Chao

unread,

Aug 14, 2009, 3:01:53 AM8/14/09

to bup...@googlegroups.com

可以人工对热门短语做一些纠正/优化/完善?

2009/8/14 yegle <cny...@gmail.com>

yegle

unread,

Aug 14, 2009, 3:45:34 AM8/14/09

to bup...@googlegroups.com

人工处理也应该是在机选的基础上进行的。
想到一个方法，不知道可行性：
考虑一个词组最长3个词组成，用户的每条推，自动断句后保存到数据库表里面。比如：
today is friday and i am sleepy
7个单词+6个双单词词组+5个3单词词组，一共存储18个记录

当然这样数据量就太大了

小包|Cong Wang

unread,

Aug 14, 2009, 4:58:33 AM8/14/09

to bup...@googlegroups.com

应该就是人工识别的

2009/8/14 yegle <cny...@gmail.com>

Amelie Lee

unread,

Aug 14, 2009, 5:14:45 AM8/14/09

to bup...@googlegroups.com

yegle要做抓取trending topic的程序吗？有天赋哇~
就我看到过的一些nlp的方法，三个词不算高的了。。。正常级别吧。google做过6-gram的研究的说。
yegle的意思是说把它们存进数据库以后计算term frequency吗？
为了防止把“i am”这样在每个文档都有可能出现的2-gram误判成topic，还应该看看这些词/词组在所有文档中出现的频率吧。

Best Regards,
Huiying Lee
--------------------
Beijing University of Post and Telecommunications
School of Software Engineeing
Gtalk: willw...@gmail.com
MSN: wenj...@hotmail.com

2009/8/14 yegle <cny...@gmail.com>

yegle

unread,

Aug 14, 2009, 10:21:38 AM8/14/09

to bup...@googlegroups.com

只是在想怎么实现这样的功能而已，呵呵。
自然语言处理我不太了解，不知道正常情况下是怎么处理的…

2009/8/14 Amelie Lee <yuh...@gmail.com>

Joker Lee

unread,

Aug 14, 2009, 11:38:48 AM8/14/09

to bup...@googlegroups.com

围观...下学期选自然语言处理

2009/8/14 yegle <cny...@gmail.com>

小包|Cong Wang

unread,

Aug 14, 2009, 12:29:41 PM8/14/09

to bup...@googlegroups.com

路过

2009/8/14 Joker Lee <joke...@gmail.com>

Solmyr

unread,

Aug 16, 2009, 12:09:19 AM8/16/09

to buptdev

给你推荐两本书提前预习吧，如果感兴趣的话，可能你也听说过，呵呵

一个是统计自然语言处理基础

一个是natural language processing with python

都有英文电子书下载，第一本偏理论一点，第二本适合入门。

On Aug 14, 11:38 pm, Joker Lee <jokerl...@gmail.com> wrote:
> 围观...下学期选自然语言处理
>
> 2009/8/14 yegle <cnye...@gmail.com>
>
> > 只是在想怎么实现这样的功能而已，呵呵。
> > 自然语言处理我不太了解，不知道正常情况下是怎么处理的...
>
> > 2009/8/14 Amelie Lee <yuhu...@gmail.com>

>
> > yegle要做抓取trending topic的程序吗？有天赋哇~
> >> 就我看到过的一些nlp的方法，三个词不算高的了。。。正常级别吧。google做过6-gram的研究的说。
> >> yegle的意思是说把它们存进数据库以后计算term frequency吗？
> >> 为了防止把"i am"这样在每个文档都有可能出现的2-gram误判成topic，还应该看看这些词/词组在所有文档中出现的频率吧。
>
> >> Best Regards,
> >> Huiying Lee
> >> --------------------
> >> Beijing University of Post and Telecommunications
> >> School of Software Engineeing

> >> Gtalk: willwin....@gmail.com
> >> MSN: wenjiu...@hotmail.com
>
> >> 2009/8/14 yegle <cnye...@gmail.com>

>
> >>> 人工处理也应该是在机选的基础上进行的。
> >>> 想到一个方法，不知道可行性：
> >>> 考虑一个词组最长3个词组成，用户的每条推，自动断句后保存到数据库表里面。比如：
> >>> today is friday and i am sleepy
> >>> 7个单词+6个双单词词组+5个3单词词组，一共存储18个记录
>
> >>> 当然这样数据量就太大了
>
> >>> On 8/14/09, Yu Chao <yuc...@exoweb.net> wrote:
> >>> > 可以人工对热门短语做一些纠正/优化/完善?
>

> >>> > 2009/8/14 yegle <cnye...@gmail.com>

>
> >>> >> 更新的算比较频繁，有daily trending topic/weekly trending topic，即时trending
> >>> >> topic大约每小时会变动几次
>
> >>> >> 也不象短语识别，比如说目前的daily trending topic，有一项是Gi Joe，实际对应的搜索词条是Gi Joe OR
> >>> >> Joe，自动识别为一项了
>

> >>> >> 2009/8/14 Solmyr <ptwcjs...@gmail.com>

Joker Lee

unread,

Aug 16, 2009, 9:55:34 AM8/16/09

to bup...@googlegroups.com

thanks, 不过下学期未必有时间看，操作系统、编译原理、通原、汇编与接口，在加上一本身深入理解计算机系统....

2009/8/16 Solmyr <ptwc...@gmail.com>

冠毅孙

unread,

Aug 17, 2009, 7:00:16 AM8/17/09

to buptdev

还是先学好专业课是王道

On Aug 16, 9:55 pm, Joker Lee <jokerl...@gmail.com> wrote:
> thanks, 不过下学期未必有时间看，操作系统、编译原理、通原、汇编与接口，在加上一本身深入理解计算机系统....
>

> 2009/8/16 Solmyr <ptwcjs...@gmail.com>

小包|Cong Wang

unread,

Aug 17, 2009, 7:02:29 AM8/17/09

to bup...@googlegroups.com

出来一看才不由感慨北邮计算机专业的课程安排的真nb

2009/8/17 冠毅孙 <falco...@gmail.com>

冠毅孙

unread,

Aug 17, 2009, 11:05:50 AM8/17/09

to buptdev

有点不合理。。。不过认真学，还是能受益不少的

On Aug 17, 7:02 pm, 小包|Cong Wang <silwi...@gmail.com> wrote:
> 出来一看才不由感慨北邮计算机专业的课程安排的真nb
>
> 2009/8/17 冠毅孙 <falcom....@gmail.com>

小包|Cong Wang

unread,

Aug 17, 2009, 11:11:03 AM8/17/09

to bup...@googlegroups.com

不是。。我的意思是比这边的合理多了覆盖了所有需要的基础知识

2009/8/17 冠毅孙 <falco...@gmail.com>

Joker Lee

unread,

Sep 3, 2009, 10:47:45 PM9/3/09

to bup...@googlegroups.com

这下必须看了,这学期去实验室实习，项目是网络舆情分析

2009/8/16 Solmyr <ptwc...@gmail.com>

yegle

unread,

Sep 3, 2009, 11:29:52 PM9/3/09

to bup...@googlegroups.com

校长那？不错啊…

Reply all

Reply to author

Forward

也讨论个语言处理的问题

yegle

Yu Chao

yegle

Yu Chao

Solmyr

yegle

Yu Chao

yegle

小包|Cong Wang

Amelie Lee

yegle

Joker Lee

小包|Cong Wang

Solmyr

Joker Lee

冠毅 孙

小包|Cong Wang

冠毅 孙

小包|Cong Wang

Joker Lee

yegle

冠毅孙

冠毅孙