对于句读中切词算法在英文中自动提取短语的应用

Alex Dong

unread,

May 4, 2010, 9:46:35 PM5/4/10

to 句读：开放的中文分词项目

我最近在考虑是否可以将对中文分词的算法应用到英文中，以提高自动提取短语的准确率。
如果把英文的一个单词看作中文一个字的话，感觉上算法应该可以照搬。

不知道大家怎么看。

Alex

--
====================
句读：开放的中文分词项目
====================

主要链接
=======

* 句读首页：http://judou.org

使用
====
* 讨论请发邮件到ju...@googlegroups.com
* 查看更多到http://groups.google.com/group/judou

* 想退订发邮件到judou+un...@googlegroups.com

twinsant

unread,

May 4, 2010, 9:57:51 PM5/4/10

to ju...@googlegroups.com

英文语法应该比汉语简单吧，如果采用规则派算法会不会好些？

2010/5/5 Alex Dong <alex...@gmail.com>

Alex Dong

unread,

May 4, 2010, 10:06:52 PM5/4/10

to 句读：开放的中文分词项目

> 英文语法应该比汉语简单吧，如果采用规则派算法会不会好些？
什么叫规则派？

我现在思考的应用场景是这样的：对于最新的Tweet，希望能够
从里面提取出trending的短语，例如现在Twitter首页上的trending
topic就有"Happy Star Wars Day"，这个如果没有切好的话，完全
可以只把"Star Wars"提取出来。

这种对于频繁出现的模式提取的算法现在不仅在自然语言处理里面有
广泛的应用，在DNA对于基因组合也在大规模应用中。
http://bit.ly/9w6BIB

谢谢蚂蚁快速的回答，
Alex

On May 5, 9:57 am, twinsant <twins...@gmail.com> wrote:
> 英文语法应该比汉语简单吧，如果采用规则派算法会不会好些？
>

> 2010/5/5 Alex Dong <alex.d...@gmail.com>

>
>
>
>
>
> > 我最近在考虑是否可以将对中文分词的算法应用到英文中，以提高自动提取短语的准确率。
> > 如果把英文的一个单词看作中文一个字的话，感觉上算法应该可以照搬。
>
> > 不知道大家怎么看。
>
> > Alex
>
> > --
> > ====================
> > 句读：开放的中文分词项目
> > ====================
>
> > 主要链接
> > =======
>
> > * 句读首页：http://judou.org
>
> > 使用
> > ====
> > * 讨论请发邮件到ju...@googlegroups.com
> > * 查看更多到http://groups.google.com/group/judou
>

> > * 想退订发邮件到judou+un...@googlegroups.com<judou%2Bunsubscribe@googlegroups. com>

monnand

unread,

May 4, 2010, 11:30:39 PM5/4/10

to ju...@googlegroups.com

Alex Dong 写道:
> 我最近在考虑是否可以将对中文分词的算法应用到英文中，以提高自动提取短语的准确率。
> 如果把英文的一个单词看作中文一个字的话，感觉上算法应该可以照搬。

是可以的。其实都是一样。比如经常会用HMM，CRF来做Named Entity提取。可能会
对不同领域有调整，不过基本思路都类似。
>
> 不知道大家怎么看。
>
> Alex
>

--
Regards

Monnand
Email: mon...@gmail.com
GTalk: mon...@gmail.com

Yan Ren

unread,

May 5, 2010, 12:14:15 AM5/5/10

to ju...@googlegroups.com

On Wednesday 05 May 2010 10:06:52 Alex Dong wrote:
> > 英文语法应该比汉语简单吧，如果采用规则派算法会不会好些？
> 什么叫规则派？

我想他是说做parsing，找出名词性词组，主谓宾之类。
不过tweet的句子很短，缩写和不合语法的情况不少。

Alex Dong

unread,

May 5, 2010, 12:22:05 AM5/5/10

to ju...@googlegroups.com

我倒不需要做语法分析，主谓宾对于我们的应用场景来说用处并不大。
名词性词组也不是很准确，因为例如“Join the Tea Party"就是一个动词
短语。

我想比较准确的描述应该是寻求对于常见短语的提取，或者是
对于常见单词序列的提取。

希望这样能将讨论的方向描述的更细致一些。

Alex

2010/5/5 Yan Ren <pem...@gmail.com>:

Hao He

unread,

May 5, 2010, 4:37:03 PM5/5/10

to ju...@googlegroups.com

简单的frequent n-gram不行么？

2010/5/4 Alex Dong <alex...@gmail.com>:

Yongqiang Chen

unread,

May 6, 2010, 7:13:06 PM5/6/10

to ju...@googlegroups.com

肯定可以。只是字组多元关系的阈值，歧义是难题。

2010/5/5 Alex Dong <alex...@gmail.com>:

Alex Dong

unread,

May 7, 2010, 12:14:47 AM5/7/10

to ju...@googlegroups.com

呵呵，勇强这个回复说到点子上了，此外，计算量也是一个大问题。

现在看来，用wikipedia或者freebase做词库可能是最合适的选择。

2010/5/7 Yongqiang Chen <yong...@gmail.com>

Reply all

Reply to author

Forward