不知道大家怎么看。
Alex
--
====================
句读:开放的中文分词项目
====================
主要链接
=======
* 句读首页:http://judou.org
使用
====
* 讨论请发邮件到ju...@googlegroups.com
* 查看更多到http://groups.google.com/group/judou
* 想退订发邮件到judou+un...@googlegroups.com
我现在思考的应用场景是这样的:对于最新的Tweet,希望能够
从里面提取出trending的短语,例如现在Twitter首页上的trending
topic就有"Happy Star Wars Day",这个如果没有切好的话,完全
可以只把"Star Wars"提取出来。
这种对于频繁出现的模式提取的算法现在不仅在自然语言处理里面有
广泛的应用,在DNA对于基因组合也在大规模应用中。
http://bit.ly/9w6BIB
谢谢蚂蚁快速的回答,
Alex
On May 5, 9:57 am, twinsant <twins...@gmail.com> wrote:
> 英文语法应该比汉语简单吧,如果采用规则派算法会不会好些?
>
> 2010/5/5 Alex Dong <alex.d...@gmail.com>
>
>
>
>
>
> > 我最近在考虑是否可以将对中文分词的算法应用到英文中,以提高自动提取短语的准确率。
> > 如果把英文的一个单词看作中文一个字的话,感觉上算法应该可以照搬。
>
> > 不知道大家怎么看。
>
> > Alex
>
> > --
> > ====================
> > 句读:开放的中文分词项目
> > ====================
>
> > 主要链接
> > =======
>
> > * 句读首页:http://judou.org
>
> > 使用
> > ====
> > * 讨论请发邮件到ju...@googlegroups.com
> > * 查看更多到http://groups.google.com/group/judou
>
> > * 想退订发邮件到judou+un...@googlegroups.com<judou%2Bunsubscribe@googlegroups. com>
是可以的。其实都是一样。比如经常会用HMM,CRF来做Named Entity提取。可能会
对不同领域有调整,不过基本思路都类似。
>
> 不知道大家怎么看。
>
> Alex
>
--
Regards
Monnand
Email: mon...@gmail.com
GTalk: mon...@gmail.com
我想他是说做parsing,找出名词性词组,主谓宾之类。
不过tweet的句子很短,缩写和不合语法的情况不少。
我想比较准确的描述应该是寻求对于常见短语的提取,或者是
对于常见单词序列的提取。
希望这样能将讨论的方向描述的更细致一些。
Alex
2010/5/5 Yan Ren <pem...@gmail.com>:
2010/5/4 Alex Dong <alex...@gmail.com>:
2010/5/5 Alex Dong <alex...@gmail.com>: