祝好
pem
> 我有一个设想,可以让我们快速建立一个开源的语料库。
> 以分词为例(类似还有命名实体识别和词性标注)。
> 1. 收集无版权限制的中文文本
> 2. 选择三个分词质量比较高的分词系统,如MMSEG、Stanford WordSeg 之类的
> 3. 然后三个系统分别对文本进行分词,并把结果彼此对比
> 4. 我们把三个分词结果的差异着重标注出来,并由手工消解,最终形成我们开源的分词语料
> 如法炮制,也可以获得命名实体识别和词性标注的语料库。
> - 语料库的并非只面向分词,还包括命名实体识别和词性标注
> - 格式开放,最好是纯文本,而非XML或者加密之类的
--
====================
句读:开放的中文分词项目
====================
主要链接
=======
* 句读首页:http://judou.org
使用
====
* 讨论请发邮件到ju...@googlegroups.com
* 查看更多到http://groups.google.com/group/judou
* 想退订发邮件到judou+un...@googlegroups.com
我考虑在libcorpus里加个contrib包,这几天写个CorpusPeopleDaily来提供人民日报语料的解析。大家有何建议?
--
====================
句读:开放的中文分词项目
====================
主要链接
=======
* 句读首页:http://judou.org
使用
====
* 讨论请发邮件到ju...@googlegroups.com
* 查看更多到http://groups.google.com/group/judou
* 想退订发邮件到judou+un...@googlegroups.com