关于语料库的基础工作

102 views
Skip to first unread message

Mingli Yuan

unread,
Dec 25, 2012, 5:33:52 AM12/25/12
to ju...@googlegroups.com
嗨,各位,

大家很多都做过分词系统的开发,所以语料库的重要不复赘述。以下是我一些零碎的想法,不成系统。

目前开源的词典已经比较多了,但开源的语料库并不多见。
而且即便你能获取到,往往都有各种附加条款。

我有一个设想,可以让我们快速建立一个开源的语料库。

以分词为例(类似还有命名实体识别和词性标注)。
  1. 收集无版权限制的中文文本
  2. 选择三个分词质量比较高的分词系统,如MMSEG、Stanford WordSeg 之类的
  3. 然后三个系统分别对文本进行分词,并把结果彼此对比
  4. 我们把三个分词结果的差异着重标注出来,并由手工消解,最终形成我们开源的分词语料
如法炮制,也可以获得命名实体识别和词性标注的语料库。

在这个过程进行之前和之中,我们还需要就分词的体例规则达成共识。虽然分词的标准是大致统一的,但也有稍有差异的地方,比如
  • 人名中姓和名是否分隔
  • 长词是否细分
  • ……
关于,语料库的格式问题,我已经有一个示例了:
还有几个可以想到的点:
  • 语料库的并非只面向分词,还包括命名实体识别和词性标注
  • 格式开放,最好是纯文本,而非XML或者加密之类的
  • 方便开发
  • 可压缩,方便使用
  • 提供使用工具和开发工具
以上内容,还请感兴趣者讨论!

明理

pem

unread,
Dec 25, 2012, 12:07:05 PM12/25/12
to judou, wqy-users
大家好,

目测这是个人肉计算的项目~ 类似文泉驿
可能会需要有一个方便参与众人参与的工具,
类似这个造字的工具 http://wenq.org/index.cgi?Canvas#U29567

祝好
pem

> 我有一个设想,可以让我们快速建立一个开源的语料库。
> 以分词为例(类似还有命名实体识别和词性标注)。
> 1. 收集无版权限制的中文文本
> 2. 选择三个分词质量比较高的分词系统,如MMSEG、Stanford WordSeg 之类的
> 3. 然后三个系统分别对文本进行分词,并把结果彼此对比
> 4. 我们把三个分词结果的差异着重标注出来,并由手工消解,最终形成我们开源的分词语料
> 如法炮制,也可以获得命名实体识别和词性标注的语料库。
> - 语料库的并非只面向分词,还包括命名实体识别和词性标注
> - 格式开放,最好是纯文本,而非XML或者加密之类的

twinsant

unread,
Dec 26, 2012, 8:52:13 AM12/26/12
to 句读:开放的中文分词项目



2012/12/26 pem <pem...@gmail.com>

大家好,

目测这是个人肉计算的项目~ 类似文泉驿
可能会需要有一个方便参与众人参与的工具,
类似这个造字的工具 http://wenq.org/index.cgi?Canvas#U29567

这是前端组件,连接差异数据库。
 


祝好
pem

> 我有一个设想,可以让我们快速建立一个开源的语料库。
> 以分词为例(类似还有命名实体识别和词性标注)。
> 1. 收集无版权限制的中文文本

这是libcorpus
 
> 2. 选择三个分词质量比较高的分词系统,如MMSEG、Stanford WordSeg 之类的

可以在任意客户端运行其他分词系统,将差异结果提交到数据库

> 3. 然后三个系统分别对文本进行分词,并把结果彼此对比
> 4. 我们把三个分词结果的差异着重标注出来,并由手工消解,最终形成我们开源的分词语料
> 如法炮制,也可以获得命名实体识别和词性标注的语料库。
> - 语料库的并非只面向分词,还包括命名实体识别和词性标注
>  - 格式开放,最好是纯文本,而非XML或者加密之类的

赞同纯文本,需要一个格式文件定义。
 


--
====================
句读:开放的中文分词项目
====================

主要链接
=======

* 句读首页:http://judou.org

使用
====
* 讨论请发邮件到ju...@googlegroups.com
* 查看更多到http://groups.google.com/group/judou

* 想退订发邮件到judou+un...@googlegroups.com

twinsant

unread,
Dec 27, 2012, 10:33:27 PM12/27/12
to 句读:开放的中文分词项目
我突然有个疑惑,目前语料库的在分词研究中使用场景是怎样的?


2012/12/26 twinsant <twin...@gmail.com>

Mingli Yuan

unread,
Dec 27, 2012, 11:19:58 PM12/27/12
to ju...@googlegroups.com
除了基于词典的分词技术,其他很多如HMM、CRF等分词算法都需要有语料库来训练系统。
只有训练好的系统才可以工作。


2012/12/28 twinsant <twin...@gmail.com>

twinsant

unread,
Dec 28, 2012, 6:25:19 AM12/28/12
to ju...@googlegroups.com
对应的算法各需要哪种统计信息呢。

Mingli Yuan

unread,
Dec 30, 2012, 12:14:38 AM12/30/12
to ju...@googlegroups.com
嗨,蚂蚁兄,

“对应的算法各需要哪种统计信息”对语料库来说说并不重要。整个领域应该大致是这样划分的:

                 理论的语言模型----------|
                         |                     算法
应                      |                       |
      《-----  模型实现接口  《------------------ 语料库
用                                           数据


不同算法使用语料库产生自己的模型数据。
算法程序和模型数据一起构成一种语言模型的实现接口。
再利用模型的实现接口解决实际应用的问题。



2012/12/28 twinsant <twin...@gmail.com>

Mingli Yuan

unread,
Dec 30, 2012, 11:31:42 PM12/30/12
to ju...@googlegroups.com
https://github.com/judou/libcorpus/blob/master/spec/zh-cn.md

我计划用一到两周的时间把语料库的格式草案写出来,然后大家讨论。

整个语料库的元数据组织、文本数据组织,都类似 https://github.com/guokr/corpus
用纯文本,分文件夹组织

而标注格式则类似北大发布的人民日报92年版的词性标注语料。
大致来说标注格式是:
  • 用中括号 [] 限定范围,如 [美利坚/N 合众国/N]/N
  • 用斜线标注,如 宇宙/N
  • 用反斜线转义,如 \/



2012/12/30 Mingli Yuan <mingl...@gmail.com>

twinsant

unread,
Jan 3, 2013, 8:40:48 PM1/3/13
to 句读:开放的中文分词项目
目前没有太多的想法。

moutain可以lead着进行前进,我follow。

完成比争论更重要。


2012/12/31 Mingli Yuan <mingl...@gmail.com>

何浩

unread,
Jan 4, 2013, 10:08:46 AM1/4/13
to ju...@googlegroups.com
很有意义,非常支持!


2013/1/3 twinsant <twin...@gmail.com>

twinsant

unread,
Jan 4, 2013, 8:41:35 PM1/4/13
to 句读:开放的中文分词项目
其实我的意思是搜索引擎的索引是一个非常大的原语料库,有些信息也可以从那里挖掘。


2012/12/30 Mingli Yuan <mingl...@gmail.com>

Mingli Yuan

unread,
Jan 17, 2013, 8:38:29 PM1/17/13
to ju...@googlegroups.com
能稍微说一下细节吗?

我最进一直在忙新项目上线,顾不过来这边。


2013/1/18 twinsant <twin...@gmail.com>
我考虑在libcorpus里加个contrib包,这几天写个CorpusPeopleDaily来提供人民日报语料的解析。

大家有何建议?


2012/12/25 Mingli Yuan <mingl...@gmail.com>
--
====================
句读:开放的中文分词项目
====================
 
主要链接
=======
 
* 句读首页:http://judou.org
 
使用
====
* 讨论请发邮件到ju...@googlegroups.com
* 查看更多到http://groups.google.com/group/judou
 
* 想退订发邮件到judou+un...@googlegroups.com

twinsant

unread,
Jan 17, 2013, 8:17:05 PM1/17/13
to 句读:开放的中文分词项目
我考虑在libcorpus里加个contrib包,这几天写个CorpusPeopleDaily来提供人民日报语料的解析。

大家有何建议?


2012/12/25 Mingli Yuan <mingl...@gmail.com>
嗨,各位,

twinsant

unread,
Jan 20, 2013, 8:08:52 PM1/20/13
to 句读:开放的中文分词项目
已经push上去了,大家给些意见和建议吧。
https://github.com/judou/libcorpus/tree/master/contrib

一直没搞明白github应该怎样选择流程:

1. 开发
2. pull request?
3. review
4. merge

还是直接push

我倾向于人少的情况下直接push,存在问题再拿出来讨论,规范流程。


2013/1/18 Mingli Yuan <mingl...@gmail.com>

Mingli Yuan

unread,
Jan 20, 2013, 8:31:16 PM1/20/13
to ju...@googlegroups.com
能够直接push的都是非常信任的成员。其他需要review。


2013/1/21 twinsant <twin...@gmail.com>

twinsant

unread,
Jan 20, 2013, 8:36:19 PM1/20/13
to 句读:开放的中文分词项目
那就订下基本规则:

项目的push权限成员的选择由已有权限成员讨论决定。

push过程中发生的问题在邮件组公开讨论解决。


2013/1/21 Mingli Yuan <mingl...@gmail.com>
Reply all
Reply to author
Forward
0 new messages