关于语料库的基础工作

Mingli Yuan

unread,

Dec 25, 2012, 5:33:52 AM12/25/12

to ju...@googlegroups.com

嗨，各位，

大家很多都做过分词系统的开发，所以语料库的重要不复赘述。以下是我一些零碎的想法，不成系统。

目前开源的词典已经比较多了，但开源的语料库并不多见。

而且即便你能获取到，往往都有各种附加条款。

我有一个设想，可以让我们快速建立一个开源的语料库。

以分词为例（类似还有命名实体识别和词性标注）。

收集无版权限制的中文文本
选择三个分词质量比较高的分词系统，如MMSEG、Stanford WordSeg 之类的
然后三个系统分别对文本进行分词，并把结果彼此对比
我们把三个分词结果的差异着重标注出来，并由手工消解，最终形成我们开源的分词语料

如法炮制，也可以获得命名实体识别和词性标注的语料库。

在这个过程进行之前和之中，我们还需要就分词的体例规则达成共识。虽然分词的标准是大致统一的，但也有稍有差异的地方，比如

人名中姓和名是否分隔
长词是否细分
……

关于，语料库的格式问题，我已经有一个示例了：

https://github.com/guokr/corpus

还有几个可以想到的点：

语料库的并非只面向分词，还包括命名实体识别和词性标注
格式开放，最好是纯文本，而非XML或者加密之类的
方便开发
可压缩，方便使用
提供使用工具和开发工具

以上内容，还请感兴趣者讨论！

明理

pem

unread,

Dec 25, 2012, 12:07:05 PM12/25/12

to judou, wqy-users

大家好，

目测这是个人肉计算的项目~ 类似文泉驿
可能会需要有一个方便参与众人参与的工具，
类似这个造字的工具 http://wenq.org/index.cgi?Canvas#U29567

祝好
pem

> 我有一个设想，可以让我们快速建立一个开源的语料库。
> 以分词为例（类似还有命名实体识别和词性标注）。
> 1. 收集无版权限制的中文文本
> 2. 选择三个分词质量比较高的分词系统，如MMSEG、Stanford WordSeg 之类的
> 3. 然后三个系统分别对文本进行分词，并把结果彼此对比
> 4. 我们把三个分词结果的差异着重标注出来，并由手工消解，最终形成我们开源的分词语料
> 如法炮制，也可以获得命名实体识别和词性标注的语料库。
> - 语料库的并非只面向分词，还包括命名实体识别和词性标注
> - 格式开放，最好是纯文本，而非XML或者加密之类的

twinsant

unread,

Dec 26, 2012, 8:52:13 AM12/26/12

to 句读：开放的中文分词项目

2012/12/26 pem <pem...@gmail.com>

大家好，

目测这是个人肉计算的项目~ 类似文泉驿
可能会需要有一个方便参与众人参与的工具，
类似这个造字的工具 http://wenq.org/index.cgi?Canvas#U29567

这是前端组件，连接差异数据库。

祝好
pem

> 我有一个设想，可以让我们快速建立一个开源的语料库。
> 以分词为例（类似还有命名实体识别和词性标注）。
> 1. 收集无版权限制的中文文本

这是libcorpus

> 2. 选择三个分词质量比较高的分词系统，如MMSEG、Stanford WordSeg 之类的

可以在任意客户端运行其他分词系统，将差异结果提交到数据库

> 3. 然后三个系统分别对文本进行分词，并把结果彼此对比
> 4. 我们把三个分词结果的差异着重标注出来，并由手工消解，最终形成我们开源的分词语料
> 如法炮制，也可以获得命名实体识别和词性标注的语料库。
> - 语料库的并非只面向分词，还包括命名实体识别和词性标注
> - 格式开放，最好是纯文本，而非XML或者加密之类的

赞同纯文本，需要一个格式文件定义。

--
====================
句读：开放的中文分词项目
====================

主要链接
=======

* 句读首页：http://judou.org

使用
====
* 讨论请发邮件到ju...@googlegroups.com
* 查看更多到http://groups.google.com/group/judou

* 想退订发邮件到judou+un...@googlegroups.com

twinsant

unread,

Dec 27, 2012, 10:33:27 PM12/27/12

to 句读：开放的中文分词项目

我突然有个疑惑，目前语料库的在分词研究中使用场景是怎样的？

2012/12/26 twinsant <twin...@gmail.com>

Mingli Yuan

unread,

Dec 27, 2012, 11:19:58 PM12/27/12

to ju...@googlegroups.com

除了基于词典的分词技术，其他很多如HMM、CRF等分词算法都需要有语料库来训练系统。

只有训练好的系统才可以工作。

2012/12/28 twinsant <twin...@gmail.com>

twinsant

unread,

Dec 28, 2012, 6:25:19 AM12/28/12

to ju...@googlegroups.com

对应的算法各需要哪种统计信息呢。

Mingli Yuan

unread,

Dec 30, 2012, 12:14:38 AM12/30/12

to ju...@googlegroups.com

嗨，蚂蚁兄，

“对应的算法各需要哪种统计信息”对语料库来说说并不重要。整个领域应该大致是这样划分的：

理论的语言模型----------|

| 算法

应 | |

《----- 模型实现接口《------------------ 语料库

用数据

不同算法使用语料库产生自己的模型数据。

算法程序和模型数据一起构成一种语言模型的实现接口。

再利用模型的实现接口解决实际应用的问题。

2012/12/28 twinsant <twin...@gmail.com>

Mingli Yuan

unread,

Dec 30, 2012, 11:31:42 PM12/30/12

to ju...@googlegroups.com

https://github.com/judou/libcorpus/blob/master/spec/zh-cn.md

https://github.com/judou/libcorpus/tree/master/example

我计划用一到两周的时间把语料库的格式草案写出来，然后大家讨论。

整个语料库的元数据组织、文本数据组织，都类似 https://github.com/guokr/corpus

用纯文本，分文件夹组织

而标注格式则类似北大发布的人民日报92年版的词性标注语料。

大致来说标注格式是：

用中括号 [] 限定范围，如 [美利坚/N 合众国/N]/N
用斜线标注，如宇宙/N
用反斜线转义，如 \/

2012/12/30 Mingli Yuan <mingl...@gmail.com>

twinsant

unread,

Jan 3, 2013, 8:40:48 PM1/3/13

to 句读：开放的中文分词项目

目前没有太多的想法。

moutain可以lead着进行前进，我follow。

完成比争论更重要。

2012/12/31 Mingli Yuan <mingl...@gmail.com>

何浩

unread,

Jan 4, 2013, 10:08:46 AM1/4/13

to ju...@googlegroups.com

很有意义，非常支持！

2013/1/3 twinsant <twin...@gmail.com>

twinsant

unread,

Jan 4, 2013, 8:41:35 PM1/4/13

to 句读：开放的中文分词项目

其实我的意思是搜索引擎的索引是一个非常大的原语料库，有些信息也可以从那里挖掘。

2012/12/30 Mingli Yuan <mingl...@gmail.com>

Mingli Yuan

unread,

Jan 17, 2013, 8:38:29 PM1/17/13

to ju...@googlegroups.com

能稍微说一下细节吗？

我最进一直在忙新项目上线，顾不过来这边。

2013/1/18 twinsant <twin...@gmail.com>

我考虑在libcorpus里加个contrib包，这几天写个CorpusPeopleDaily来提供人民日报语料的解析。

大家有何建议？

2012/12/25 Mingli Yuan <mingl...@gmail.com>

--
====================
句读：开放的中文分词项目
====================

主要链接
=======

* 句读首页：http://judou.org

使用
====
* 讨论请发邮件到ju...@googlegroups.com
* 查看更多到http://groups.google.com/group/judou

* 想退订发邮件到judou+un...@googlegroups.com

twinsant

unread,

Jan 17, 2013, 8:17:05 PM1/17/13

to 句读：开放的中文分词项目

我考虑在libcorpus里加个contrib包，这几天写个CorpusPeopleDaily来提供人民日报语料的解析。

大家有何建议？

2012/12/25 Mingli Yuan <mingl...@gmail.com>

嗨，各位，

twinsant

unread,

Jan 20, 2013, 8:08:52 PM1/20/13

to 句读：开放的中文分词项目

已经push上去了，大家给些意见和建议吧。

https://github.com/judou/libcorpus/tree/master/contrib

一直没搞明白github应该怎样选择流程：

1. 开发

2. pull request？

3. review

4. merge

还是直接push

我倾向于人少的情况下直接push，存在问题再拿出来讨论，规范流程。

2013/1/18 Mingli Yuan <mingl...@gmail.com>

Mingli Yuan

unread,

Jan 20, 2013, 8:31:16 PM1/20/13

to ju...@googlegroups.com

能够直接push的都是非常信任的成员。其他需要review。

2013/1/21 twinsant <twin...@gmail.com>

twinsant

unread,

Jan 20, 2013, 8:36:19 PM1/20/13

to 句读：开放的中文分词项目

那就订下基本规则：

项目的push权限成员的选择由已有权限成员讨论决定。

push过程中发生的问题在邮件组公开讨论解决。

2013/1/21 Mingli Yuan <mingl...@gmail.com>

Reply all

Reply to author

Forward