以字分词

65 views
Skip to first unread message

张沈鹏

unread,
Jun 6, 2009, 9:10:52 AM6/6/09
to ju...@googlegroups.com
打算在6.13日的python聚会上 简单提一下 以字分词

不过因为我对分词是民科

很多东西都是自己揣摩猜想的

因此先写了一个ppt

大家帮忙看看有没有什么问题

谢谢:)

--
弓长
孝文


http://zsp.javaeye.com/

以字分词_张沈鹏.pdf

liz

unread,
Jun 6, 2009, 10:00:00 PM6/6/09
to ju...@googlegroups.com
讲的很通俗易懂,很不错。

对于中文分词,我也是最近才开始看的,看了这个PPT,嘿嘿,终于知道如何以字分词了。其中,想问个菜鸟级的问题。

1)标注字位时的字符窗口大小是固定的么?比如3字位,或4字位,6字位,这个确定了对应的模板也就确定了吧?

2)那对于一个句子来说,比如使用3字位,是否是将任意句子分成3个字的串来分析每个字的tag。这样的3个3个的划分,那对于某些超过3个字的但在意义上不可分割的词,如,岂不会被强制解析字位而产生错误,比如说,可口可乐,心心相印等,或者那ppt上的例子来说,
乒乓球/拍卖/完了----如果这句子解析成这样的话,3字位是没有问题的。但是对于
乒乓球拍/卖/完了----如果按照3字位的话,岂不永远也解析不出这种意义了?

3)另外一个,想问下各位的话,在分词中解决词的歧义问题,一般有哪些方法呢?根据上下文猜测的话,这就涉及到语义问题了,那这个就非常麻烦了。。。



2009/6/6 张沈鹏 <zsp...@gmail.com>

张沈鹏

unread,
Jun 6, 2009, 11:06:06 PM6/6/09
to ju...@googlegroups.com
2009/6/7 liz <shengy...@gmail.com>:

> 讲的很通俗易懂,很不错。
>
> 对于中文分词,我也是最近才开始看的,看了这个PPT,嘿嘿,终于知道如何以字分词了。其中,想问个菜鸟级的问题。
>
> 1)标注字位时的字符窗口大小是固定的么?比如3字位,或4字位,6字位,这个确定了对应的模板也就确定了吧?

不是 常用的有3-6字位

>
> 2)那对于一个句子来说,比如使用3字位,是否是将任意句子分成3个字的串来分析每个字的tag。这样的3个3个的划分,那对于某些超过3个字的但在意义上不可分割的词,如,岂不会被强制解析字位而产生错误,比如说,可口可乐,心心相印等,或者那ppt上的例子来说,
> 乒乓球/拍卖/完了----如果这句子解析成这样的话,3字位是没有问题的。但是对于
> 乒乓球拍/卖/完了----如果按照3字位的话,岂不永远也解析不出这种意义了?


不是

乒乓球拍卖


_乒乓 标注 乒 - >S
乒乓球 标注 乓 -> M
乓球拍 标注 球 -> M
球拍卖 标注 拍 -> E

SMME -> 乒乓球拍 是一个词

> 3)另外一个,想问下各位的话,在分词中解决词的歧义问题,一般有哪些方法呢?根据上下文猜测的话,这就涉及到语义问题了,那这个就非常麻烦了。。。

常用的hmm消除歧义

""""
“互信息”是信息熵的引申概念,它是对两个随机事件相关性的度量。比如说今天随机事件北京下雨和随机变量空气湿度的相关性就很大,但是和姚明所在的休斯敦火箭队是否能赢公牛队几乎无关。互信息就是用来量化度量这种相关性的。在自然语言处理中,经常要度量一些语言现象的相关性。比如在机器翻译中,最难的问题是词义的二义性(歧义性)问题。比如
Bush 一词可以是美国总统的名字,也可以是灌木丛。(有一个笑话,美国上届总统候选人凯里 Kerry
的名字被一些机器翻译系统翻译成了"爱尔兰的小母牛",Kerry
在英语中另外一个意思。)那么如何正确地翻译这个词呢?人们很容易想到要用语法、要分析语句等等。其实,至今为止,没有一种语法能很好解决这个问题,真正实用的方法是使用互信息。具体的解决办法大致如下:首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译
Bush 时,看看上下文中哪类相关的词多就可以了。这种方法最初是由吉尔(Gale),丘奇(Church)和雅让斯基(Yarowsky)提出的。
""""

liz

unread,
Jun 7, 2009, 5:56:47 AM6/7/09
to ju...@googlegroups.com


2009/6/7 张沈鹏 <zsp...@gmail.com>

2009/6/7 liz <shengy...@gmail.com>:
> 讲的很通俗易懂,很不错。
>
> 对于中文分词,我也是最近才开始看的,看了这个PPT,嘿嘿,终于知道如何以字分词了。其中,想问个菜鸟级的问题。
>
> 1)标注字位时的字符窗口大小是固定的么?比如3字位,或4字位,6字位,这个确定了对应的模板也就确定了吧?

不是 常用的有3-6字位

>
> 2)那对于一个句子来说,比如使用3字位,是否是将任意句子分成3个字的串来分析每个字的tag。这样的3个3个的划分,那对于某些超过3个字的但在意义上不可分割的词,如,岂不会被强制解析字位而产生错误,比如说,可口可乐,心心相印等,或者那ppt上的例子来说,
> 乒乓球/拍卖/完了----如果这句子解析成这样的话,3字位是没有问题的。但是对于
> 乒乓球拍/卖/完了----如果按照3字位的话,岂不永远也解析不出这种意义了?


不是

乒乓球拍卖


_乒乓             标注 乒  - >S
乒乓球            标注 乓  -> M
乓球拍            标注 球  -> M
球拍卖            标注 拍  -> E

SMME -> 乒乓球拍  是一个词

多谢:) 原来之前还是理解错了~


> 3)另外一个,想问下各位的话,在分词中解决词的歧义问题,一般有哪些方法呢?根据上下文猜测的话,这就涉及到语义问题了,那这个就非常麻烦了。。。

常用的hmm消除歧义

""""
“互信息”是信息熵的引申概念,它是对两个随机事件相关性的度量。比如说今天随机事件北京下雨和随机变量空气湿度的相关性就很大,但是和姚明所在的休斯敦火箭队是否能赢公牛队几乎无关。互信息就是用来量化度量这种相关性的。在自然语言处理中,经常要度量一些语言现象的相关性。比如在机器翻译中,最难的问题是词义的二义性(歧义性)问题。比如
Bush 一词可以是美国总统的名字,也可以是灌木丛。(有一个笑话,美国上届总统候选人凯里 Kerry
的名字被一些机器翻译系统翻译成了"爱尔兰的小母牛",Kerry
在英语中另外一个意思。)那么如何正确地翻译这个词呢?人们很容易想到要用语法、要分析语句等等。其实,至今为止,没有一种语法能很好解决这个问题,真正实用的方法是使用互信息。具体的解决办法大致如下:首先从大量文本中找出和总统布什一起出现的互信息最大的一些词,比如总统、美国、国会、华盛顿等等,当然,再用同样的方法找出和灌木丛一起出现的互信息最大的词,比如土壤、植物、野生等等。有了这两组词,在翻译
Bush 时,看看上下文中哪类相关的词多就可以了。这种方法最初是由吉尔(Gale),丘奇(Church)和雅让斯基(Yarowsky)提出的。
""""
这貌似是数学之美系列中的介绍。
互信息,包括信息熵中的很多东西,都在概率统计模型基础上的。互信息一般常用于文本分类中的特征选择,衡量特征和类别的相关程度,计算虽然简单,但效果不如chi,信息增益等。而且貌似在语义领域似乎用的不是很多吧。不过回过来头看的话,本来想问的是在中文分词上,分词过程中如何来解决歧义,这时还没有明确特征,而互信息是针对已有特征的了。





张沈鹏

unread,
Jun 7, 2009, 11:14:45 AM6/7/09
to ju...@googlegroups.com
2009/6/7 liz <shengy...@gmail.com>:

基于层叠隐马模型的汉语词法分析
刘群1,3 张华平1,2 俞鸿魁1 程学旗1
1中国科学院计算技术研究所 北京 100080
2中国科学院研究生院 北京 100039
3北京大学计算语言学研究所 北京 100871
E-mail: {liuqun,zhanghp,yuhongkui,cxq}@ ict.ac.cn
摘要:本文提出了一种基于层叠隐马模型的汉语词法分析方法,旨在将汉语分词、词性标注、切分排歧和未登录词识别集成到一个完整的理论框架中。在分词方面,采取的是基于类的隐马模型,在这层隐马模型中,未登录词和词典中收录的普通词一样处理。未登录词识别引入了角色HMM:Viterbi算法标注出全局最优的角色序列,然后在角色序列的基础上,识别出未登录词,并计算出真实的可信度。在切分排歧方面,作者提出了一种基于N-最短路径的策略,即:在早期阶段召回
N个最佳结果作为候选集,目的是覆盖尽可能多的歧义字段,最终的结果会在未登录词识别和词性标注之后,从N个最有潜力的候选结果中选优得到。不同层面的实验表明,层叠隐马模型的各个层面对汉语词法分析都发挥了积极的作用。作者实现了基于层叠隐马模型的汉语词法分析系统ICTCLAS,该系统在2002年的
973专家组评测中获得第一名,在2003年汉语特别兴趣研究组(the ACL Special Interest Group on
Chinese Language Processing,
SIGHAN)组织的第一届国际汉语分词大赛中综合得分获得两项第一名、一项第二名。这表明:ICTCLAS是目前最好的汉语词法分析系统之一,层叠隐马模型能够解决好汉语词法问题。
关键词: 汉语词法分析; 分词; 词性标注; 未登录词识别; 层叠隐马模型; ICTCLAS
中图法分类号: TP391.2 文献标识码: A

twinsant

unread,
Jun 7, 2009, 8:25:04 PM6/7/09
to ju...@googlegroups.com
对应pdf已经放置在ftp里,请查看资源共享页面。
Reply all
Reply to author
Forward
0 new messages