周锡令
2000年3月23日
2001/2/3修改
[ percylee 转载于 中文自然语言处理开放平台 ]
摘要:
计算机在处理编程语言方面的巨大成功 和
在自然语言处理方面的举步维艰
形成了巨大的反差。"比较"是观察和分析事物的有效方法,把自然语言和人工设计的语言进行一番比较也许能给我们一些工作上的启示。作为信息传递的媒介,目前的计算机语言
和 自然语言
虽然在外表上有很大差异,但是在实质上的确有不少相通或者互相对应的地方。从最初的比较简单的计算机语言(例如初期的Basic)到后来越来越复杂的Fortran,
C,
C++,我们可以看到把自然语言中的一些机制逐步添加到计算给语言中的迹象。计算机处理自然语言遇到重大困难,而人却能应付如裕,是因为人拥有知识(包括社会生活常识以及各种专业知识),并且具有应用这些知识来"解读"语句的能力。自然语言是千百年以来为人际交流的目的而发展起来的。现在,人们越来越多地"上网",计算机
越来越成为这个语言社会中的一个重要的参与者。人们就会自觉、不自觉地根据计算机的"能力"去总结汉语的规律,反过来影响,甚至改造人们的语言习惯。一方面,技术向自然语言的深层冲击,另一方面,自然语言向现代技术靠拢,这两方面的发展趋势会和起来,将会是解决"基于语义,基于理解的自然语言处理"这一战略任务的过程中的一个重要特征。
自然语言和编程语言显然有很多地方不同。但是作为“语言”,两者都面临语言使用这所需要的一些要求:
(1) 有强大的表达能力(能够把事情说清楚)
(2) 结构化。人的短时记忆容量不多,信息如果不分层次,无论听说还是阅读都会造成困难。
(3) 具有简洁、浓缩表达的机制(使听说双方都不觉得罗嗦)。
在这两种要求的驱动下,两种语言都会发展出一些机制,这些机制在两种语言中的表现可能大不相同,但是会存在某种对应关系。
在文科领域有所谓“比较文学”的行当。考虑到不同民族,不同文化发源地发展出来的文学作品既有各自的特色,又有互通的共性,可以对它们的异同加以比较。事实证明,从这种比较中,可以得到许多有益的启示。“比较”既然是观察和分析事物的有效方法,把自然形成的语言和人工设计的语言(计算机编程语言就是应用最为广泛的一种人工语言)进行一番比较也许能给我们一些工作上的启示。
语言的设计者
自然语言是在无数多人群之间的碰撞和交流之间产生、发展、筛选、淘汰之后形成的,好比是“市场经济”的产物。
计算机编程语言(以下简称“编程语言”)则是“计划经济”的产物。它所使用的词汇、规则都是事先由一位“上帝”(语言的设计者)策划好的。
在编程语言中对应的东西就是token。Token是编译程序中的术语,它包括外形像英语单词的
Word,以及“=, +, -, *, /, ==,>, <, (, ), ……”
之类的符号。
从信息处理的角度来看,“词”和token都是“符号(Symbol)”,它们可以被我们“用来”映射到各种实体或者概念上去。根据一个符号所映射到各种实体或者概念的性质来把它们进行分类。
语言学家把自然语言中的词划分为许多类:名词、动词、形容词、副词、数词、连接词、感叹词、………。我们应该注意到,它们不是在同一级别上的。
名词 和 动词:
是最重要的。它们直接反映了我们对世界上形形色色的事物以及这些事物之间的相互作用。
形容词、副词、数词、则是第二级的。它们只对事物以及这些事物之间的相互作用起修饰作用。
剩下来的连接词、感叹词、………则是第三级的。它们主要起语法的作用。(用来提示语句内部的结构性信息,起连接作用、用来表述“词”与“词”之间的关系)
与之对应,在编程语言中,可以把token划分为:
命令:运算符、子程序名。它们对应于自然语言中的动词。动词的“价”则相当于编程语言中的命令、运算符、子程序所需要的“变元(arguments)”的个数。在编程语言中,有时某些“变元”可以省略不写,而用预先规定的“缺省值”代替。在自然语言中,也有类似的情况,但是缺省的东西要根据上下文来补充。
自然语言中存在一些“泛义动词”,例如汉语中的“打”,“搞”,“干”……,英语中的“get”,“take”等。它们的进一步的具体含义要由这些动词所涉及的对象来确定。例如:“打毛衣”中的“打”应理解为“编织”,
“打篮球”中的“打”应理解为“玩”,
“打开水”中的“打”应理解为“取得”,等等。
在面向对象的编程语言中,也有类似的“动态绑定(Dynamic
Binding)”机制:一个函数名或者子程序名字的具体含义要在“运行时”依据所涉及对象在当时的指的类型来决定。
数据:常数、变量名。它们对应于自然语言中的名词。
其他:起连接作用、用来表述token
之间的关系的符号,例如if,
then等等。它们对应于自然语言中的连接词、感叹词等等。
动词和名词之间的互换性
在自然语言中,有一个引人瞩目的现象,那就是“名词和动词之间的呼唤性”。这是因为,“词”或者token是用来表达“概念”的,而一个概念往往有多种侧面。所以自然语言中常常出现用同一个“符号”来表达不同的侧面的现象。举例来说:
“钉”本来是名词,但是可以转化,作为动词来使用:我把画钉在墙上。
“锁”本来是名词,但是可以转化,作为动词来使用:我用锁把门锁上。
古汉语中这样的例子更多。“叔”可以转化为“认……为叔叔”,“尘”可以当作“弄脏”,“污染”的意义来使用。
反过来,动词也往往可以转化为名词使用。比如,“偷”是动词。但是在“偷是不对的。”这句话中的“偷”却是一个名词,因为这句话也可以说成:“偷这种行为是不对的”
在计算机编程语言中,也有类似情况。在declaration(声明)中,函数、子程序名表现为“名词”,但是在执行语句中,他们就成了动词。例如在C语言中:
double x,y;
double sqrt(double); /* sqrt 在这里以名词的面貌出现*/
…………….
x = sqrt(y); /* sqrt 在这里以动词的面貌出现*/
不管在自然语言中,还是在编程语言中,判断一个词或者
token 的类别的办法基本上是两种:词典 和
词本身所携带的形态标志。
词典中提供的信息
在编程语言中,为判断一个 token
的类别而提供的“词典”有两种:
1. 一种是语言中“先验地”规定好了的外部词典。例如关键字和一些保留字。
2. 另外一种是编程人员(用户)临时定义的内部词典,这就是程序中的
declaration.
在自然语言中,基本上只使用外部词典。(在某些文件
[特别是有关技术标准的文件]
中,有时也在文件的开头部分定义一个“术语”集合,但是很少涉及词性的问题)。
例如中,市面上提供的英语词典对其中所收罗的词的词性都给出了说明。与编程语言不同的地方是:有相当一部分词具有多种词性。例如:字符串“increase”
既可以当作名词来使用,又可以当作动词来使用。
奇怪的是,汉语词典基本上都没有给出词性方面的信息。其主要原因大概是由于汉语中大部分的词都允许以多种方式使用,也就是说具有不止一种词性。这种现象在古汉语中标显得尤为明显。汉语中的这种“传统”的来源可能如下:
汉语是象形文字,最方便给有形的对象起名字。所以至少在汉语中“名词”最优先地得到发展。在古汉语中,由于为抽象的动作设计象形字比较困难,所以往往就把名词直截了当地转化为动词使用:“老”指老年人,老年人应予以“尊重”,所以就把它当作现代汉语中的“尊重”这一动词来使用。“幼”指婴幼儿,婴幼儿需要“爱护”,所以就把它当作现代汉语中的“爱护”这一动词来使用。于是就出现了“老吾老以及人之老,幼吾幼以及人之幼”以及与之类似的“君君臣臣父父子子”这类令现代人费解的句子。
如果能够从词或
token的外形(形式上的)特征就能判断出他是属于哪一类,那么无论从“书写者撰写”的角度,还是从“阅读者理解”的角度,都能够大大减少出错的机会。
在某些编程语言(例如Visual
Basic)中,如果一个变量没有在任何地方加以声明,也可以从变量名字的外形上看出它的类型。例如:名字以%结尾的变量是‘整数’,
名字以&结尾的变量是‘字符串’,名字以&结尾的变量是‘浮点数’等等。
英语中,在某种程度上也有类似的机制,例如:以tion,
ing 结尾的基本上是名词。以-lize
结尾的基本上是名词。以-ful
结尾的基本上是形容词。以-ly 结尾的大概是副词。
汉语使用方块字,没有办法添加尾缀,所以没有这样的形态标志。因此大家认为,这一现象给汉语的计算机处理增加了困难。不过话不能说得太绝对。在某些情况下,汉语还是有“形态标志”的。例如,在名词的前面加“很”“还”之类一般用来修饰形容词的副词,就是在“形态”上指出:后面的这个名词已经转化为“形容词”了。例子如:“同学们说我穿这条裙子很青春。”,“我们排演的这套节目还是很生活的。”,“他比林彪还林彪。”。
作用域
编程语言的名字都有“作用域(scope)”问题。这一点在语言设计中都作了明确、毫不含糊的规定。程序被划分为模块、分程序,它们是作用域的天然边界。
自然语言中当然有类似要求。章节、段落的划分,引号(“
”,‘
’)的使用也是名字的作用域的天然边界。但是与编程语言相比,并没有硬性的规定,读者往往要利用生活常识依据“语义合理性”来进行判断。
指针
自然语言中的指代词(你、我、他、它等等)好比编程语言中的“指针(point)”。但是自然语言中从不明显地交待:从现在起,“他”表示“张三”,直到遇见新的声明为止。每一个具体的代词指向何方要根据句子域句子之间的前后语义来联系来判断。
在为了处理自然语言而为计算机编制词典的时候,一个十分重要的问题是:我们把自然语言中的“词”看成是一个“概念(concept)”还是只看成一个“符号(symbol)”。字面上的一个词可以对应多个概念,例如“编辑”既可以指一种工作、职业,又可以指以这种工作为职业的“人”。目前这方面似乎仍存在不同的看法,但是从计算机处理的角度看,当然是看成一个“符号”为宜。这样就出现了如何判断某一个“词(符号)”指向何种概念的问题。自然语言中使用最多、最具有生命力的词大多具有多个“义项”。从这个观点看,多义项词
更接近于编程语言中的指针。
动作语句
自然语言中,像:
税收人员 向 大家 宣传 税收政策。
我 吃了 一块蛋糕。
都表示某一主体采取了某种动作,因而改变了世界。这种句子围绕着中心动词“宣传”,“吃”而展开。这种“动作语句”显然对应于编程语言中的“命令语句”(赋值语句,子程序调用,带有副作用的函数调用等。)
如果使用编程语言中的形式来书写上述两个句子,结果就是:
宣传(税收人员,大家,税收政策)
吃(我,一块蛋糕)
子程序“宣传”有三个变元,所以“宣传”是三价动词。子程序“吃”有两个变元,所以“吃”是二价动词。
描述语句
自然语言中,描述句以静态的方式描写周围的世界,某种事物的存在,或者它的属性。在汉语中,最常见的是以“是”为中心谓词的描写句,例如:
她 是 近视眼。(健康)
他 是 小孩。(年龄)
他 是 高个子。(身材)
他 是 工程师。(职业)
……
可见,中心谓词“是”把句子分成左右两个部分。右边部分叙述了左边部分的某种属性。至于具体是什么属性,完全要依靠读者的知识来判断。也许把“是”称为“系动词”就是因为它的功能只不过是把左右两部分联系起来,或者说,只是指出左右两部分有联系,至于什么样的联系,则语焉不详。
由于系动词只起“语法上分割、语义上联系”的作用,因此它往往可以被省略(这时可以认为中心谓词是“Φ”
)。
这人 Φ 黄头发。
你 Φ 傻冒。
在英语中也有类似情况,特别是在要求句子简短有力的场合:
You baby!
You silly boy!
编程语言中,与描述句对应的东西是 declaration 以及
declaration 中的“初值语句”,例如:
int x = 3;
John.Hair.Color = Yellow;
“你进来好吗?”,“3加5等于几?”这类疑问句似乎在编程语言中找不到对应物。其实是有的,就是包括函数在内的“表达”。
计算机程序在运行过程中遇到包括函数在内的“表达式”时,就要计算这个表达式的值,也就是向计算机硬件、程序库、操作系统询问计算结果。
语境的动态变化
目前我们所使用的计算机都是基于冯•诺意曼模型的机器。其中最具有特点的就是“赋值语句对环境所施加的改变”和随时用来记录不断改变着的环境的存储系统(寄存器、堆栈、内存、外存)。正是由于这一原因,多年以来所发展出来的、针对静态环境的数学证明方法在“程序正确性证明”的问题上失去了效力。
自然语言中的“动作语句”既然和编程语言中的“赋值语句”相当,它也必然会产生同样的难题。以当前水平的机器翻译软件为代表的自然语言处理软件都是“没有记忆”的,并不把所处理的语句对环境的影响记录下来。
如果自然语言处理软件有这种记忆机制,那么它在处理以下句子
1. 孙武 是 春秋时代的 军事家。
2. 他说:“……”。
的时候,就会在处理完第一句后,在“情景堆栈”中记住:现在有了一个最新被提到的人物:春秋时代的
军事家 - 孙武
于是在处理第二句时,就知道句子中的“他”就是这个“孙武”,由于他是春秋时代的人,所以“说”要使用“过去式”。
当然,这个例子太简单了。“情景堆栈”应该怎样设计,尚有待于探讨。但是这个问题是计算机理解自然语言时避免不了的。
小结
从以上讨论可以看出两点:
1) 作为信息传递的媒介,目前的计算机语言 和
自然语言
虽然在外表上有很大差异,但是在实质上的确有不少相通或者互相对应的地方。
2) 从最初的比较简单的计算机语言(例如初期的Basic)到后来越来越复杂的Fortran,
C,
C++,我们可以看到把自然语言中的一些机制逐步添加到计算给语言中的迹象。
这个问题之所以值得研究是因为这一研究有可能帮助我们搞清楚计算机在处理自然语言时所遇到的困难的本质
以及克服这些困难的途径。
语句结构分析时语义的介入必要性
以上我们讨论了自然语言与编程语言之间的相似之处,也顺便指出了两者之间的一些区别。但是上面所说的这些区别不一定都是本质性的、或者根本性的。两者之间本质性的区别表现在:自然语言处理在许多阶段的工作中都需要涉及语义,需要语言之外的生活常识、社会与自然科学知识的支持才能完成。以下是其中主要的几个方面。
汉语句子的分词和词性标注
分词虽然可以在大部分情况下利用辞典和匹配的方法得到正确的答案,但是有时也需要运用语言之外、语境方面的知识。“乒乓球拍卖完了”应该读成“乒乓球
拍卖 完了”还是“乒乓球拍 卖
完了”的问题就是一个典型的例子。
编程语言中的token,除了“指针”以外,基本上都只属于一种类别,没有任何含混之处。然而,自然语言中的词却可以有多种词性,汉语尤其如此。但是在一个具体的句子中,每一个词的词性确是唯一的,因此就存在着如何根据这个词的周围的环境来判断其词性,这就是词性标注问题。计算机可以从统计规律出发“胡蒙乱猜”,并且期望能够在大多数情况下得到正确的结果,但是像上面所举例子:“把收集到的数据记录在数据库记录中”就很难保证正确判断其中的两个“记录”的词性。
句子结构分析
我们都知道,句子从外表看只是一维的“字词流”,但它是有它的内部结构的。分析或者理解一个句子的时候,第一件事就是要从它的一维的字词流中提取句子的内部结构。正是在作这件事的时候,出现了自然语言和被称之为“形式语言”的编程语言的本质区别。
在对计算机编程语言进行语法分析的时候,由于语句中每一token均由确切的含义,语言的语法大多限定在上下文无关文法的范围之内,编译器只需要拥有语句中的“形式标记信息”和在语言内部预先定好的一些规则就可以完成任务,而且所得结果是唯一的,用不着利用与外部世界有关的知识。编译器在语法分析结束以后进入代码生成阶段时,才要涉及语义问题。
反之,在分析自然语言中的句子的时候,即便是分词、词性判断等标志性信息均已完备的情况下,也往往要借助“语义合理性”方面的判断。
而“合理与否”则要依靠语言之外的生活常识、社会与自然科学知识。举例来说,
她 想 穿 将军 的 大衣。
她 想念 穿 大衣 的 将军。
着两句话的形式都是:“名 动 动 名 ‘的’
名”的格式。但是内部结构完全不同。我们在阅读这两句话的时候,可以毫无困难地分别把它们理解为:
她 想穿 (将军 的)大衣。
她 想念 (穿 大衣 的)将军。
这是因为我们有“人可以穿大衣,但是大衣却不能‘穿’人”的常识。没有生活常识以及运用这种常识的能力的计算机,仅仅凭语言知识和语句中的形式标志显然是没有办法完成这种句子的结构分析的任务的。
例1:汉语中,“踌躇”是“犹豫不决”的意思(如说“踌躇不前”)。但是如果后面紧跟着“志满”(踌躇志满),意思就来了一个一百八十度的大转弯,变成“从容自信”了。
例2:如上所述,汉语中的“打”字是一个泛义动词,在“打毛衣”,“打篮球”,“打水”三种说法中分别理解为“编织”,“玩”,“取得”。这一要求可以通过对“词语搭配关系”的考察来解决。
在计算机语言中,也有类似情况。例如用来打开文件的open
就是一个泛义动词,在打开某一具体文件时,到底要使用哪一个
application,则要看这个文件的类型是什么?例如,如果文件名的后缀是
.doc, 就使用 MS Winword, 如果文件名的后缀是 .txt,
就使用 Notepad.然而,
在自然语言中,有时更复杂一点。例如:在以下这句话中:
渔民用竹篙打水,想把鱼赶进渔网中去。
“打”自由应理解为“击打”的意思。而在
渔民用木桶打水洗菜做饭。
中的“打”又依然应理解为“取得”的意思。换言之,一个泛意动词的语义不仅取决于它的宾语,有时还得看看“施主”和“工具”是什么?
叶圣陶先生在他所写的一篇文章《据理论而言》中也提到一个例子:
解放前“某大学招考新生,国文的作文题目是《防民之口甚于防川论》。很有些应试的同学解错了题目,做出来的文字牛头不对马嘴。”之所以会这样,是因为“防民之口甚于防川”这句话可以有很多解释:
防民之口其困难甚于防川
防民之口其重要性甚于防川
防民之口其……甚于防川
防民之口其危险甚于防川
这些“应试的同学”大概都理解为前面两种。如果他们看到《古文观止》里收录的《国语》里的那篇“召公谏历王止谤”的文章中这两句话的下文:
防民之口,甚于防川。川壅而溃,伤人必多,民亦如之。
就知道应该按照相反的方向来理解了。
自然语言中这种“必须依靠文章以外的知识来解读
作为符号的“词”的指向”的要求,
给计算机处理自然语言的工作带来了重大困难。
语句分析的“终极”在哪里?
计算机语言的编译器在分析计算机程序中的语句时,最终总是要分析到语法规则中所规定的“终极符(terminator)”为止。
在自然语言中的情况比较复杂。汉语句子中的终极符显然不是汉字,但也不一定是“词”。在“他胸有成竹”这句含有成语的话中,“胸有成竹”应该是终极符,因为你不能再继续把它进一步分解了。再分解就真的变成“他的胸腔中有一根竹子”了。同样地,“大家奋力力救火”中的“救火”也是终极符,因为你一定不能再进一步把“救火”当作“动宾短语”去进一步分析。“救火”中的“救”与“火”不过是由“抢救生命与财产于烈火之中”这句话里提取出来的两个“特征字眼”而已。
英语没有汉语中的分词的麻烦,但是也有类似问题。许多介词短语是一个整体,不能继续分解。比如说,当讨论某人的家庭情况时,有人回答:“He
is on the street.” 这“on the
street”就应该整体地作为表示“无家可归”的一个词组来理解。
话又说回来,要是孩子的父亲问母亲:“孩子上哪儿去玩去了?”母亲若回答“He
is on the
street.”那就表示这孩子真的是在街上玩。可见,一个词组应不应该作为“终极符”,还得要看语境。这进一步增加了自然语言理解的复杂性。
规则与习惯
计算机编程语言中,只要是符合语法规则的句子就都是合法、并且可以使用的。但是在自然语言中,却要看‘习惯’。你虽然在离开家时可以说:“我用‘锁’把门‘锁’上”,但在回家时,却不能用类推的方式说:“我从兜里掏出‘钥匙’来‘钥匙’门”。因为(社会上)没有这种说法!(这大约是因为后面这种说法太‘绕口’)。反之,看起来虽然不大合乎语法,但是大家说惯了,却是允许的。
隐含与联想
我们可以把“自然语言”进一步划分为“技术语言”和“文化语言”两种。前者的例子如:技术资料,法律文件等。后者的例子如:诗词、小说等。两者的主要区别是,“文化语言”常常含有“言外之意”,并且引起或者要求读者(听者)发挥“联想”的主观能动性。这个要求显然离开当前计算机的水平更加遥远,所以在此不再展开讨论。
视觉特性
汉语使用象形字,因而在“字”和“词”这一级就有视觉特性的问题。我们初中时就读过李煜的词《浪淘沙令》中的“帘外雨潺潺,春意阑珊。”后来看见老舍先生批评这种句子说:从来就不知道雨怎么个“阑珊”法,春意又怎么个“阑珊”法,觉得老舍先生讲得对。可是又觉得,虽然从来没有去词典上查过“潺潺”是什么意思,但是当初读李煜的词时并没有觉得费解。但讲不出道理。最近看到王蒙在《道是词典还小说》这篇文章中解释了这个问题:
问题不在于“潺潺”本身的含义,对于我来说,“潺潺”的说服力在于字形中放在一堆的六个“子”字,它们立即使我想起了流水上的丝皱般的波纹。从上小学,我一读到“潺潺”二字就恍如看到了水波。
除了“字”和“词”这一级以外,自然语言在段落、章节的划分上也有“语义”上的含义,并且隐含着各种代词的“作用域(Scope)”划分。
计算机编程语言中,虽然在“段落”一级上应该力图在视觉上显示程序的嵌套结构。以利于“人”的阅读。但是这种做法对计算机好毫无意义。“作用域(Scope)”划分也应该有明确的declaration来规定,而不能是隐含的。
小结
传统的计算机语言 和
自然语言的上述差别是造成计算机处理自然语言遇到重大困难的主要原因。人之所以对自然语言应付如裕,是因为人拥有知识(包括社会生活常识以及各种专业知识),并且具有应用这些知识来“解读语句(猜测语义)”的能力。
事实上,即便是人,由于文化程度和专业领域的不同,如果他听(读)到语句在解读时所需要的知识超过了他的知识范围,也会产生理解上的困难。因此,人们在通过语言相互交流时,还需要遵从某种协议。