摘要:词语语义相关度的计算,一种比较常用的方法是使用分类体系的语义词典,而国内外学者已经提出了多种基于语义相关的度量方法。这些方法对于词典和语言环境的依赖性是一个值得研究的问题。本文汇总了多种基于语义词典的方法,全面地概括分析了这类方法的特点。基于哈尔滨工业大学信息检索实验室提供的《同义词词林》扩展版,本文分别在真人单词对相关度判断实验和主题抽取的实际应用中比较了多种方法的效果,从而找出了《同义词词林》扩展版中的较好方法。
关键词:语义相关,度量方法,同义词词林
Abstract:To compute the semantic relatedness of glossary, a frequently used method is to use classified semantic dictionary. But scholar domestic and foreign has already proposed multiple account methods based on semantic relatedness. The dependence of these methods to the dictionary and context is a question worth to study. This paper collected multiple methods based on semantic dictionary, roundly summed up and analyzed the character of these methods. Based on the HIT IR-Lab Tongyici Cilin (Extended), this paper compared multiple methods’ effect in the application of the human couple words relatedness judgment experiment and the human subject extraction experiment, thereby find the best method used in the HIT IR-Lab Tongyici Cilin (Extended).
Keywords: Semantic Relatedness,measure methods, Tongyici Cilin
1 绪论
相关是人的思想和语言中最基本的元素,它存在于人们生活的每个角落。无论是从事科学研究还是处理日常琐事,人们总是将相关概念归类处理,并建立联想机制。一直以来,心理学家和信息科学研究者都努力将人的相关性认识形式化和可计算化。心理学家关心的是用什么样的相关性理论来解释人的相关性认识,而信息科学研究者更关心如何在计算机上模拟出人对相关性的判断。需要指出的是,语义相关可以应用于文本聚类、文本分类、自动应答、词义排歧和机器翻译等领域。它是一个基础研究课题,正在为越来越多的研究人员所关注。
目前,国外学者对于语义相关的研究已经比较成熟。语义相关的方法可以分为两类,一类是基于语义词典的方法,一类是统计的方法[1]。特别是利用WordNet[2]这个开源工具,很多学者都提出了基于语义词典来度量语义相关的方法,如Resnik[3]利用信息含量的方法,Banerjee和Pedersen[4]的扩展释义重叠方法等等。
但是,国内在语义相关原理和应用方面的研究都比较欠缺,特别缺少在中文环境下的分析与应用。颜伟和荀恩东[5]计算了WordNet中英语单词的相似度,孙爽和章勇[6]提出了基于语义相似度的聚类算法,但是他们研究的语言环境还是英语。在中文环境下,章成志[7]介绍了上文若干种度量方法但没有进行相互之间的比较,刘群和李素建[8]基于《知网》提出新的度量方法但仍囿于《知网》的规模相对较小。关毅和王晓龙[9]利用《同义词词林》和北京大学共享的《人民日报》精加工语料库进行了汉语词语相似度的计算,但是他们仅仅采用了Lin的方法,并且只是初步将机器排序结果与人工排序结果相比较,缺乏实际的应用背景。李峰[10]等人根据现有的方法,提出了多个相似度计算公式,但比较时实验集很小,并且缺乏在实际应用中的比较。
英语环境中所提出的各种方法,是否也同样适合于中文环境,换言之,它们是否具有对语义词典有依赖性。这是一个研究的问题,但是国内还没有开展过这方面的研究。本研究弥补了这个缺陷。利用哈尔滨工业大学信息检索实验室提供的《同义词词林》扩展版[11],本文一方面开展了单词对相关度判断实验,比较各种方法计算结果与真人结果的相关系数;另一方面,比较了各种度量方法在主题关键词抽取中的效果,找出中文环境中的较优方法并应用到实际项目之中。
2 基于语义词典度量方法
关于语义相关的研究由来已久,很多学者也都提出了自己的方法。本文主要从计算机科学的角度来介绍各种方法。从概念或语义角度计算相关度,大致可以分为两种方法:统计方法和语义词典的方法。同时应该注意的是,目前针对本体的研究非常之多。在某种意义上而言,本体或类似本体的结构,如主题图等都可以视为一个语义更为丰富的语义词典。所以,下文中基于语义词典的方法同样适用于本体中概念的相关度计算。
对于基于语义词典的方法的介绍, Budanitsky和Hirst[12]、Jiang和Conrath[13]等人都做过研究。因为每种相关度计算方法各有特点,所以本文将其汇总到表2.1中,并分析它们各自的特点,最后判断它们是否适用于《同义词词林》扩展版。表2.1中方法名称统一使用方法提出者的姓名缩写。表2.1中符号定义如下:
1) 同义词集 到同义词集 的最短路径的长度用 来表示。
2) 一个节点的深度是指从该节点到根节点的路径的长度,即, 。
3) 和 的最近共同父类,即同时包含c1和c2并且深度最大的类,记为 。
4) 给定两个概念 和 的语义相关度公式为 ,两个单词的相关度 可以通过公式2.1计算
(2.1)
即两个单词之间的相关度等于它们代表的概念之间的相关度的最大值。其中: 属于 , 属于 。这里 指“分类系统中单词wi的意义所对应的概念集合”[4]。
表2.1 基于语义词典度量相关度方法汇总
类型 |
名称 |
计算公式 |
方法特点 |
1 |
Hir-St |
|
利用语义词典的结构特点,包括连接路径的长度和方向转变次数。 |
1 |
Sussna |
|
同样是利用最短联接路径,但是路径中不同的关系有不同的权重。 |
1 |
Wu-Pa |
|
考虑了两个概念的深度和它们最特化包含类的深度 |
1 |
Lea-Ch |
|
考虑了最短路径长度和词典中的最大深度 |
2 |
Resnik |
|
首次将语料库中的词频作为信息含量引入计算 |
2 |
J-Con |
|
同时考虑了信息含量和词典的结构 |
2 |
Lin |
|
同时考虑了信息含量和词典的结构 |
3 |
B-Pe |
|
利用语义词典的注解中重叠部分的长度和加分机制 |
3 |
Pat |
|
利用注解中的单词生成单词向量,向量值从语料库的词频统计中获得 |
3 |
Liu |
|
利用义原层次体系中的距离来获得义原之间的语义距离 |
1) 第一列中1表示考虑结构特点的方法,2表示考虑信息量的方法,3表示利用概念释义的方法。
纵观以上各种基于语义词典的度量方法的计算公式,以下因素是最经常使用的:
1) 最短路径长度,即两个概念节点A和B之间所隔最少的边数量。例如表2.1中Hirst和St-Onge的方法[14],刘群和李素建的方法[8]。
2) 局部网络密度,即从同一个父节点引出的子节点数量。显然,层次网络中的各个部分的密度是不相同的。例如,WordNet中的plant/flora部分时非常密集的,一个父节点包含了数百个子节点。对于一个特定节点(和它的子节点)而言,全部的语义块是一个确定的数量,所以Richardson[15]认为局部密度效应就是,密度越大,节点(即父子节点或兄弟节点)之间的距离越近。
3) 节点在层次中的深度。徐德智[16]等认为,在层次树中,自顶向下,概念的分类是由大到小,大类间的相似度肯定要小于小类间的。所以当概念由抽象逐渐变得具体,连接它们的边对语义距离计算的影响应该逐渐减小。例如表2.1中Sussna的方法[17],Wu和Palmer的方法[18],Leacock和Chodorow的方法[19]等等。
4) 连接的类型,即概念节点之间的关系的类型。在许多语义网络中,上下位关系是一种最常见的关系,所以许多基于边的方法也仅仅考虑IS-A连接。事实上,如果其他类型的信息可以得到,如部分关系和整体关系,那么其他的关系类型对于边权重计算的影响也同样应该考虑。例如表2.1中Sussna的方法[17]。
5) 概念节点的信息含量。它的基本思想[3]是用概念间的共享信息作为度量相似性的依据,方法是从语义网中获得概念间的共享信息,从语料库的统计数据中获得共享信息的信息量,综合两者计算概念间的相似性。这种方法基于一个假设:概念在语料库中出现的频率越高,则越抽象,信息量越小。例如表2.1中Resnik的方法[3],Jiang和Conrath的方法[13],Lin的方法[20]。
6) 概念的释义。在基于词典的模型中--不论是基于传统词典,还是基于语义词典--词典被视为一个闭合的自然语言解释系统,每一个单词都被词典中其他的单词所解释。如果两个单词的释义词汇集重叠程度越高,则表明这两个单词越相似。例如表2.1中Banerjee和Pedersen的方法[4],Patwardhan等人的方法[21],刘群的方法[8]。
将上述六个因素进一步合并,则可归为三大因素:结构特点,信息量和概念释义。那么按照方法主要利用到的词典的特点,表2.1中所列举10种方法可以分为三种类型,考虑结构特点、考虑信息量和利用概念释义。表2.1中第一列分别标记方法所属类别。
目前,本研究中采用的语义词典是扩展并改进后的《同义词词林》。该词典本身结构与WordNet类似,所以前四种方法可以实现。在加入2000年《人民日报》语料库的词频统计结果[22]之后,Resnik的方法[3],Jiang-Conrath方法[13]和Lin的方法[20]同样可以实现。但是,《同义词词林》中不包含注解,所以Banerjee-Pedersen[4]和Patwardhan[21]不适用于我们的实验。所以在最终的实验中,本研究实现了Hirst-St-Onge[14]、Path(最短路径)、Wu-Palmer[18]、Leacock-Chodorow[19]、Resnik[3]、Jiang-Conrath[13]和Lin[20]等七种方法。在与真人单词对判断结果比较的时候,本文加入了刘群等人的方法。
3 《同义词词林》扩展版简介与改进
3.1 《同义词词林》扩展版简介
《同义词词林》是梅家驹等人[23]于1983年编纂而成,但是由于《同义词词林》出版时间较早,且一直没有更新,所以原书中的某些词语成为生僻词,而很多新词又没有加入。鉴于此,哈尔滨工业大学信息检索实验室开发了《同义词词林扩展版》。经扩展后的《同义词词林》含有丰富的同义词和相关词,可以作为语义词典用到语义相关度计算任务中。
《同义词词林》原版和扩展版作为语义词典其特点为:
1) 含有大量的同义词和相关词分类,使得该词典具有作为语义词典处理自然语言的可能。《同义词词林》与WordNet的数据格式有若干相似之处,即都是用一个同义词集合来表示一个概念。另外,《同义词词林》原版和扩展版中都不仅包括了一个词语的同义词,也包含了一定数量的同类词,即广义的相关词。
2) 含有大量的词汇是其作为语义词典的基础。《同义词》扩展版剔除了原版中的14,706个罕用词和非常用词,最终的词表包含77,343条词语。大规模的词汇集为实际项目应用提供可能。
3) 合理的编码方式使得人们更容易理解、处理。《同义词词林》原版只提供了三层编码,即大类用大写英文字母表示,中类用小写英文字母表示,小类用二位十进制整数表示。在哈工大的扩展版中,新增了第四级和第五级编码。新增的第四级和第五级的编码与原有的三级编码和并构成一个完整的编码,唯一的代表词典中的出现的词语。如:
Ba 01A 02= 物质 质 素
Cb 02A 01= 东南西北 四方
其中,第四级用大写英文字母表示,第五级用二位十进制整数表示。第五级的分类结果需要特别说明,可分出具体的三种情况,即有的行是同义词,有的行是相关词,有的行只有一个词。
综上所述,《同义词词林》扩展版是一部非常适合语义相关度计算的语义词典。但根据实验的需求,本研究对该词典进行进一步的改进。
3.2 《同义词词林》扩展版改进
本文从如下三个方面对《同义词词林》扩展版进行了改进:
1) 编码方面,在扩展版电子版中加入了较高层次的集合,如Ab000002 男女老少。其编码的长度与哈工大扩展版相同,为8位(下文将作详细说明)。Ab仍然表示大类和中类名,00000表示该集合是一个中类的标题,而2表示该类的深度为2。
2) 在同义词词林中加入了关系。这种关系包括上位关系(Hypernymy,用符号$表示)和下位关系(Hyponymy,用符号~表示),丰富了《同义词词林》的语义。但由于条件的限制,本研究没有区分单词之间和集合之间的关系,只是把所有的关系默认为是集合之间的关系,产生了一定的误差。
根据改进,实验生成了新的数据文件和索引文件。索引文件的记录格式如下:
数据文件的记录格式如下:
其中<>表示可以为有限多项,各个字段的含义如表所示:
表5.4 改进后的《同义词词林》文件格式说明
数据文件格式 |
索引文件格式 |
||
字段名 |
含义 |
字段名 |
含义 |
synsetOffset |
同义词集合编号,长度为8的字符串 |
lexicalName |
词语名称 |
wordNumber |
集合中单词的个数,用两位十六进制整数表示 |
synsetNumber |
包含该词语的同义词集合的个数 |
word |
各个词语名称 |
synsetOffset |
包含该词语的同义词集合的编号 |
ptr |
指针,包括 pointer_symbol, synset_offset |
|
|
synset_offset |
目标集合在相应词性文件中的编号 |
|
|
pointer_symbol |
指针符号 |
|
|
3) 建立词频文件和集合频率文件
因为Resnik[3]等人的方法需要用到语料库中的词频统计文件,所以本研究建立了两个文件,词语和同义词集合的词频文件。其中,同义词集合的词频计算采用Resnik的方法[3]。
在建立词频文件的过程中,本研究采用了英国Lancaster大学计算语言系网上发布的词频文件[22]。该文件来源于LCMC(Lancaster Corpus of Mandarin Chinese)语料库,其中包含了《人民日报》2000年全年的新闻材料。我们从词频文件中,筛选出《同义词词林》扩展版中含有的56370个词语。《同义词词林》扩展版一共有77492个词语,未出现的21122个罕见词语的词频设为0。
同义词集合的词频计算是按照Resnik的方法,即集合内所有词语以及下位集合所有词语的词频相加。需要说明的是,因为英语中名词、动词、形容词有明显的区分,在Resnik的统计中,只是加总了名词的词频。而在汉语当中,名词、动词、形容词并无严格的区分,只能由词语在句子中所起的作用大致判断词性。所以,实验中的同义词集合词频统计中包含了所有的实词,去掉了《同义词词林》中第K类(助词)和第L类(敬语)。
4 实验和结果分析
关于如何评估语义相关度的度量方法,Budanitsky[12]总结了通用的三种方法:从理论上检查一个方法是否具备必要的数学性质;将机器计算结果和人的判断相比较;根据在特定应用背景中的表现来评估各种方法。借鉴Budanitsky的实验设计思想[12],本研究采用后两种方法来比较各种语义度量方法。
4.1 单词对相关判断比较
在实验室环境下,利用真人作为受试者来判断语义相关程度的实验已经开展过。早在1965年,作为对“文本相似度与意义(同义词)的相似度之间的关系”的研究的一部分,Rubenstein和Goodenough[24]让51个受试者对65对词汇做出的“同义判断”。这些词汇对经过精心挑选,从“高度同义”到“语义不相关”,并且这些实验对象被要求依照他们自己的“意义的相似度”在0.0至4.0的范围内对它们估值。还有一个类似的研究,Miller和Charles[25]从Rubenstein和Goodenough的65对词汇中选取30对,10对语义相关度“高层(3-4),10对中层(1-3),10对低层(0-1)”,然后让38个对象对这30对进行语义相关度判断。
我们充分利用现有的研究,进行如下实验设计:
1) 将Miller和Charles的30对单词按照意义翻译成中文,并完全打乱原来的排序,制作成调查问卷;
2) 以信息管理系实验室的研究生和周围同学为受试者,总共10个人。让他们对30个中文单词对主观地进行相关程度的判断;
3) 录入数据,求得中文调查结果的平均值。考虑到语言环境转换造成的误差,本文采用公式4.1计算中文的调查结果和英文的调查结果,并把最终计算结果作为真人判断相关度的结果。这个结果与系统计算结果都记录在表4.1中;
(4.1)
其中 取0.8, 取0.2。
表4.1 M-C中文词对的真人判断和计算机计算结果
编号 |
词汇1 |
词汇2 |
Rdm |
Hso |
Path |
Lch |
Wup |
Res |
Jch |
Lin |
Liu |
Hum |
1 |
正午 |
中午 |
0.011 |
16 |
1.000 |
2.303 |
1 |
9.910 |
0.000 |
1.000 |
1.000 |
3.644 |
2 |
疯人院 |
精神病院 |
0.211 |
16 |
1.000 |
2.303 |
1 |
14.230 |
0.000 |
1.000 |
0.000 |
3.522 |
3 |
海岸 |
海滨 |
0.186 |
6 |
0.333 |
1.204 |
0.8 |
8.396 |
4.758 |
0.779 |
1.000 |
3.38 |
4 |
火炉 |
炉子 |
0.218 |
16 |
1.000 |
2.303 |
1 |
10.733 |
18.166 |
1.000 |
0.600 |
3.342 |
5 |
轿车 |
汽车 |
0.894 |
6 |
0.333 |
1.204 |
0.8 |
6.440 |
3.901 |
0.768 |
1.000 |
3.184 |
6 |
宝石 |
首饰 |
0.792 |
1 |
0.143 |
0.357 |
0.4 |
2.370 |
17.041 |
0.218 |
0.145 |
3.168 |
7 |
男孩 |
少年 |
0.915 |
0 |
0.111 |
0.105 |
0.2 |
0.000 |
18.524 |
0.000 |
0.800 |
3.072 |
8 |
鸟 |
白鹤 |
0.027 |
3 |
0.200 |
0.693 |
0.6 |
5.742 |
10.552 |
0.521 |
1.000 |
2.754 |
9 |
魔术师 |
巫师 |
0.827 |
6 |
0.333 |
1.204 |
0.8 |
11.773 |
2.573 |
0.901 |
0.676 |
2.54 |
10 |
食物 |
水果 |
0.916 |
1 |
0.143 |
0.357 |
0.4 |
2.370 |
13.528 |
0.259 |
0.126 |
2.456 |
11 |
旅行 |
航行 |
0.736 |
3 |
0.200 |
0.693 |
0.6 |
4.779 |
11.494 |
0.454 |
0.127 |
2.288 |
12 |
工具 |
装备 |
0.129 |
1 |
0.143 |
0.357 |
0.4 |
2.370 |
17.084 |
0.295 |
1.000 |
2.27 |
13 |
僧侣 |
圣徒 |
0.872 |
6 |
0.333 |
1.204 |
0.8 |
8.463 |
7.529 |
0.692 |
0.000 |
2.202 |
14 |
起重机 |
器械 |
0.440 |
3 |
0.200 |
0.693 |
0.6 |
4.565 |
11.329 |
0.446 |
0.369 |
2.176 |
15 |
旅行 |
汽车 |
0.961 |
0 |
0.111 |
0.105 |
0.2 |
0.000 |
18.711 |
0.000 |
0.074 |
2.152 |
16 |
鸟 |
公鸡 |
0.126 |
3 |
0.200 |
0.693 |
0.6 |
5.742 |
11.351 |
0.503 |
1.000 |
2.114 |
17 |
墓地 |
林地 |
0.963 |
3 |
0.200 |
0.693 |
0.6 |
2.470 |
17.216 |
0.223 |
0.122 |
1.71 |
18 |
森林 |
墓地 |
0.200 |
0 |
0.111 |
0.105 |
0.2 |
0.000 |
18.972 |
0.000 |
0.112 |
1.528 |
19 |
海岸 |
小山 |
0.950 |
3 |
0.200 |
0.693 |
0.6 |
5.015 |
10.609 |
0.486 |
0.000 |
1.374 |
20 |
海滩 |
树林 |
0.427 |
1 |
0.143 |
0.357 |
0.4 |
2.370 |
13.293 |
0.263 |
0.112 |
1.166 |
21 |
食物 |
雄鸡 |
0.421 |
1 |
0.143 |
0.357 |
0.4 |
2.370 |
16.826 |
0.220 |
0.112 |
0.978 |
22 |
少年 |
兄弟 |
0.463 |
1 |
0.143 |
0.357 |
0.4 |
2.278 |
19.313 |
0.249 |
0.643 |
0.972 |
23 |
兄弟 |
僧侣 |
0.317 |
1 |
0.143 |
0.357 |
0.4 |
2.278 |
16.289 |
0.221 |
0.661 |
0.884 |
24 |
海滨 |
林地 |
0.557 |
1 |
0.143 |
0.357 |
0.4 |
2.370 |
21.490 |
0.234 |
0.096 |
0.804 |
25 |
僧侣 |
奴隶 |
0.536 |
1 |
0.143 |
0.357 |
0.4 |
2.278 |
17.735 |
0.204 |
0.722 |
0.67 |
26 |
少年 |
巫师 |
0.860 |
1 |
0.143 |
0.357 |
0.4 |
2.278 |
22.037 |
0.215 |
0.600 |
0.484 |
27 |
草地 |
魔术师 |
0.813 |
0 |
0.111 |
0.105 |
0.2 |
0.000 |
23.125 |
0.000 |
0.107 |
0.262 |
28 |
中午 |
绳子 |
0.191 |
0 |
0.111 |
0.105 |
0.2 |
0.000 |
20.018 |
0.000 |
0.100 |
0.176 |
29 |
绳索 |
微笑 |
0.650 |
0 |
0.111 |
0.105 |
0.2 |
0.000 |
20.662 |
0.000 |
0.044 |
0.106 |
30 |
雄鸡 |
旅程 |
0.577 |
0 |
0.111 |
0.105 |
0.2 |
0.000 |
25.202 |
0.000 |
0.167 |
0.016 |
比较系统计算得到的结果与真人判断结果,求得每个语义相关度量方法的结果与真人判断结果的相关系数。相关系数保存在表6.1中。
表4.1中加入了刘群等人[8]基于《知网》2000版本计算得到的相关度结果,即表中Liu表示的这一列。其中,“疯人院”和“圣徒”两个概念没有包含在《知网》2000版中,相应概念对的相关度统一记为0。
表4.2 计算机计算结果与真人结果的相关系数
方法 |
相关系数 |
方法 |
相关系数 |
Rdm |
0.144 |
Res |
0.682 |
Hso |
0.661 |
Jch |
0.720 |
Path |
0.612 |
Lin |
0.716 |
Lch |
0.691 |
Liu |
0.409 |
Wup |
0.705 |
|
|
当比较两组数值时,具有价值的是两个变量变化的线性相关性,所以我们在总结对比结果时采用Resnik的方法[3],即每种算法的计算结果与人的估值之间的相关系数;见表4.2。对于Jiang和Conrath的算法[13],相关系数是负数,因为该算法计算距离而不是相似度;因此,为方便起见,我们在表中给出的是相关系数的绝对值。
从结果中可以看出,Jiang-Conrath的算法,Lin的算法,以及Wu和Palmer的算法最优。这和Budanitsky研究结果[12]基本相同。当我们改变公式6.1中的权值,发现最优的方法仍然是Jiang-Conrath的算法,Lin的算法,以及Wu和Palmer的算法。这说明实验结果具有良好的稳定性。
表4.3 不同权值的相关系数表
|
|
Rdm |
Hso |
Path |
Lch |
Wup |
Res |
Jch |
Lin |
Liu |
1 |
0 |
-0.130 |
0.680 |
0.633 |
0.706 |
0.709 |
0.679 |
-0.708 |
0.711 |
0.342 |
4/5 |
1/5 |
-0.144 |
0.661 |
0.612 |
0.691 |
0.705 |
0.682 |
-0.720 |
0.716 |
0.409 |
3/4 |
1/4 |
-0.147 |
0.654 |
0.604 |
0.685 |
0.701 |
0.680 |
-0.720 |
0.715 |
0.424 |
2/3 |
1/3 |
-0.152 |
0.640 |
0.590 |
0.672 |
0.693 |
0.675 |
-0.718 |
0.710 |
0.447 |
1/2 |
1/2 |
-0.159 |
0.607 |
0.556 |
0.642 |
0.669 |
0.657 |
-0.706 |
0.694 |
0.485 |
0 |
1 |
-0.166 |
0.489 |
0.441 |
0.527 |
0.572 |
0.574 |
-0.634 |
0.611 |
0.549 |
同时,从表中可知,英文环境中调查结果的权重越大,考虑结构因素的方法与真人判断结果的相关系数都减小。这一方面是翻译带来的误差,另外一方面是不同语言环境下受试者的主观判断显著不同,所以本研究在中文下开展实验是非常有意义的。
4.2 主题词抽取效果分析
4.2.1 真人主题词抽取
上述所介绍的都是机器计算的结果,那么如何设置评价标准呢?我们仍然采用与真人结果相比较的方法,即将机器抽取的主题词与人工生成的“理想”主题词相比较。
人工评价实验构建如下:
1) 从应急预案中随机选取十篇预案。
2) 对于每个章节,三个受试者各自独立地从中抽取出若干个主题词,具体主题词数量由个人视文本块长度而定,但是最多不超过六个。对于每篇文章,三个受试者也是各自独立从中抽取出10个主题词。这样就构建了1983个“理想”章节,30篇“理想”文档。
3) 在某个参数条件设置下,采用多种度量方法的一种,从每个章节中视章节长度抽取若干个主题词(最多不超过6个),从每篇文档中抽取10个主题词,从而构成系统抽取主题词集合。
4) 将系统抽取的主题词与手工抽取的“理想”主题词作比较,通过计算精确率(Precision),召回率(Recall)和调和平均值F值来评价系统抽取主题词的质量。
4.2.2 语义相关度量方法比较
首先说明一点,为了处理的方便。我们将最短路径方法Path和Jiang-Conrath方法求得的距离取倒数,作为概念之间的相关度。所以说,在阀值的选择上,最短路径方法Path和Jiang-Conrath方法的阀值都小于1。
在相同实验参数设置下,我们得到了7种语义相关方法抽取效果的查全率、查准率和F值。从表4.5中我们可以看出来,各种方法抽取主题词的效果都比较好,特别是对于章节而言。在抽取章节的主题词方面,Resnik的方法查全率和查准率是最高的,分布达到了73.4%和67.8%。在抽取整篇文档的主题词方面,Hirst和St-Onge的方法最好,查全率和查准率分别达到了56.5%和58%。
从整体而言,整篇文档的机器抽取效果不如章节抽取的效果。经过分析,原因可以归为两个方面:一方面,抽取文档主题词所得到的实验数据相对较小。每次实验10篇文档总共抽取得到主题词100个,而在当前实验参数设置下,章节抽取得到的主题词总数为2676。文档抽取主题词较小的数量带来了一定的误差。另一方面,是因为真人判断主题词的差异性。对于章节而言,篇幅较为短小,受试者易于达到判断的一致性。但是对于整篇文档而言,受试者的主观认识存在很大不同。在我们求得的三位受试者的文档主题词结果(每个结果集为100个词语)的交集中,仅仅有23个词语。个别文章的主题词交集为0,这充分说明人在判断主题词的时候存在较大的差异。
表4.5 相关度度量方法的主题抽取效果比较表
方法 |
阀值 |
章节 |
整篇文档 |
||||
查全率 |
查准率 |
F值 |
查全率 |
查准率 |
F值 |
||
Hso |
3 |
0.670 |
0.629 |
0.649 |
0.565 |
0.580 |
0.573 |
Path |
0.5 |
0.710 |
0.657 |
0.682 |
0.435 |
0.590 |
0.501 |
Lch |
1.38 |
0.710 |
0.657 |
0.683 |
0.435 |
0.590 |
0.501 |
Wup |
0.6 |
0.687 |
0.636 |
0.660 |
0.565 |
0.580 |
0.573 |
Res |
6.86 |
0.734 |
0.678 |
0.705 |
0.478 |
0.530 |
0.503 |
Jch |
0.42 |
0.710 |
0.656 |
0.682 |
0.478 |
0.600 |
0.532 |
Lin |
0.79 |
0.701 |
0.654 |
0.677 |
0.478 |
0.570 |
0.520 |
如果综合各种度量方法求得的查全率和查准率,调和平均值F是一个重要指标。在抽取章节的主题词方面,F值最高的方法仍然是Resnik的方法,较好的方法包括最短路径方法,Leacock-Chodorow方法,Jiang-Conrath方法。在抽取整篇文档的主题词方面,Hirst-St-Onge的方法、Wu-Palmer方法最好,其次是Jiang-Conrath方法。这个结果与单词对判定实验的结果有所差异。这说明基于词典的相关度量方法在一定程度上依赖于词典。在不同的应用当中,不同的方法取得的相对效果也不相同,所以比较多种方法,找出最有的方法是非常必要的。
结论
本文汇总了多种基于语义词典的方法,概括分析了这类方法的特点。然后,基于《同义词词林》扩展版,分别在两个实验中比较了多种方法的效果。在真人单词对相关度判断实验中,实验结果与英文环境中的结果存在着一些差异。但如果改变中英文环境下得到的不同结果的权重,那么基于结构的方法的效果就受到影响。而在实际的主题抽取应用之中,最优结果显示出一定的分散性。由此说明,基于词典的相关度量方法在一定程度上依赖于词典,在WordNet中最优的方法未必在其他词典中最优。而且,在不同的应用中,最有的方法也不尽相同,所以比较多种方法,从而找出最有方法是必要的。
在下一步的研究中,我们将在《知网》当中开展多种度量方法的比较实验,以进一步观察语义词典对于语义相关度量方法效果的影响。
参考文献:
[1] Mohammad S, Hirst G. Distributional measures as proxies for semantic relatedness. In submission. 2005,http://www.cs.toronto.edu/compling/Publications.
[2] Fellbaum C editor. WordNet: An Electronic Lexical Database. Cambridge : The MIT Press, 1998.
[3] Resnik, P. Using information content to evaluate semantic similarity. In Proceedings of the 14th International Joint Conference on Artificial Intelligence, Montreal , Canada ,1995.
[4] Banerjee S, Pedersen T. Extended gloss overlaps as a measure of semantic relatedness. In Proceedings of the Eighteenth International Joint Conference on Artificial Intelligence, 2003.
[5] 颜伟,荀恩东.基于语义网计算英语词语相似度.情报学报.2006,25(1):43-48.
[6] 孙爽,章勇.一种基于语义相似度的文本聚类算法.南京航天航空大学学报.2006, 38(6):712-716.
[7] 章成志.词语的语义相似度计算及其应用研究. 第一届全国信息检索与内容安全学术会议,上海,2004.
[8] 刘群,李素建.基于《知网》的词汇语义相似度计算.中文计算语言学.2002,7(2):59-76.
[9] 关毅,王晓龙.基于统计的汉语词汇间语义相似度计算. 语言计算与基于内容的文本处理.北京:清华大学出版社,2003.
[10] 李峰,李芳. 中文词语语义相似度计算——基于《知网》2000. 中文信息学报. 2007, 21(3):99-105.
[11] 《同义词词林》扩展版. http://www.ir-lab.org/
[12] Budanitsky A, Hirst G. Evaluating WordNet-based Measures of Lexical Semantic Relatedness. Computational Linguistics. 2006, 32(1):13-47.
[13] Jiang J, Conrath D. Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings of International Conference on Research in Computational Linguistics (ROCLING X), Taiwan , 1997.
[14] Hirst G, St-Onge D. Lexical chains as representations of context for the detection and correction of malapropisms. In Christiane Fellbaum, editor, WordNet: An Electronic Lexical Database. The MIT Press, Cambridge , MA , chapter 13, pages 305–332, 1998.
[15] Richardson R, Smeaton A. Using WordNet in a Knowledge-Based Approach to Information Retrieval. Working Paper, CA-0395, School of Computer Applications, Dublin City University , Ireland , 1995.
[16] 徐德智,郑春卉,Passi K.基于SUMO的概念语义相似度研究.计算机应用.2006, 26(1):180-183.
[17] Sussna M. Word sense disambiguation for free-text indexing using a massive semantic network. In Proceedings of the Second International Conference on Information and Knowledge Management (CIKM-93), Arlington , Virginia ,1993.
[18] Wu Zhibiao, Palmer M. Verb semantics and lexical selection. In Proceedings of 32nd Annual Meeting of the Association for Computational Linguistics, 1994.
[19] Leacock C, Chodorow M. Combining local context and WordNet similarity for word sense identification. In Christiane Fellbaum, editor, WordNet: An Electronic Lexical Database. The MIT Press, Cambridge , MA , chapter 11, pages 265–283, 1998.
[20] Lin Dekang. An Information-Theoretic Definition of Similarity. In Proceedings of the Fifteenth International Conference on Machine Learning, San Francisco,1998.
[21] Patwardhan S, Banerjee S, Pedersen T. Using measures of semantic relatedness for word sense disambiguation. In Proceedings of the Fourth International Conference on Intelligent Text Processing and Computational Linguistics, 2003.
[22] McEnery T, Xiao R. The Lancaster Corpus of Mandarin Chinese.
http://bowland-files.lancs.ac.uk/corplang/lcmc/.访问时间: 2007-6-12 .
[23] 梅家驹,竺一鸣,高蕴琦等编.同义词词林.上海:上海辞书出版社,1983.
[24] Rubenstein, H, Goodenough J. Contextual correlates of synonymy. Communications of the ACM, 1965, 8(10):627–633.
[25] Miller G, Charles W. Contextual correlates of semantic similarity. Language and Cognitive Processes. 1991, 6(1):1–28.