《中国人工智能学会通讯》——7.17 篇章语义分析方法概述

7.17 篇章语义分析方法概述

篇章语义分析主要有以下三个主流的研究方向。

以篇章结构为核心此类研究工作的目标是识别不同文本块之间的语义关系,例如条件关系、对比关系等,亦称为修辞关系识别。根据是否需要将文本分割为一系列彼此不相交的覆盖序列,可以将本类方法进一步分成两大类:第一类以修辞结构理论(RhetoricalStructure Theory) 和 篇 章 图 树 库(DiscourseGraphBank)为代表,要求先将文本切分为彼此不相交的语义单元,并随后分析各部分之间的语义关系及结构组成;第二类方法以宾州篇章树库理论(Penn Discourse TreeBank)为代表,不需要预先切分文本,而是直接识别篇章关系及其元素所在位置,并随后识别具体的语义关系类型。修 辞 结 构 理 论 (RST,Rhetorical StructureTheory,) 最早由 Mann 和 Thompson 在 1988 年发表的论文[1]中提出。除 Mann 和 Thompson 在该方向持续发表相关工作论文之外,Marcu 在其论文中对 RST 理论进行了分析,并持续探索该方向,提出两种基于 RST 理论分析的文本处理方法[2] :① 识别提示短语(CP,Cue Phrases),然后将整句打散成若干个子句;② 为无结构的文本建立一个有效的修辞结构树。RST 理论以文本结构为分析对象,从小单元之间的连接关系开始,逐步延伸到自然语言段落和完整的语篇。RST 在汉语中的跨语言可转移性有特殊的背景。可惜,虽然有不少对RST 的中文介绍和初步应用计划等,但实质性的发展应用很少。

目前,山西大学李茹教授的团队正在尝试进行中文 RST 树库的构建工作,所产出的资源已经具有一定规模,非常值得期待,只是尚未有公开的成果发表。因此,RST 理论现在在中文尚没有一套完整可用的系统或理论,应用难度较高。篇 章 图 树 库(Discourse GraphBank) 最 初由 Wolf et al [3] 提出。该理论认为,相比于树结构,篇章更适合于表示为图。在最初的文章中,他们详细讨论了图表示与树表示的差别,并构建了一个由 135 篇文档构成的篇章树库资源。他们提出,图表示允许将文章中的不同内容以更自由的形式表示出来,从而可以尽可能地获取丰富信息。

关 于 Discourse GraphBank 与 RST DiscourseTreeBank 的区别可详见文献 [3]。宾 州 篇 章 树 库 理 论(Penn DiscourseTreebank)是宾州大学的研究人员采用的一种以词汇为中心的方法[4] ,在句子级的 Penn TreeBank树库的基础上࿰

你可能感兴趣的:(人工智能)