作为信息的一种表现形式,其定义为特定的人、物在特定时间和特定地点相互作用的客观事实。一般是句子级的。在TDT ( Topic Detection Tracking) 中,事件是指关于某一主题的一组相关描述,这个主题可以是由分类或聚类形成的。
组成事件的各元素包括: 触发词、事件类型、论元及论元角色。
事件触发词:表示事件发生的核心词,多为动词或名词;
如下例句:在 Baghdad,当一个美国坦克对着 Palestine 酒店开火时一个摄影师死去了。
1.定义
事件抽取技术是从非结构化信息中抽取出用户感兴趣的事件,并以结构化呈现给用户。事件抽取任务可分解为4个子任务: 触发词识别、事件类型分类、论元识别和角色分类任务。其中,触发词识别和事件类型分类可合并成事件识别任务。论元识别和角色分类可合并成论元角色分类任务。事件识别判断句子中的每个单词归属的事件类型,是一个基于单词的多分类任务。角色分类任务则是一个基于词对的多分类任务,判断句子中任意一对触发词和实体之间的角色关系。
2.分类
事件抽取任务总体可以分为两个大类:元事件抽取及主题事件抽取。事件表示一个动作的发生或状态的变化。往往由动词驱动,也可以由能表示动作的名词等其他词性的词来触发,它包括参与该动作行为的主要成分 ( 如时间、地点、人物等) 。主题事件包括一类核心事件或活动以及所有与之直接相关的事件和活动,可以由多个元事件片段组成。当前主要是面对元事件抽取,关于主题事件抽取的研究较少。
元事件抽取的主要研究方法有模式匹配和机器学习两大类。模式匹配在特定领域内能取得较高的性能,但移植性较差。相对于模式匹配,机器学习与领域无关,无需太多领域专家的指导,系统移植性较好。随着相关语料库的建设和互联网上各种文本资源的不断丰富,语料的获取不再是束缚机器学习的瓶颈。目前,机器学习已成为元事件抽取的主流研究方法。
1.基于模式匹配的元事件抽取
模式匹配方法是在一些模式的指导下进行事件的识别和抽取。模式主要用于指明构成目标信息的上下文约束环,集中体现了领域知识和语言知识的融合。抽取时只要通过各种模式匹配算法找出符合模式约束条件的信息即可。由此可见,其核心是抽取模式的构建。典型的基于模式匹配的事件抽取系统有 ExDisco ,GenPAM等。 起初,模式主要是通过手工方法来建立的,但这种方式费时费力,要求用户具有较高的技能水平。由于人工构造规则工作量极大,为了快捷方便地获取模式,提高系统的可移植性,采用机器学习来自动获取模式成为新的研究趋势。
2.基于机器学习的元事件抽取
神经网络事件抽取方法作为一种有监督多元分类任务,事件抽取方法包括2个步骤:特征选择和分类模型。本文根据使用特征的范围不同、模型学习方式不同和外部资源的使用与否对不同的事件抽取方法进行分类。各类方法的研究内容可详见如下:
(1)根据所使用特征的范围,事件抽取方法可以分为句子级的事件抽取方法和篇章级的事件抽取方法。总地来说,句子级的事件抽取方法只使用句子内部获取的特征。而篇章级的事件抽取方法则包含了跨句、跨文档抽取的特征信息。一般情况下,句子级特征是所有事件抽取方法通用的特征,而篇章级特征则属于面向实际任务挖掘的特效特征。
(2)根据学习方式不同,可以分为基于流水线模型的事件抽取方法和基于联合模型的事件抽取方法。事件抽取任务分为事件识别和论元角色分类任务。其中,后者输入依赖于前者输出。论元角色分类任务的输入是识别出的触发词和所有候选实体。大部分事件抽取方法都是流水线模型学习方式,先进行事件识别模型的学习,再转入论元角色分类模型的学习。而经仿真验证基于联合模型的学习方式的效果要优于流水线模型学习方式,故而也随即产生了基于联合模型的事件抽取工作。
(3)ACE05 数据是现有的为数不多的有标记事件数据之一,是在新闻、博客、访谈等数据上进行人工标注得到的。ACE 数据的标注质量不高以及规模较小的问题,也在很大程度上影响了事件抽取任务的发展。为此很多工作尝试借助外部资源辅助事件抽取任务的功能达成。根据是否使用外部资源,可以分为基于同源数据( 即ACE 数据) 的事件抽取方法和融合外部资源的事件抽取方法。
A.句子事件抽取
句子事件抽取仍然有两种方法可以选择,一种是传统方法,一种是基于神经网络模型,两者在特征表示、学习方式、分类模型上均有不同,但两者都在触发词特征上做出了比较多的研究说明。
特征表示 |
学习方式 |
分类模型 |
|
传统方法 |
传统离散型特征 |
最大熵和支持向量基模型 |
|
神经网络模型 |
连续向量型为特征 |
用初试向量表示候选触发词 神经网络模型自动更新组合特征 通过softmax模型输出分类 |
softmax模型 |
基于词的传统离散特征包括:
基于词对的特征有:
基于神经网络的主要发展历程如下:
Chen 等人和 Nguyen 等人率先尝试将神经网络方法分别应用于事件抽取、识别任务中,并取得了很好的效果,验证了神经网络特征的有效性。初始特征表示方面,二者均采用了预训练的词向量作为每个单词的初始表示,而且还融入了单词的语义和语法信息的建模研究。特殊而必要地,二者还都使用了位置信息来建模当前词和候选触发词的距离。受传统特征启发,常用的特征还包括当前词的事件类型向量和实体类型向量。
Nguyen 等人利用实体类型特征来辅助事件识别任务,而Chen 等人使用事件类型特征用于角色分类任务。在上层特征学习模型方面,研究中均使用了卷积神经网络模型来自动抽取有效特征进行事件抽取或识别任务。更进一步地, Chen 等人改进了传统的CNN 模型,增配了动态多池机制( dynamic multi-pooling) 来提高事件抽取任务性能。研究认为,相比于最大池机制,通过候选触发词和候选实体位置分割成 3 部分的动态多池机制,能够获取更为精细、有效的特征用于角色分类。Nguyen 等则提出了一种基于离散短语( skip-gram) 的卷积神经网络模型来辅助事件识别。相比于传统的连续词袋模型,基于离散短语的卷积神经网络模型能够获取更丰富的非连续短语上特征,而无需再限定于局部连续短语特征。
除了基于卷积神经网络的特征学习模型外,还有研究者采用递归神经网络( Recurrent Neural Network,RNN) 对文本中的序列信息进行建模,从而为事件抽取任务提供助益支持。Feng 等人采 用一个基于 RNN 的模型来获取文本中的序列信息,并采用一个卷积层来获取文本中的短语块信息,将 2 种信息合并后进行事件触发词识别。由于没有使用额外特征,该混合模型是语言无关模型,在多种语言的事件识别任务中取得了良好效果。
以往的传统事件抽取工作和上述神经网络事件抽取方法均尝试了将触发词的相关特征,如事件类别信息、位置信息等用于辅助论元角色分类任务,但却尚未探索论元的信息对触发词识别任务的作用。借助于注意力模型( Attention) , Liu 等人独家采用了有监督的论元注意力模型将论元信息输入至事件识别模型中,其效果验证了论元信息能够高效地辅助事件触发词识别任务。不同于联合模型中触发词和论元信息相互辅助的间接方式,该方法提出的论元注意力模型最直接地将论元信息用于辅助识别触发词。
B.基于联合模型的神经网络事件抽取方法
在基于传统特征的事件抽取方法中,联合地学习事件识别任务和论元角色分类任务首推 Li 等的工作。该研究通过结构化感知机模型( structured perceptron) 进行2个任务的联合学习,以柱搜索策略搜索得到最优结果。特征表示方面,该工作设计了一系列高效的离散特征,包括:表示触发词和论元本身词性、语法、句法、语义信息的局部特征和能够进行触发词-论元信息交互的全局特征。该工作证明了联合学习方法比流水线方式更趋有效,对于论元角色分类任务提升尤为明显( F1值48.3% - > 52.7%) 。 基于联合模型的神经网络事件抽取方法则采用了神经网络模型进行特征学习和联合学习,避免了复杂的特征工程。
Nguyen 等人提出一种基于 RNN 的模型进行事件识别和论元角色分类的联合学习。同时,文献中也构建了局部特征和全局特征来着重用于特征表示。局部特征包括文本序列特征和局部窗口特征。由预训练词向量、实体类型向量、 二元依存关系向量组成的句子表示被传递给 RNN 模型,用以获得序列特征。由窗口内的词向量组成了局部窗口特征。特别地,研究提出利用记忆网络模型( Memory Network) 来建模触发词-触发词之间、论元-论元之间和触发词-论元之间的全局特征,进而同时提高2个任务性能。此外,该工作还加入了文献中使用的论元局部特征来辅助角色分类。该联合模型获得了论元角色分类任务的state-of-the-art效果( F1 值 55.4%) 。
除了联合学习事件识别和论元角色分类任务外,Yang 等人首次尝试了联合学习实体识别任务。为减轻任务复杂度,以往方法均将带有实体标记的 ACE 数据集作为输入.是一个完全的端到端学习模型,即以纯文本为输入,以最终事件为输出。过程中,通过采用联合因子图模型 ( Factor Graph) 来联合学习每个事件内部的结构化信息、篇章内不同事件间的关系和实体信息。除了人工定义的传统特征外,该工作使用的特征还包括由词向量表示的语义特征。虽然文献用了非神经特征和非神经网络模型,本文推介该工作的目的在于阐述其端到端的学习模式。端到端学习模式的输入/输出更加直接、合理,能够通过联合学习抽取更全面的特征和减少错误传播。在此基础上,若采用神经网络模型进行端到端学习还能够减少特征工程,这也将是一个亟待学界深度探索的研究方向。
C.融合外部资源的神经网络事件抽取方法
由于ACE05 数据集规模小,且存在较严重的事件类型稀疏问题,因而衍生了一些相关工作以解决上述问题。传统方法有自动构建大规模事件数据集、引入框架语义学知识库 FrameNet、引入语义资源库 WordNet/HowNet、借助机器翻译对中英文事件抽取语料互译以扩展数据集等方式。现阶段,融合外部资源的神经网络事件抽取方法的研究尝试还集中于构建大规模事件数据集上。由于神经网络方法依赖于大量的有标记数据,而ACE05 数据集的规模比较小,使得事件抽取遭遇了一定的瓶颈。Liu 等人尝试借助 FrameNet 数据集缓解 ACE05 数据集中的若干类别事件的稀疏问题。研究中通过将 FrameNet 中的框架( Frame) 匹配到 ACE05 定义的事件类型上,从而构建一个基于FrameNet 的新事件识别数据集。首先,基于ACE05训练得到的事件识别模型识别出 FrameNet 中的可能触发词。然后,通过基于概率软逻辑模型 ( Probabilistic Soft Logic,PSL) 的限制条件选择出置信度较高的触发词组成 Event-FN 数据集。Event- FN 数据集和 ACE05 数据集将联合训练,设计得到最终的事件识别模型。
Chen 等人通过远距离监督方法构建了大规模事件抽取数据集,从而帮助事件抽取任务的实效提升。研究给出通过 Freebase 构建一个基于Wikipedia 的事件数据集。Freebase 由一系列元数据 ( Compound Value Types,CVT) 组成。每条元数据包括一个类型和一系列 CVT 实例,其中每个实例包括很多论元和角色。因此,每个元数据实例可以被认为是一个事件实例,包含一个事件类型、一组论元及其角色。该工作首先通过统计方法选择Freebase 中每个事件类型的关键论元集合。然后对于 Wikipedia 中每个句子,通过判断其是否包含 Freebase中任一事件实例的所有关键论元来甄别其中是否包含事件。在包含事件的 Wikipedia 句子中,通过统计方法选择出每个Freebase 事件类型的关键触发词。而后借助FrameNet 进行触发词筛选和名词性触发词扩展。最后通过远距离监督方法从 Wikipedia 中获得有标记的事件数据集。构建的大规模事件数据集和 ACE05 数据集将共同训练基于CNN 的事件抽取模型。
Zeng 等人采取一种新颖的思路从 Wikipedia 和 Freebase 中构建大规模事件数据集。和 ACE 评测中通过触发词判断事件发生的模式不同,该次研究认为可以通过是否包含关键论元来判断事件发生与否。同时,也通过统计方法从 Freebase中抽取每个事件类型的关键论元集合。研究又将包含了 Freebase 中任一事件实例的所有关键论元的Wikipedia 句子作为事件抽取正例。该工作还通过时间和语法规则对远距离监督过程进行约束,以期获得更高质量的有标注数据集。Zeng 等人采用2个序列标注模型抽取关键论元和非关键论元。其中,2个序列标注模型均是双向长短时记忆模型( Bi -LSTM) 和条件随机场模型( CRF) 的融合模型。若句子s的论元序列标注结果包含某一事件类型 t 的所有关键论元,则s的事件类型定义为 t。
2.2主题事件提取
一个主题事件由多个动作或状态组成,其描述信息通常分散在一个或多个文档中,而元事件抽取的方法局限在句子层级,显然无法满足对主题事件的抽取。主题事件抽取的关键是如何确定描述同一个主题事件的文档集合,以及如何通过篇章内或跨篇章的理解技术将这些集合中分散的主题事件片段进行归并。在研究中通常采用事件框架或本体来表示主题事件的基本组成以及各成分间的联系。
(1)基于事件框架的主题事件抽取
基于事件框架的主题事件抽取方法通过定义结构化、层次化的事件框架来指导主题事件的抽取,利用框架来概括事件信息,表达主题事件的不同侧面。框架是一种常用的知识表示方法,可用于描述相关概念的轮廓框架。M. Minsky 在 “A Framework for Representing Knowledge”一 文中提出了框架的概念,引起了学者的关注。当人们面临一个新的情景时,会从头脑中已存在的大量典型情景中搜索一个情景来认识新事物,这些典型的情景就是知识框架。例如针对一个会议事件,人们在头脑里自然会想到,会议发生的时间、地点、主办机构、参会者、政府的反映以及会议带来的影响等不同的侧面。事件的侧面在语义上可以进行分离,所以这里的框架结构其实是一种分类体系,用于分隔一个事件涉及的不同侧面。用来描述事件不同侧面的词语为事件的 “侧面词”,事件框架是由 “侧面词”构成的一个分类体系。生成完整的事件框架体系是框架方法的关键,如何提高框架构建的全面性以及自动化程度是学者们研究的重点。
(2)基于本体的主题事件抽取
本体是知识工程和人工智能研究领域的一个重要课题,其目标是捕获相关的领域知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇 (术语) 之间的相互关系。本体的这些特点很好地符合了主题事件抽取的要求。基于本体的主题事件抽取,一般根据本体所描述的概念、关系、层次结构、实例等来抽取待抽取文本中所包含的侧面事件及相关实体信息,主要分为3个步骤: 领域本体的构建,这是后续工作的基础; 基于领域本体的文本内容的自动语义标注; 基于语义标注的事件抽取。Cheng 等介绍了一种基于本体的模糊事件抽取代理系统。在本体的构建中提出了一种 4 层本体构建模型,分别为 Domain 层、Category 层、Event 层、Extended Concept层。其中 Domain 代表本体所处的领域名称,并由若干个由领域专家定义的 Category 组成; 每个 Category 包含一组事件的集合; Event 层定义了每个 Category 包含事件类型; Extended Concept 层包含事件概念与对象概念,定义了每类事件对应的角色与概念及相应的子事件。将该模型构建的本体应用于新闻事件的抽取,并应用于自动文摘,实验证明该系统能较好地实现中文气象新闻事件的抽取。文献详细介绍一个基于本体的金融事件跟踪体系,并取得了较好的统计结果,印证了通过本体进行金融事件跟踪的可行性及该方法的优势。
综合国内外研究可见主题事件抽取的研究并不成熟,篇章内及跨篇章语义理解技术的缺失,致使信息的有效归并与融合成为瓶颈。如何对事件信息的高效融合,将是主题事件抽取下一步的工作重点。
三.已知问题
(1)底层技术研究不够成熟,导致错误级联。事件抽取对底层的子任务结果有很大的依赖性,但由于实体识别、深层句法分析等底层技术还不成熟,给事件抽取带来了级联错误。并且,目前缺乏对子任务输出结果的评估及矫正技术。
(2)事件抽取系统的领域可扩展性和可移植性不够理 想。目前的研究大多是基于 MUC 或 ACE 展开,只针对某个特定领域或几个类型的事件进行研究。系统的应用受到领域的限制,不能随着领域的变化进行简单快速的移植或扩展。
(3)语料有待进一步完善。机器学习方法的引入提高了事件抽取系统的可移植性,但由于缺乏大规模的成熟语料库和标准语料,目前该类系统的效果不够理想,由此可见语料的完善是一个亟待解决的问题。
(4)如何设计神经网络模型以实现多任务联合是一大难点。
四.研究趋势
(1)进一步提高事件抽取的精度和召回率,改进抽取的方法,加强底层技术攻关,开展对中间结果的可信度评估研究。要使事件抽取技术取得突破,必须改进其所依赖的底层技术。
(2)跨文档、跨语言的事件抽取研究将更为广泛。目前,事件抽取的水平还局限在对独立文本的处理上,跨文档的研究尚处于探索阶段,随着跨文档语义理解及信息归并技术和多语言文本处理技术的发展,跨文档、跨语言的事件抽取必然成为新的研究热点。
(3)面向开放领域的事件抽取将广受重视。事件抽取系统的领域可扩展性和可移植性仍将是研究的重点。未来的事件抽取研究将以应用为需求,面向开放领域而不再局限于某个具体领域,为此需要探究各种方式提高系统的移植性。
(4)融合外部资源的神经网络方法当前集中于构建大规模数据集,已取得良好效果。由于事件抽取数据集的构建难度、现有数据集的局限和不同应用领域数据的差异,如何有效地借助外部资源进行事件抽取的方法也是一个亟待研究的发展方向。例如,鉴于语义角色标注任务( Semantic Role Labelling,SRL) 和事件抽取任务的相似之处,借助大规模语义角色标注相关资源辅助事件抽取。利用迁移学习方法解决数据缺失问题也将成为后续具备学术前瞻性的重点研究方向。
注:本人刚刚接触知识图谱相关的内容,如果有前辈看到了,希望能推荐一些事件抽取方面的文章和技术,感激不尽!