知识图谱赵军学习笔记(七)--事件抽取

事件抽取

事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或状态的改变。
几个要素是事件发生的时间,地点,参与事件的角色以及与之相关的动作或者状态的改变。
同一个类型的事件中不同粒度的时间、地点、角色代表了不同的事件实例。

  • 事件抽取的定义
    主要研究如何从描述事件信息的文本中抽取出的用户感兴趣的事件信息并以结构化的形式呈现出来。
  • 相关概念:
    • 事件指称
      是指对一个客观发生的具体事件进行的自然语言形式的描述,通常是一个句子或句群。
    • 事件触发词
      指一个事件指称中最能代表事件发生的词,是决定事件类别的重要特征。如结婚,就职
    • 事件元素
      事件的参与者,组成事件的核心部分,它与事件触发词构成了事件的整个框架。
      如成龙与林凤娇于1982年12月1日在洛杉矶举行婚礼。中的成龙,林凤娇,洛杉矶,1982年12月1日。
      由实体,时间,属性值组成。
    • 元素角色
      事件元素与事件之间的语义关系。如成龙与林凤娇是夫妻角色。
    • 事件类别
      事件元素和触发词决定了事件的类别。

限定域事件抽取

预先定义好目标事件的类型及每种类型的具体结构。 ACE定义了8大类事件,商务事件,冲突事件,交易事件等,事件又被细分为33类子事件。

基于模式匹配的方法

基于模式匹配的方法是指对某种类型事件的识别和抽取是在一些模式的指导下进行的。模式匹配的过程就是事件识别与抽取的过程。

  • 模式获取
  • 模式匹配
  1. 有监督的事件模式匹配
  • 语料的人工标注
  • 模式的学习
  • 模式的匹配
    PALKA模式抽取系统
  1. 弱监督的事件模式匹配
    只需要人工对语料进行一定的预分类或者制定少量种子模式。由机器根据预分类语料或者种子模式自动学习事件模式。
  2. 优缺点:
    在特定领域中性能较好。
    然而,依赖于文本的具体形式
    获取模板的过程费时费力,具有很强的专业性
    而且制定的模式很难覆盖所有的事件类型,当语料发生变化时,需要重新获取模式。可移植性不强,召回率低。

基于机器学习的事件抽取方法

建模成一个多分类问题,提取特征向量后再使用有监督的分类器进行事件抽取。

有监督事件抽取方法

  • 训练样本的表示
  • 选择分类器并训练优化模型
  • 利用训练好的模型从未标注数据中抽取事件实例。
  1. 基于特征工程的方法
    两阶段分类问题,首先对句子中的每个词汇进行判断,判断其是否为事件触发词,如果是事件触发词,则进入第二个阶段事件元素分类,对句子中每个候选事件元素判断,判断是否是当前触发的事件中包含的事件元素并判断其在当前事件中扮演的角色。
    事件触发词的特征

    • 词汇特征
      词汇,词汇小写形式,词干,词性标签,相邻词特征
    • 句子级特征
      依存路径,依存词汇,候选词在依存树的深度,依存词汇的词性标签,句子中的实体类型,最近距离范围内的实体类型等
    • 外部知识
      在wordnet中的同义词id

    事件元素分类的特征:

    • 触发词特征
    • 词汇特征
    • 句子级特征
  2. 基于神经网络的方法

    • 词向量学习
      非监督学习的方式得到每个词的向量化表示
    • 词汇级特征表示
      利用词向量来捕获词汇级语义
    • 句子级特征表示
      利用动态多池化卷积网络来学习句子内部的组合语义特征
    • 事件元素分类
      利用softmax分类器为每个候选事件元素计算扮演不同角色的概率。

弱监督事件抽取方法

  1. bootstrapping的事件抽取

  2. 基于distant supervision的事件抽取 自动生成事件标注样本
    首先提出回标的假设规则,利用结构化事件知识去非结构化文本中进行回标,将回标文本当做标注样本,然后利用标注的样本训练模型,完成事件的抽取。

    • 核心原色检测
    • 事件触发词检测
    • 事件触发词过滤核扩展
    • 标注数据的自动生成

开放域事件抽取

基于内容特征的事件抽取方法

文本表示
事件聚类与新事件发现
关键在于如何寻找更好的文本表示方法,文本相似度衡量指标以及事件聚类模型。

基于异常检测的事件抽取方法

通过检测文本的发布异常进行事件识别
开发域事件识别虽然可以自动发现新的事件,但其发现的事件往往缺乏语义信息,难以进行结构化。如果想获得准确的语义信息,则需要通过人工标注的方式为每个类别簇赋予特定的语义标签。

事件关系抽取

事件并非单独存在,它们之间存在千丝万缕的联系。核心任务是以事件为基本语义单元,实现事件逻辑关系的深层检测和抽取。事件关系有:

事件共指关系抽取

当两个事件指称指向同一个目标事件,具有共指关系。如联想正式完成摩托莫拉的收购。联想以29.1亿收购了摩托摩拉。
核心问题是计算事件指称之间的相似度。

事件因果关系抽取

反映了事件间先后相继、由因到果的一种关系。有助于掌握事件演变的过程,从而为决策者提供重要的决策信息。

子事件关系抽取

反映了事件之间的粒度和包含关系。比如地震事件包含伤亡、救援等子事件。

事件时序关系抽取

事件在时间上的先后顺序。之前,之后,包含等

你可能感兴趣的:(NLP,知识图谱,nlp)