知识图谱发展报告2018————实体关系学习

关系定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本中检测和识别出实体之间具有某种语义的关系,也称为关系抽取。关系抽取的结果通常是一个三元组(实体1,关系,实体2)。例如:句子“北京是中国的首都、政治中心和文化中心”中的表述抽取出的关系表示为(中国,首都,北京),(中国,政治中心,北京),(中国,文化中心,北京)。关系抽取是知识图谱的构建和知识抽取中的一个重要环节,具有重要的理论意义和广阔的应用场景,为多种应用提供重要的支持,主要表现在:

  • 大规模知识图谱的自动构建:现有的知识图谱大多都由专家人工编撰,随着互联网的发展,知识呈现爆炸式增长,人工构建知识图谱特别是构建领域知识图谱遇到了很大的困难,存在只是覆盖率低,数据稀疏和更新缓慢等问题。然而利用关系抽取的技术,知识图谱可以根据结构化的抽取结果自动生成。
  • 为其他信息获取技术提供支持。
  • 自然语言理解领域:关系抽取是篇章理解的关键技术,运用语言处理技术可以对文本的核心内容进行理解,因此,语义关系抽取的研究将成为从简单的自然语言处理技术到真正的自然语言理解应用之间的一个重要纽带。

研究内容

研究的内容主要包括:限定域关系抽取和开放域关系抽取。

  • 限定域关系抽取是指系统所抽取的关系类别是预先定义好的,比如知识图谱中定义好的关系类别。在限定域关系抽取中关系的类别一般是人工定义或者从知识图谱中自动获取。由于类别已经定义,所以可以人工或者利用启发式的规则自动标注语料。因而,限定域关系抽取中的主要内容是如何利用有监督或弱监督的方法抽取与定义的实体关系知识。在有监督的方法中主要的研究内容集中在如何挖掘更多能表征语义关系的特征上。在弱监督方法中主要的研究内容集中在如何降低自动生成预料的噪声。
  • 开放域关系抽取,顾名思义就是不限定所抽取关系的类别。由于没有事先定义关系的类别,因此开放域关系发现中利用关系指代词来代表关系的类别。因此这个方向的主要研究内容就是如何利用无监督的方法自动的抽取关系三元组。

技术方法和研究现状

基于规则的关系抽取

所谓基于规则的关系抽取方法就是指首先由通晓语言学知识的专家根据抽取任务的要求设计出一些包含词汇、句法和语义特征的手工规则(或称为模式),然后在文本分析中寻找与这些模式相匹配的实例,从而推导出实体之间的语义关系。

基于手工规则的方法需要领域专家构建大规模的知识库,这种方法的劳动代价很大,而且移植性存在着明显的不足。

基于机器学习的关系抽取

按照机器学习的方法对于语料库的不同需求大致可以分为三类:无监督关系抽取、有监督关系抽取和弱监督关系抽取。无监督关系抽取希望把相同关系的模版聚合起来,不需要人工标注的数据,自动地提取出来实体关系。有监督关系抽取是使用人工标注的语料进行训练,这种方法是目前取得效果最好的,但是需要大量的人力标注,费时费力。因此有学者提出利用知识库回标文本自动获取大量的弱监督数据。

  • 无监督关系抽取:基于分布假设。分布假设的核心思想是:如果两个词的用法相似及出现在相同的上下文中,那么两个词的意思就相近。基于此理论,无监督关系抽取将两个实体的上下文作为表征语义关系的特征。无监督关系抽取的核心是选取表示实体之间关系的特征,然后再聚类。
  • 有监督关系抽取:一般将关系抽取看作分类问题,提取特征向量然后再利用有监督的分类器进行关系抽取,有监督的方法性能较好而且占据着现在的主导地位。有监督的关系抽取可以分为:基于特征向量的方法、基于核函数的方法和基于神经网络的方法。基于特征向量的方法特点是需要显示地将实体关系转化为分类器可以接受的特征向量,其研究重点是怎样提取具有区分性的特征。基于核函数的方法不需要构建固有的特征向量空间,能够很好地弥补基于特征向量的不足,基于核函数的方法直接将结构树作为处理对象,在计算关系之间的距离的时候不再使用特征向量的内积而 是用核函数,核函数可以在高维的特征空间中隐式地计算对象之间的距离。深度学习的方法在有监督关系抽取任务中占据了主导地位。他们主要是应 用了词向量将句子表示成了矩阵,再利用卷积神经网络和 maxpooling 得到句子 的向量表示。最后用 softmax 分类器对该向量进行分类,得到句子的关系类别。
  • 弱监督关系抽取:弱监督关系抽取主要有两种框架,一种是使用半监督学习和主动学习等技术以尽可能少的代价提升抽取效果,通过大规模的词聚 类作为额外的特征,以解决实体之间特征过于泛化的问题,从而帮助关系抽取;利用主动学习的技术,通过少量的标注数据来发现分类面附近的 未标注数据,对这些数据进行人工标注,从而以更少的标注代价获得更好的抽取 效果。另外一种框架是使用回标的思想,利用现有知识库中的关系三元组,自动 回标三元组中实体所在的文本作为训练数据,由于其训练数据产生过程不需要人 工标注,所以这种方法代价很低,更加适合大规模多领域的网络文本,它在信息 抽取领域近年来得到较广泛的应用。

你可能感兴趣的:(NLP)