关系抽取(自学笔记)

!! 参考《实体关系抽取方法研究综述》

  • 实体关系任务1998年提出

关系抽取(自学笔记)_第1张图片

  1. 识别实体
  2. 识别关系触发标识符(二分类问题,识别是否是关系触发标识符)
  3. 关系分类

例如: 实例“姚明出生于上海”
首先,对句子进行预处理,识别出命名实体“姚明”和“上海”
然后, “出生于”作为关系触发词表明这2种实体之间可能存在某种关系
最后,通过关系抽取模型的判定,得出2个实体之间存在着“地点”这一关系

  • 少量对抗样本会避免模型过拟合
  • NLTK工具包:2009年宾夕法尼亚大学计算机和信息科学系 实验室里开发的。在关系抽取方面,研究人员通过该工具包提供 的文本分析、文本分类等功能对文本进行预处理,进而对句子结构和语法特征进行分析,推断句子中实 体之间是否存在的语义联系

中文文本分词工具: jieba,THULAC,NLPIR,LTP

  • 中文语料库的建立需要经 过中文分词、词性标注和句法分析等预处理,并且在处理的过程中会存在很多错误,这就导致中文实体 关系抽取的效果也略差于英文关系抽取
  • 中文触发词抽取难度较大,且数目过多,通过对语料的分析发现,由于中文词汇表 达的多义性,对同一类事件,中文触发词的个数要远大于英文
  • Precision:准确率,被预测为正例的到底有多少个是真正的正例(分母是所有被预测为正例的实例)
  • Recall:召回率,所有的正例中到底有多少个被找到(分母是所有真正标签是正例的)
  • 针对开放领域的关系抽取,目前还缺少公认的 评测体系,一般通过考查抽取关系的准确性以及综 合考虑算法的时间复杂度、空间复杂度等因素来评 价关系抽取模型的性能.

关系抽取(自学笔记)_第2张图片

  1. 学习过程:采用训练样本,学习出关系抽取模型
    ① Preprocessing,即预处理,将语料文本清洗 成可以直接抽取的纯文本格式
    ②Textual analysis,即文本分析,对文本的表 示及其特征(POS,NER等)进行选取
    ③ Relation represention,即关系表示,即对实 体之间的联系进行语义表示
    ④ Relation extraction models,即关系抽取模型,基于关系表示构建分类模型
  2. 预测过程:利用学习过程获得的关系抽取模 型对测试文本进行关系的预测和抽取

关系抽取(自学笔记)_第3张图片

[21] 综合实体上下文信息、句法分析 树、依存关系等多种特征,将词汇、句法和语义特征 与最大熵模型相结合进行关系分类
[25] 结合实体类别、实 体位置关系、前后词信息等
[26] 融合依存 句法关系、核心谓词和语义角色标柱等特征进行关系抽取
[27] 提出了一种基于关系推理模型的领域 知识来演化关系抽取方法
关系抽取(自学笔记)_第4张图片
① Initialized seed:即初始种子,利用少量关系 实例人工构造的初始种子集合
② Generate seed tuples:即生成初始种子的关 系三元组,由初始种子集合之间的实体关系产生,便于之后的实体的标识
③ Tag Entity:即标识实体,对文本进行预处 理,利用知识库中的初始关系三元组识别训练文本 中实体
④ Generate relation patterns:即生成抽取模 式,利用模式学习的方法,通过不断迭代,产生新的 关系实例
⑤ Produce new seeds:即产生新的种子,根据 新的关系实例增加新的种子,不断扩充种子集合的 规模
⑥ Extend knowledge base:即扩展知识库,将 新的关系实例扩展到知识库中

[37] snowball 方法
[42] 提出了基于种子自 扩展机制,利用自举的方法抽取1998年上半年纯文 本《人民日报》语料的中文实体间的关系
[44] 协同训练:该方法利用2个分类器对同一个实例从不同角度进行关系分类,2个分类器相互学习、 相互强化,不断提高关系抽取的性能

无监督的机器学习关系抽取一般流程如下:
① 获取命名实体识别及其上下文的信息
② 聚类具有相似性的命名实体对
③ 选择核心词汇标注各类的语义关系

[53] 融合依存特征和浅层语法模 板,利用聚类方法在大规模的语料库中抽取维基百科词条中的实体所有的语义关系
[57] 首先使用实体之 间的距离限制和关系指示词的位置限制获取候选关 系三元组,然后采用全局排序和类型排序的方法来 挖掘关系指示词,最后使用关系指示词和句式规则对关系三元组进行过滤

  • 无监督的关系抽取方法无需事先人工定义实体 关系的类型,可以方便地移植到别的领域,但是仍然依赖于初始种子 和语料库的质量
  • Bert自2018年提出以来就备受 关注,广泛应用于命名实体识别、关系抽取等多个领域

[63] 融合卷积神 经网络和最短依存路径的优势进行实体关系抽取
[66] 基于COAE 2016数据集的988条训练数据和937条测试数据, 提出有效结合SVM 和CNN算法可以用于中文实体关系的抽取方法
[75] 提出一种基于自然语言语句生成图神 经网络(GP-GNNS)参数的方法,使神经网络能够对无结构化文本输入进行关系推理

  • 联合学习方法有3种,包括基于参数共享的实体关系抽取方法、基于序列标注的实体关系抽取方 法和基于图的实体关系抽取方法

[82] 通过共享编码层的LSTM的获得最优的全局参数
[83] 将输入句子通过公用的Embedding层和 Bi-LSTM层,分别使用一个LSTM进行命名实体识别和一个CNN进行关系抽取
[84] 将命名实体识别和实体关系抽 取融合成一个序列标注问题,可以同时识别出实体和关系,该方法利用一个端到端的神经网络模型抽取出实体之间的关系三元组
[86] 现对模型加入轻微的扰动(对抗样本)可以使得Word Embedding的质量更好,不仅提高了置信度还避免了模型过拟合,模型的性能大大提升
[92] 提出了一种在句子级别引 入注意力机制的方法来抽取有效的实例,并通过FreeBase和WikiPedia不断地扩充实体的知识背景
[95] 使用Jaccrad算法计算知识库中的关系短语与句子中2个实体之间的语义相似性, 借此过滤错误的标签
[98] 融合CNN和远程监督的 方法,提出分段卷积神经网络(picewise convolutional neural network, PCNN)用于实体关系抽取,并尝试将基于CNN的关系抽取模型扩展到远程监督数据上.该方法可以有效地减少了错误标签的传播和积累

  • 由于传统关系抽取基于特定领域、特定关系进行抽取,导致关系抽取这一任务耗时耗力,成本极 高,同时不利于扩展语料类型
  • 该关系抽取方法主要分为半监督和无监督2种,并结合语形特征和语义特征自动地在大规模非限定类型的语料库中进行关系抽取

开放领域的关系抽取方法主要有3个流程:
1)深层解析小规模的语料集,自动抽取实体间 关系三元组,利用朴素贝叶斯分类器训练已标注可 信和不可信的关系三元组构建关系表示模型
2)利用关系抽取模型并输入词性、序列等特征 等数据,在训练好的分类器上进行大量网络文献的 关系抽取,获取候选关系三元组
3)合并候选三元组,通过统计的方法计算各个 关系三元组的可信度,并建立索引

[100] 设计开发了一种新颖的自监督学习的信息抽取系统 WOE,WOE系统利用启发式规则训练维基百科网页信息框(Infobox)中的数据,自动地构建实体关系集,对于较长的语句则采用先识别关系词再识别实体的方法
[113] 发现实体之间的关 系与实体之间的距离以及关系词的位置有较大关系

未来发展趋势:

1)从二元关系抽取到多元关系抽取的转化
当前的关系抽取系统主要集中在2个实体之间的二元关系抽取,但并非所有的关系都是二元的,如有些关系实例需要考虑时间和地点等信息,所以会考虑更多的论元如何根据上下文信息,识别跨越句子的多元实体关系,提高关系抽取的准确率和智能化,这促使研究者不断投入更多的精力
2)开放领域的实体关系抽取的深入研究
目前的研究工作大多面向特定的关系类型或者特定领域,而使用特定的语料库,很难做到其他领域的自动迁移,虽然,一些研究者针对开放领域的关系抽取进行了研究,提出了一系列的方法用于实体关系抽取, 然而这类方法和特定领域相比仍有一定的差距,如何不断提高系统的准确率、可移植性以及可扩展性, 这都激励着研究人员投入更多的精力和时间,促进开放领域的实体关系抽取的发展
3)远程监督关系抽取方法得到不断改进
目前,由于远程监督的方法仍然存在错误标签和误差传播2个主要问题,研究者多是基于这些问题对深度学习的关系抽取模型加以改进.为了避免产生过多的错误标签,人们主要采用多示例、注意力机制的方法等方法减少噪音数据,[130] 融合增强学习和远程监督方法的优点,不断地减少错误标签, 进而降低负类数据对关系抽取模型的影响,针对误差传播的问题,研究者多是对句子的语义信息进行深入挖掘,而对句子语法信息却少有涉及,如何有效地解决远程监督产生的错误标签和误差传播,如何有效地融合语法和语义信息,这些吸引着研究者不断改进相关算法,不断提高深度学习方法的性能
4)深度学习有监督方法的性能提升
近年来, 越来越多的研究人员关注于联合学习和基于图结构的抽取方法.联合学习将命名实体识别和关系抽取作为一个任务,减少了错误信息的积累和传播,也减少了冗余信息对模型的影响,而针对关系重叠和实体间潜在特征等问题,基于图结构的抽取方法提供 了一些新的思路.然而这2种方法的性能还需进一 步改进,不断促进信息抽取领域的发展
5)工业级实体关系抽取系统的继续研发
关系抽取现已被广泛应用于智能搜索、智能问答、个性化推荐、内容分发、权限管理,人力资源管理等领域,通过对学术研究和市场需求进行深入地融合,不断提高实体关系抽取的可靠性、置信度、执行效率等,促 进关系抽取模型的性能进一步得到提升,为人们的 生活提供更多便利

你可能感兴趣的:(论文)