实体关系抽取,和事件抽取
掌握实体关系抽取的基本过程
限定域的抽取方法
非限定域的抽取过程:
【弱监督的抽取过程,无监督的抽取过程,感知监督的抽取过程,远程监督的方法(优势,局限) 基本技术思路,改进后可以解决哪些问题?】
事件抽取: 基本的元概念,基本的过程就可以了。过程包含哪些要素
信息抽取:从自然语言文本中抽取指定类型的实体、 关系、 事件等事实信息,并形成结构化数据输出的文本处理技术
限定域命名实体识别任务:
开放域实体抽取任务:
NER可以分成两个子任务:
选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法
转成序列标注问题
NER可以分成两个子任务:
(1)发现命名实体(实体边界识别)
(2)分类命名实体(确定实体类别 )
利用命名实体的内部构成和外部语言环境具有的一些特征采用不同的识别模型
主要问题:特征工程
如:
1、实体边界识别:{B(Begin,实体的起始词)、I(Inside,实体的内部词)、O(非实体)}
2、确定实体类别:{PER(人名实体)、LOC(地点实体)、 ORG(组织实体))}
用序列标注方法解决。
优势 : 神经网络可自动提取特征
模型:CNN+RNN,RNN+CRF ,BERT 等
利用BERT,实验中命名实体识别可达到 96%以上的准确
特点:
任务
给定某一类别的实体实例, 从大规模开放语料中抽取同一类别其他实体实例
抽取思想
种子与目标词有相同类型,所以种子词与目标词在网页中具有相同或者类似的上下文或网页结构
从种子词出发, 通过分析种子实体在语料中的上下文特征得到模板,根据模板得到更多的候选实体,选置信度高的实体作新种子进行迭代,返回置信度高的候选实体做结果输出。
关键:
• 如何选高质量种子
• 如何计算置信度
针对不同数据源的特点设计方法, 其针对性、 灵活性很强
歧义: 一个实体指称项可对应到多个真实世界实体(或实体概念)
同指( coreference) :表示两个或两个以上的词或短语指向相同对象
确定一个实体指称项所指向的真实世界实体(或实体概念)包含实体消歧(Disambiguation)和共指消解(Co-reference Resolution)
对于单语言实体消歧,目前主要有:
基本思想:同一指称项具有近似的上下文利用聚类算法进行消歧
把所有实体指称项按其指向的目标实体进行聚类,使每一个实体指称项对应到一个单独的类别
实体链指的目标是将文本中的指称项正确链接到知识库中正确的目标实体(一个实体名通常会指代知识库中的多个实体。)
实体链接消歧法主要步骤
人工编制各种识别关系的规则,利用规则来识别。成本高,覆盖面底。
基本思想:首先构建规则,通常信息为:词汇、句法、语义等分析时,用模式匹配文本片段
优缺点
优点:准确度比较高(一旦匹配,基本正确);
缺点: 召回率与准确率呈跷跷板,准确率高时,覆盖性难以保证规则的构建需要“专家级”人参与,且工作量巨大
基本思想:将关系实例转换成高维空间中的特征向量或直接用离散结构来表示,在标注语料库上训练生成分类模型, 然后再识别实体间关系
基于特征向量方法:
将各种有效的词法、 句法、 语义等特征集成起来产生描述实体语义关系的各种局部特征和简单的全局特征
关键问题:特征选取,即从自由文本及其句法结构中抽取出各种特征。主要有最大熵模型和支持向量机等模型
基于核函数方法:
挖掘反映语义关系的结构化信息及如何有效计算结构化信息之间的相似度
卷积树核方法: 用两个句法树之间的公共子树的数目来衡量它们之间相似度
设计合理的网络结构, 从而捕捉更多的特征信息, 进而准确的进行关系分类
单一关系抽取指先对自然语言文本进行进行实体标记给出实体,然后根据标记好实体的句子进行关系的分类
联合关系抽取指同时进行实体识别和关系的抽取
限定域的实体关系抽取任务需要预先定义关系类型体系,然而定义一个全面的实体关系类型体系是很困难的。非限定域实体关系抽取技术不先定义关系类别,关系类别自动获取
特点:
非限定域关系抽取任务分为 :
现有的有监督的关系数据库太小
解决方法:利用知识库中现有实体关系作为辅助信息来进行实体关系抽取
处理噪声的几种思路:
隐式处理噪声:在训练过程中,通过对bag中的样本进行软加权等方式来降低标签噪声样本的影响,这类方法一般需要特殊设计的模型,但效果普遍较好
显式处理噪声:在进行模型训练前,先通过一定的方式来检测噪声样本并进行处理,得到一个处理后的数据集,并用这个数据集训练一个关系抽取模型。这类方法一般比较难,普遍采用强化学习等方式进行。但这类方法的优点在于应用性比较强,可以将处理好的数据集应用于任何一个模型中,从而提升模型的关系抽取效果。
外部信息辅助:可以认为远程监督的标签是一种比较弱的监督信息,在此基础上可以加入一些外部的辅助信息,如将图谱补全任务加入进行联合学习;或者加入一些无监督、弱监督的信息等,来辅助进行关系抽取,消除噪声的影响。
利用bart和t5
UnCORE的核心思想是从大规模网络文本中获取候选三元组集合,然后对候选集进行挖掘处理,从中提取正确的关系三元组。
基本思想:
将采集的大规模网页文本语料进行预处理(预处理模块);通过分析语料特点制定候选三元组的抽取规则并从语料中抽取候选三元组集合(生成候选三元组模块);由于抽取的候选集包括大量的噪音条目,所以要对候选集做进一步处理以得到正确的三元组。去噪方法主要通过用采集到的关系指示词作为去噪条件;具体方法:①确定关系指示词的去噪条件(生成关系指示词词表模块)② 用该条件去噪并对一些不全的三元组做补全等后处理(后处理模块),最后得到正确的三元组。
事件的定义:事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或者状态的改变
事件基本元素:时间,地点,人物,原因,结果
主要研究如何从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来(从无结构化数据中抽取结构化事件信息