2022-12-06

基于图的多关系抽取推理模型Graph-based reasoning model for multiple relation extractionNeurocomputing, January 2021https://www.sciencedirect.com/science/article/pii/S0925231220314326任务确实完全不一样,就是纯粹的文本实体识别+关系推理,使用的数据集也是自制的,通过构建知识图谱,识别实体并对其使用LSTM,不过可以检测文本的未标注实体和关系摘要语言知识对于各种NLP任务很有用,但困难在于表示和应用。我们认为语言知识隐含在大规模语料库中,而分类知识,即与实体和关系类型定义相关的知识,隐含在标记的训练数据中。因此,提出一种语料库子图,从易于获取的未标注数据中挖掘更多的语言知识,并利用句子子图获取分类知识。它们共同构成了一个关系知识图谱(RKG),以从本文中的句子中提取关系。在RKG上,实体识别可以被视为属性值填充问题,关系分类可以被视为链接预测问题。因此,多重关系提取可以被视为知识完成的推理过程。我们将统计推理和神经网络推理相结合,将句子分割成实体块和非实体块,然后提出一种新的块图LSTM网络来学习实体块的表示并推断它们之间的关系。在两个标准数据集上的实验表明,我们的模型在多重关系提取方面优于以前的模型。研究问题任务:关系提取(RE),从句子中为实体对分配适当关系类型的任务,检测句子中的实体,为各个实体之间分配关系推理:推断未知实体和关系类型或根据已知类型查找它们的概率值问题:统计推理方法的弊端:首先,难以构造出最合理的概率函数。其次,数据稀疏性问题方案:●神经网络推理●提出了一个语料库子图,以从未标记的语料库中挖掘与任务相关的语言知识。它与句子子图相结合,构成用于多重关系提取的关系知识图谱●在语料库子图上构建了一系列节点的统计数据。这些统计数据被视为节点特征,输入神经网络以将句子分割为实体块和非实体块。然后,我们提出了一种新的块图LSTM网络来学习实体块的表示并推断它们之间的关系。贡献:1我们首先提出Chunk LSTM网络,它是LSTM网络的一般形式。Chunk LSTM网络能够学习单词和单词块的表示。我们将一个块 LSTM 与一个图的 LSTM 集成在一起,形成一个块图LSTM网络,用于多关系提取2我们研究了一种利用易于访问的未标记语料库来有利于关系提取任务的新方法。与未标记语料库的生成预训练产生的词嵌入不同,该方法构建了一些与任务相关的统计数据来挖掘语言知识。方法句子链,w是第i个词ENTITY CLASSIFIER

RELATION CLASSIFIER

CLASSIFI-

[HA HO]

HT

CATION

HR HR-[

H2

[H TI,H TIKTL)

HI

CHUNK

H21

HI1

H12

H41

H31

GRAPH

HT

LSTM

(H,Z H)

(H,ZH)

BI-LSTM

BI-LSTM

BI-LSTM

BI-LSTM

BI-LSTM

WORD

X21

X11

X41

X12

X31

REPRESENTATION

VECTOR XTT

ISRAELI...

VILLAGE

IN

A

1、语料库子图的神经网络推理目的:将S分割为实体块和非实体块方法:训练BiLSTM为每个单词输出一个分块标签2、语料库子图的混合推理、将神经网络推理和统计推理相结合,对句子进行分割,神经网络输入:Vt'由节点的向量表示Vt + 统计的具体观测值可以看作是节点的特征值输出:分块标签3、chunk LSTM目的:获得语义块的表示向量输入:语料库子图上混合推理模型输出的句子块链IN - (WIT +UIHNT-1 + - 1 + B;)

ONTO(W.XIT +U HNT-1 + B.)

FNT O(W;XN +UJHIR-1 + VJHR-1 + BF)

CNT TANH(W&XIT + UCHIT-1 + VCHR-1 + BC)

CIT F T

CTT-1 + IT

CTT

HN ONTANH(CRT)

HT HRKRL

4、句子子图上的块图 LSTM 推理模型对句子子图进行推理的任务:预测未知链接,并根据已知信息填充未知属性值句子子图:●节点——分出的实体块和非实体块●边:各种依赖关系,如邻接关系、句法依赖关系方法:将 Chunk LSTM 与 Graph LSTM集成到Chunk Graph LSTM,进行多关系提取T-1

W;XIT+UJHIT-1+

JH;+ BI

J-1

TL

VOJH;+BO

WXIT+UHRT+1

0

OTT

J-1

T-1

FRT

WPXIT+UJHRT-1+

SH;+BJ

J-1

T-1

ZVGHJ+BE

W&XT+UCHTT-1

CIT TANH

J-1

CNTFIT

CNT-1 +INTOCIT

HIT

TANH(CRT)

OTT

HT HRKRL

实验数据集:1《纽约时报》2GENIA数据集是从生物医学文献中收集的药物-突变二元关系3ACE2005,博客、广播新闻和新闻专线数据,定义了 7 种实体类型和 6 种关系类型LLE(局部线性嵌入)算法是一种节点表示方法,它假设每个节点都是嵌入空间中其邻居的线性组合(节点本身的 100 维向量+左相邻集的 100 维向量+右相邻集的 100 维向量)

你可能感兴趣的:(2022-12-06)