概述
虽然tensorflow2.0发布以来还是收获了一批用户,但是在自然语言处理领域,似乎pytorch见的更多一点。关系抽取是目前自然语言处理的主流任务之一,遗憾没能找到较新能用的开源代码。一方面是因为关系抽取任务的复杂性,目前数据集较少,且标注的成本极高,尤其是中文数据集,所以针对该任务的数据集屈指可数,这也限制了这方面的研究。另一方面,关系抽取任务的复杂性,程序多数不可通用。github上有pytorch版本的BiLSTM-attention的开源代码,然而基于python2且pytorch版本较低。目前没有基于python3,tf2的BiLSTM-Attention关系抽取任务的开源代码。我在这篇博客中会写使用python3,基于pytorch框架实现BiLSTM-Attention进行关系抽取的主要代码(无关紧要的就不写啦)。(学生党还是弃坑tensorflow1.x吧,一口老血。。。)
关系抽取
其实关系抽取可以归为信息抽取的一部分。信息抽取是当前自然语言处理的热点之一。信息抽取是知识图谱,文本摘要等任务的核心环节,但是就目前的研究来看,当前的技术仍不成熟,所消耗的资源较多且研究结果差强人意。对于构建知识图谱来说,实体识别,关系抽取,实体融合是不可缺少的要素。当前,联合关系抽取有许多经典模型,但是效果一般。在可以保证实体识别的高准确率的情况下,还是建议使用pipeline方法,即先识别实体,后进行实体之间的关系抽取。本文介绍在已经有实体的基础上,进行关系抽取的经典模型,BiLSTM-Attention,该模型在NLP中很多地方都有它的身影,尤其是文本分类任务中。进行关系抽取时,也是把句子进行分类任务,这种情况下,关系抽取也叫做关系分类。理论基础来源于这篇文章:文章地址。
关于LSTM和attention我就不多赘述了,网上的资料很多。我们直接来看一下架构:
这是文章中的架构图。其实也很简单,字符经过嵌入后传给LSTM层,编码之后经过Attention层,然后进行目标的预测。这一看就是个最简单的文本分类的结构。那么关系抽取是怎么解决的呢?关系抽取其实就是在嵌入时,加入了实体的特征,与句子特征融合起来,丢给神经网络进行关系分类。
数据集
数据集展示
这个数据集是关系抽取中最常见的数据集,人物关系抽取。第一列,第二列是实体,第三列是他们之间的关系,后面是两个实体所处的句子。总共11个类别+unknown,在文件relation2id中。
### 数据预处理
def get_label_distribution(relation_file_path,data_file_path):
relation2id = {}
with open(relation_file_path, "r", encoding="utf-8") as fr:
for line in fr.readlines():
line = line.strip().split(" ")
relation2id[line[0]] = int(line[1])
import pandas as pd
label = []
with open(data_file_path, encoding='utf-8') as fr:
for line in fr.readlines():
line = line.split("\t")
label.append(relation2id[line[2]])
df = pd.Series(label).value_counts()
return df
上述代码是为了得到标签的分布,读取文件后将标签信息写入relation2id的字典中。label 中写入的是数据集中的标签。
def flatten_lists(lists):
flatten_list = []
for l in lists:
if type(l) == list:
flatten_list += l
else:
flatten_list.append(l)
return flatten_list
def flat_gen(x):
def is_elment(el):
return not(isinstance(el,collections.Iterable) and not isinstance(el,str))
for el in x:
if is_elment(el):
yield el
else:
yield from flat_gen(el)
上述代码是将整个数据文件转换成单行列表。
评价模型部分的代码省略,基本都是一个套路。
模型构建
import torch
import torch.nn as nn
import torch.nn.functional as F
torch.manual_seed(1)
class BiLSTM_ATT(nn.Module):
def __init__(self,input_size,output_size,config,pre_embedding):
super(BiLSTM_ATT,self).__init__()
self.batch = config['BATCH']
self.input_size = input_size
self.embedding_dim = config['EMBEDDING_DIM']
self.hidden_dim = config['HIDDEN_DIM']
self.tag_size = output_size
self.pos_size = config['POS_SIZE']
self.pos_dim = config['POS_DIM']
self.pretrained = config['pretrained']
if self.pretrained:
self.word_embeds = nn.Embedding.from_pretrained(torch.FloatTensor(pre_embedding),freeze=False)
else: 沈阳做人流多少钱 http://yyk.39.net/sy/zhuanke/fc843.html
self.word_embeds = nn.Embedding(self.input_size,self.embedding_dim)
self.pos1_embeds = nn.Embedding(self.pos_size,self.pos_dim)
self.pos2_embeds = nn.Embedding(self.pos_size,self.pos_dim)
self.dense = nn.Linear(self.hidden_dim,self.tag_size,bias=True)
self.relation_embeds = nn.Embedding(self.tag_size,self.hidden_dim)
self.lstm = nn.LSTM(input_size=self.embedding_dim+self.pos_dim*2,hidden_size=self.hidden_dim//2,num_layers=1, bidirectional=True)
self.hidden2tag = nn.Linear(self.hidden_dim,self.tag_size)
self.dropout_emb = nn.Dropout(p=0.5)
self.dropout_lstm = nn.Dropout(p=0.5)
self.dropout_att = nn.Dropout(p=0.5)
self.hidden = self.init_hidden()
self.att_weight = nn.Parameter(torch.randn(self.batch,1,self.hidden_dim))
self.relation_bias = nn.Parameter(torch.randn(self.batch,self.tag_size,1))
def init_hidden(self):
return torch.randn(2, self.batch, self.hidden_dim // 2)
def init_hidden_lstm(self):
return (torch.randn(2, self.batch, self.hidden_dim // 2),
torch.randn(2, self.batch, self.hidden_dim // 2))
def attention(self,H):
M = torch.tanh(H) # 非线性变换 size:(batch_size,hidden_dim,seq_len)
a = F.softmax(torch.bmm(self.att_weight,M),dim=2) # a.Size : (batch_size,1,seq_len)
a = torch.transpose(a,1,2) # (batch_size,seq_len,1)
return torch.bmm(H,a) # (batch_size,hidden_dim,1)
LSTM的输入是实体1的位置信息+实体2的微信信息+嵌入信息。LSTM的output保存了最后一层的输出h。
def forward(self,sentence,pos1,pos2):
self.hidden = self.init_hidden_lstm()
embeds = torch.cat((self.word_embeds(sentence),self.pos1_embeds(pos1),self.pos2_embeds(pos2)),dim=2)
embeds = torch.transpose(embeds,0,1)
lstm_out, self.hidden = self.lstm(embeds, self.hidden)
lstm_out = lstm_out.permute(1,2,0)
lstm_out = self.dropout_lstm(lstm_out)
att_out = torch.tanh(self.attention(lstm_out ))
relation = torch.tensor([i for i in range(self.tag_size)], dtype=torch.long).repeat(self.batch, 1)
relation = self.relation_embeds(relation)
out = torch.add(torch.bmm(relation, att_out), self.relation_bias)
out = F.softmax(out,dim=1)
return out.view(self.batch,-1)
这一段主要是维度变换的工作,将数据处理成模型所需要的维度。上面有一些配置信息是在另一个文件夹中统一编写的,基本的模型就是这样。