bert-BiGRU-crf notebook

BERT-BiGRU-CRF学习笔记
1、
Named entity recognition (NER)
(Bidirectional Encoder Representations from Transformers)
IndRNN-CRF 和 IDCNN-BiLSTM-CRF 和 LatticeLSTM 优于 BiLSTM-CRF
BERT-BiGRU-CRF 最强

2、
bert训练的是字向量,先通过 BERT 预训练语言模型获得输入的语义表示,得到句子中每个字的向量表示之后,再将字向量序列输入,BiGRU 之中进行进一步语义编码,最后通过 CRF 层输出概率最大标签序列。
加入bert与传统相比,增强了句子的语义表达,抓住了上下文的信息。
bert-BiGRU-crf notebook_第1张图片
下一个单词出现的概率与之前所有出现的词汇都关系。
在这里插入图片描述
3、
为了融合字左右两侧的上下
文,BERT 采用双向 Transformer 作为编码器;该模型还创新性
的提出了“Masked 语言模型”和“下一个句子预测”两个任
务,分别捕捉词级别和句子级别的表示,并进行联合训练
bert-BiGRU-crf notebook_第2张图片

“Masked 语言模型”是为了训练深度双向语言表示向量,
该方法采用了一个非常直接的方式,遮住句子里某些单词,让
编码器预测这个单词的原始词汇。作者随机遮住 15%的单词作
为训练样本。

4、
bert最重要的部分是双向的Transformer编码结构,舍弃了rnn的循环网络结构,完全基于注意力机制来对一段文本进行建模。
bert-BiGRU-crf notebook_第3张图片
其核心思想是去计算一句话中的每个词对于这句话中所有词的相互关系,然后认为这些词与词之间的相互关系在一定程度上反应了这句话中不同词之间的关联性以及重要程度,使得表达后的词不但蕴含了本身的含义,还包括与其他词之间的关系。
在这里插入图片描述

为扩展模型专注于不同位置的能力,增大注意力单元的“表示子空间”,Transformer 采用了“多头”模式
在这里插入图片描述

为了解决深度学习中的退化问题,Transformer 编码单元中加入了残差网络和层归一化
在这里插入图片描述

在自然语言处理中一个很重要的特征是时序特征,针对自注意力机制无法抽取时序特征的问题,Transforme 采用了位置嵌入的方式来添加时序信息,BERT 的输入是词嵌入,位置嵌入,类型嵌入之和。
在这里插入图片描述
bert预训练语言模型与其他语言模型相比,充分利用了左右两边的信息,获得更好的词分布式的表达。

5、BiGRU层
GRU(Gated Recurrent Unit)是一种特殊循环神经网络(RNN)。
RNN 神经网络理论上可以处理任意长度的序列信息,但是在实际应用中,在序列过长时会出现梯度消失的问题,且很难学到长期依赖的特征。故而提出LSTM单元通过输入门,遗忘门,输出门来控制信息传递。
GRU 是 RNN 的另一种变体,2014 年由 Cho 等人提出,GRU 将遗忘门和输入门合成为一个单一的更新门,同时混合细胞状态和隐藏状态。

bert-BiGRU-crf notebook_第4张图片
具体的运算过程如下:
bert-BiGRU-crf notebook_第5张图片
sigmoid函数 ,点代表点积,Zt是一个更新门,Xt为时刻t的输入向量,Ht是隐藏状态,也是输出向量,包含前面t时刻 的所有有效信息。Rt是一个重置门,控制信息的丢失, Zt和Rt共同决定这Ht隐藏转态的输出。

6、CRF层
CRF对于给定的序列x=(x1,x2…xn)和对应的标签序列 y=(y1,y2…yn),定义了评估分数
在这里插入图片描述
W(i,j) 表示 标签的转移分数(转换矩阵) P(i,yi) 表示该字符的第yi个标签的分数
在这里插入图片描述
h(t) 是上一层t时刻输入数据x(t) 的隐藏状态,参数分别为权值矩阵和参数
对CRF采用最大条件似然估计,队训练集{Xi,Yi}
在这里插入图片描述

其中P公式为: (表示序列原序列到预测序列对应的概率。)
在这里插入图片描述

MSRA命名实体识别数据集
BIO模型,每一个实体类别有两个标签,一个是开始标签,一个结束标签,不是实体的有一个标签
所以如果有三个实体,那么标签的类别有7个。
bert-BiGRU-crf notebook_第6张图片

bert-BiGRU-crf notebook_第7张图片

你可能感兴趣的:(深度学习,bert,bilstm-crf)