比LSTM效果更优的bert

比LSTM效果更优的bert_第1张图片
在训练数据上的效果

比LSTM效果更优的bert_第2张图片
测试集上的效果

LSTM的三个门均采用sigmoid函数,所以并不是只取0和1的门,而是近似。激励函数采用tanh,为奇函数,所以均值为0。

下面将公式分为三部分进行梳理,其中

代表点乘。提醒一下,每个括号里面虽然参数不一样,但本质均为输入部分,不用太纠结,当作“输入”两个字看即可


比LSTM效果更优的bert_第3张图片
bert优于rnn

你可能感兴趣的:(比LSTM效果更优的bert)