GLU、sparsemax激活函数

1. GLU/GTU 门控机制激活函数

GLU:
GLU、sparsemax激活函数_第1张图片
GTU:
在这里插入图片描述

f(X) = tanh(X*W+b) * O(X*V+c)

2. sparsemax

Softmax:
softmax缺点:每个向量位置都有值。
GLU、sparsemax激活函数_第2张图片
文章From Softmax to Sparsemax:A Sparse Model of Attention and Multi-Label Classification 提出了能够输出稀疏概率的Sparsemax。
在这里插入图片描述
这里把输入 z 和某个分布 p 的欧式距离最小化。

一种具体的实现是,
GLU、sparsemax激活函数_第3张图片

GLU、sparsemax激活函数_第4张图片


参考:

  1. Language Modeling with Gated Convolutional Networks;
  2. 论文;

你可能感兴趣的:(算法)