《深度学习》读书笔记,用于Bernoulli输出分布的sigmoid单元

认为sigmoid输出单元有两个部分。首先,它使用一个线性层来计算 z = wTh + b (T是w的转置)。其次,它使用sigmoid激活函数将z转化为概率。

暂时忽略对x的依赖性,只讨论如何用z的值来定义y的概率分布。sigmoid可以通过构造一个非归一化(和不为1)的概率分布P(y)‘ 来得到。

可以随后除以一个合适的常数来得到有效的概率分布。

如果假定非归一化的对数概率对y和z是线性的,可以对它取指数来得到非归一化的概率。然后对它归一化,可以发现这服从Bernoulli分布,该分布受z的sigmoid变换控制

你可能感兴趣的:(《深度学习》读书笔记,用于Bernoulli输出分布的sigmoid单元)