深度学习BatchNorm层,全连接层,Dropout层,损失层

深度学习BatchNorm层,全连接层,Dropout层,损失层_第1张图片
先均值方差,然后规范化,计算尺度偏移量
深度学习BatchNorm层,全连接层,Dropout层,损失层_第2张图片
深度学习BatchNorm层,全连接层,Dropout层,损失层_第3张图片
全连接层
深度学习BatchNorm层,全连接层,Dropout层,损失层_第4张图片
将数据转换为向量,然后进行分类操作
如下图所示,相当于就是把数据通过线性变化转化为向量,其过程和卷积相似,因此卷积也可以代替Fc全连接层
深度学习BatchNorm层,全连接层,Dropout层,损失层_第5张图片
Dropout
深度学习BatchNorm层,全连接层,Dropout层,损失层_第6张图片
深度学习BatchNorm层,全连接层,Dropout层,损失层_第7张图片
其中公式第一部分为经验风险,也就是传统梯度下降达到最小,其中f()为模型,yi为名称(其实就是逻辑回归中损失函数的表达式)
深度学习BatchNorm层,全连接层,Dropout层,损失层_第8张图片

第二部分是结构风险,也就是正则化,郎门达为惩罚项系数(正则化系数),为了防止过拟合

深度学习BatchNorm层,全连接层,Dropout层,损失层_第9张图片
深度学习BatchNorm层,全连接层,Dropout层,损失层_第10张图片
即在二分类中若y=0,则a需要输出为0(这样损失才最小),此时公式来看代价就为零
深度学习BatchNorm层,全连接层,Dropout层,损失层_第11张图片
labels上第一个需要one-hot编码,第二个并不须要
深度学习BatchNorm层,全连接层,Dropout层,损失层_第12张图片
L1开始loss比较快但是在接近0时容易跳过最优解
L2开始比较慢。最后比较平滑
smooth结合了俩

你可能感兴趣的:(深度学习BatchNorm层,全连接层,Dropout层,损失层)