Deep Learning(wu--84)

文章目录

  • 2
    • 偏差和方差
    • 正则化
    • 梯度消失\爆炸
    • 权重初始化
    • 导数计算
    • 梯度检验
    • Optimization
      • Mini-Batch 梯度下降法
      • 指数加权平均
      • 偏差修正
      • RMSprop
      • Adam
      • 学习率衰减
      • 局部最优问题
    • 调参
      • BN
      • softmax
    • framework

2

偏差和方差

唔,这部分在机器学习里讲的更好点
Deep Learning(wu--84)_第1张图片
训练集误差大(欠拟合)—高偏差,验证集误差大—高方差(前提 :训练集和验证集来自相同分布)Deep Learning(wu--84)_第2张图片

正则化

Deep Learning(wu--84)_第3张图片

Deep Learning(wu--84)_第4张图片
Deep Learning(wu--84)_第5张图片
dropout随机失活,消除一些节点的影响,但为了不影响整体得 / keep-prob,补偿归零带来的损失,确保a3期望值不变
dropout仅在训练过程中进行
为了保证神经元输出激活值的期望值与不使用dropout时一致
我们结合概率论的知识来具体看一下:假设一个神经元的输出激活值为a,在不使用dropout的情况下,其输出期望值为a,如果使用了dropout,神经元就可能有保留和关闭两种状态,把它看作一个离散型随机变量,它就符合概率论中的0-1分布,其输出激活值的期望变为 p*a+(1-p)*0=pa,此时若要保持期望和不使用dropout时一致,就要除以 p


Deep Learning(wu--84)_第6张图片
Deep Learning(wu--84)_第7张图片

梯度消失\爆炸

权重初始化

Deep Learning(wu--84)_第8张图片

导数计算


双边差分误差要小于单边

梯度检验

通过双边差分检验dθ是否准确
Deep Learning(wu--84)_第9张图片

Optimization

Mini-Batch 梯度下降法


Deep Learning(wu--84)_第10张图片

指数加权平均

Deep Learning(wu--84)_第11张图片

Deep Learning(wu--84)_第12张图片

偏差修正

可以在早期获得更好的估测Deep Learning(wu--84)_第13张图片

Deep Learning(wu--84)_第14张图片

RMSprop

Adam


Deep Learning(wu--84)_第15张图片

学习率衰减

Deep Learning(wu--84)_第16张图片
Deep Learning(wu--84)_第17张图片

局部最优问题

通常来说不会困在极差的局部最优中,当你训练较大的神经网络,存在大量参数。cost function J会被定义在较高的空间(容易出现鞍点,即右图中的saddle point)

调参

Deep Learning(wu--84)_第18张图片
Deep Learning(wu--84)_第19张图片
Deep Learning(wu--84)_第20张图片
Deep Learning(wu--84)_第21张图片
Deep Learning(wu--84)_第22张图片

BN

Deep Learning(wu--84)_第23张图片

BN不用加b(bias),因为归一化的过程中(均值)会将b给抵消
ex:x - μ —> (x+b) - (μ+b)
BN能起码保证均值为0方差为1,减弱了前层参数和后层参数作用之间的联系
可以避免前面层的参数变化导致激活函数变化过大,进而导致后面层不好学习的情况
Deep Learning(wu--84)_第24张图片
Deep Learning(wu--84)_第25张图片
BN一次只能处理一个mini-batch数据
BN还有轻微的正则化功能:正则化通过增加噪声防止过拟合,norm通过调整input的分布来降低训练集改变对后面层的影响,但会带来噪音,所以也有轻微正则化作用
Deep Learning(wu--84)_第26张图片

softmax

Deep Learning(wu--84)_第27张图片
首先用softmax将logits转换成一个概率分布,然后取概率值最大的作为样本的分类 。softmax的主要作用其实是在计算交叉熵上,将logits转换成一个概率分布后再来计算,然后取概率分布中最大的作为最终的分类结果,这就是将softmax激活函数应用于多分类中
一个输出结果(概率最大)


Deep Learning(wu--84)_第28张图片
Deep Learning(wu--84)_第29张图片
Deep Learning(wu--84)_第30张图片

framework

Deep Learning(wu--84)_第31张图片

你可能感兴趣的:(Deep,Learning,深度学习,人工智能)