李宏毅2018笔记(未完)

李宏毅2018笔记(未完)_第1张图片
relu理论上可以拟合任何复杂的函数,piece-wide function
李宏毅2018笔记(未完)_第2张图片
shallow vs. deep: Deep needs fewer neurons

In shallow network, each neuron only provides one linear piece.

piece-wide function 折线的上限是,其中n是relu的个数

李宏毅2018笔记(未完)_第3张图片
deep

DNN的前面的layer更重要

李宏毅2018笔记(未完)_第4张图片
DNN的损失函数不是凸函数,局部最小值基本就是全局最小,梯度为0的点叫做critical point
李宏毅2018笔记(未完)_第5张图片
h是Hessian矩阵, g是梯度, Hessian矩阵用来帮助判断当前的critical point的性质
李宏毅2018笔记(未完)_第6张图片
绿线是指包含g的曲线,红线是包含H的曲线
李宏毅2018笔记(未完)_第7张图片
牛顿法通过H^-1一步可以直接计算到极致点
李宏毅2018笔记(未完)_第8张图片
H能够告诉我们当前critical point的种类
李宏毅2018笔记(未完)_第9张图片
正定矩阵
李宏毅2018笔记(未完)_第10张图片
Hessian矩阵与极值点的关系
李宏毅2018笔记(未完)_第11张图片
李宏毅2018笔记(未完)_第12张图片
theta不管往哪个方向走,都是H特征向量的线性组合
李宏毅2018笔记(未完)_第13张图片
Hessian例子
李宏毅2018笔记(未完)_第14张图片
两个神经元连接的损失函数不是凸函数(一个神经元是凸函数,就是linear regression)

只要所有的hidden layer的size大于输入输出的size,找到的局部最小值一定是全局最小值

参数越多,critical point是saddle point(鞍点)的概率越大

李宏毅2018笔记(未完)_第15张图片
BN的作用
李宏毅2018笔记(未完)_第16张图片
skip connection的作用

sharpness

小batch训练的效果更好, 可能和sharpness有关


李宏毅2018笔记(未完)_第17张图片
SELU, 输入输出的miu和方差趋近

best practice: standardscaler + selu + lecun_normal

李宏毅2018笔记(未完)_第18张图片
SELU性能很好

GAN

DCGAN的技巧:使用leaky relu, BN, Generator最后一层的激活函数使用tanh,优化器使用Adam

你可能感兴趣的:(李宏毅2018笔记(未完))