杂项

L2 (w^2)正则化导数是2*w,到后期变化是比较平缓的,很难达到0

L1 (|w|) 正则化导数是1,到后期会震荡,有可能会把权重压到0

如果权重为0了,网络梯度消失无法训练,所以神经网络一般用L2,

 

dropout 是在当前批次中随机的抑制神经元,让其不参与训练。在测试网络时,要调用evel(),不做神经元抑制

 

 

单层感知机,神经元,没有激活函数,没法提供非线性能力; y = w*x + b , 加入sigmoid函数0-1之间的概率值,y = sigmoid( w*x + b)

多层感知机(全连接,稠密连接),加入隐藏层,多个非线性,进入深度神经网络,做全连接权重多计算量大,网络使用时慢容易过拟合,把噪点都学到

卷积网络,稀疏连接,卷积核参数是共享的,减少参数量防止过拟合,卷积实际是在做像素点的融合,加大了关联关系,比如图片下面一个手没有人,我们就可以跟踪出人,可以根据局部特征去判断全局特征

 

网络实际是在矩阵计算,

其他条件相同时,同样层数的网络,全连接快内存大,cnn慢内存占用大
 

MLP:计算量相比于卷积要小,参数跟输入图片大小有关,占用内存相应图片会大小变化

CNN:因为cnn是权值共享的,参数量跟输入图片大小无关。 虽然参数少,但是所以计算量大

 

网络训练防止过拟合实际就是要去相关,数据越近关联越大,可以通过乱序获取来打乱相关性

 

你可能感兴趣的:(人工智能学习笔记)