学习视频来自b站up:
霹雳吧啦Wz的个人空间_哔哩哔哩_bilibili
BP算法包括信号的前向传播和误差的反向传播两个过程。即计算误差输出时按“输入→输出”的方向进行,而调整权值和阈值时则按“输出→输入”的方向进行。
实例:利用BP神经网络做车牌数字识别
1、首先读入一张彩色的RGB图像,每一个像素里面都包含3个值(RGB分量)
2、用一个5行3列的滑动窗口在二值化后的黑白图像上进行滑动,每滑动到一个地方就计算这个滑动窗口中白色的像素占整个滑动窗口所覆盖的像素比例
3、将所得到的5*5的矩阵按行进行展开,并将其拼接成一个行向量(1行25列),这样就可以把这个行向量当成输入神经网络的输入层
4、输入层有了之后,再看输出层。one-hot编码是常用的对标签进行编码的方式
5、有了输入和输出之后,就可以对神经网络进行训练了。在实际训练过程中,可以将输入层的输入节点数设为25,将输出层的输出节点数设为10,中间的隐藏层按实际情况进行设置
卷积层是卷积神经网路中独特的网络结构
卷积:一个滑动窗口在特征图上进行滑动,并计算(将卷积核上的值与特征图上的值对应相乘,再进行相加,就得到最后矩阵中的一个值,每滑动一步计算一个值,最终得到卷积结果)
卷积的计算方式:如上图左侧橘色框
(1*1)+(0*0)+(0*1)+(1*0)+(1*1)+(0*0)+(1*1)+(1*0)+(1*1) = 4
卷积的目的就是为了进行图像的特征提取
卷积的特性
1.权值共享的优势(对比BP神经网络)
2.卷积的过程
实际应用过程中往往是对多维的特征矩阵进行卷积操作
卷积核的深度要和输入特征矩阵一致(这里的深度指的是channel,即通道数),都是三维的,最终卷积得到的矩阵是由三通道的输入特征矩阵和三通道的卷积核分别对应卷积,再对应相加后得到一个卷积矩阵
3.总结
1、卷积核的channel与输入特征层的channel相同(都是三通道)
2、输出的特征矩阵channel与卷积核的个数相同(通过卷积核1和卷积核2最终得到一个两通道的输出特征矩阵)
4.思考
(1) 如果加上偏移量bias该如何计算?
只需要将最终卷积得到的矩阵的每个元素和偏移量进行相加即可
(2) 加上激活函数该如何计算?
常用的激活函数
(3) 如果在卷积的过程中出现越界的情况该如何处理?
maxpooling下采样:寻找池化核对应范围内的最大值来进行最大下采样操作
averagepooling下采样层:寻找池化核对应范围内的平均值来进行平均下采样操作
池化层的特点
1、没有训练参数,只是在原始的特征图上进行求最大值或者平均值的操作
2、它只会改变特征矩阵的宽度(w)和高度(h),并不会改变深度(channel)
3、一般池化核的大小(poolsize)和步长(stride)相同,可以将特征图进行一定比例的缩小,计算更加方便(这只是一般情况下,但并不绝对)
以三层的BP神经网络进行讲解
参数:
以中间节点为例进行计算
同理求出 和 的值
为什么用Softmax激活函数?
因为:希望输出的 和 符合概率分布
1.针对多分类问题(softmax输出,所有输出概率之和为1)
2.针对二分类问题(sigmoid输出,每个输出节点之间互不相干)
采用Softmax输出则符合概率输出(所有概率之和为1)
采用Sigmoid输出则不符合概率输出
根据公式我们可以得到Loss使用交叉熵的计算公式。
计算 的误差梯度(即求偏导)
对黄色框中的偏导分别进行计算
所求的值相当于已经把得到的误差反向传播到每一个节点,得到了每一个节点的损失梯度
更新权重的表达式非常简单,但是我们无法确定所求的梯度方向是不是减少损失最快的方向。
在实际训练中,我们往往是设置batch进行训练的,每一个批次训练完毕后会计算该批次的Loss以及梯度,虽然有梯度,但这个梯度是对于这一个批次来说是最优的,对于整个数据而言就不一定的。所以为了更好的在batch训练中进行梯度更新,引入了优化器(optimizer)的概念。
做出以下优化 :多出一个动量部分
除了计算当前batch的梯度外还会加入之前batch的梯度。
为本次batch的梯度,为上一个batch的梯度, 为本次batch实际更新的梯度。
加了动量可以有效抑制样本噪声的干扰。
该优化器是对学习率进行改进的。
随着batch的进行,最终 会越来越小 -> 代表着更新的力度越来越小,看起来就像更新时用到的学习率逐渐变小了。
缺点:学习率下降太快,可能还没有收敛就停止训练了。
也是对学习率进行调整,是Adagrad优化器的改进版本。相比于Adagrad优化器,RMSProp其实就是添加了两个系数去控制学习率的衰减力度。
6.几种优化器效果对比
在实际项目中,比较常用的有:
可能有很多人选择使用Adam优化器,因为它的效果比较好,但是在论文中,很多作者仍然使用的是带有momentum的SGD优化器
如何选择还是要看实际情况