神经网络的反向传播算法

前言

在coursera上久负盛名的课程《机器学习》,不仅Andrew Ng老师讲课思路清晰,并且有很多网友的整理的优秀笔记。听完老师的课收获颇多,通过编程作业对算法有了更深刻的理解。正如老师所说,检验一个算法有效性的平台通常是容易实现,语言简单的,例如MATLAB。之后可以根据自己的需求移植到C、C++、Java平台上。神经网络这一章算法复杂度较线性回归、逻辑回归有所提高,做编程作业的难度也有加大,所以记录下自己编程过程中意识到的问题,以备查看。

训练神经网络的过程:

1.随机初始化接近于0的权值theta。
2.执行前向传播算法,对于有m个输入样本的x,每个x得到一个输出。
3.通过代码计算代价函数。
4.用反向传播算法计算代价函数的偏导。
5.应用梯度检查法,将数值计算出的偏导数与反向传播偏导数作比较,保证正确应用了反向传播算法。检验完成后去掉梯度检查代码,因为会给程序带来额外的代价。
6.用梯度下降或者其他更高级的优化算法来达到代价函数的最小取值,从而得到分类函数。

结合代码看公式

本程序利用神经网络对手写数字进行识别,假设有一个三层的神经网络,其中输入层单元个数为400,隐藏层单元个数为25,输出层单元个数为10。从而可以得到theta1为25X401的矩阵,theta2为10X26的矩阵。

  • 由于MATLAB中的代价函数为了输入方便,将theta1、theta2展开成了一个向量,所以需要一步转换过程,重新恢复原值。
    Theta1 = reshape(nn_params(1:hidden_layer_size * (input_layer_size + 1)), hidden_layer_size, (input_layer_size + 1)); Theta2 = reshape(nn_params((1 + (hidden_layer_size * (input_layer_size + 1))):end), num_labels, (hidden_layer_size + 1)); //注意矩阵维数对应关系

  • 对输出y进行预处理
    样本中y存储的是一个数字,即本图中显示的数字。但是神经网络的输出层确实一个10维的列向量,对应下标数为1即表示显示该数字。所以要进行由数字到向量的预处理。
    Y = []; E = eye(num_labels); for i = 1:num_labels Y0 = find(y==i); Y(Y0,:) = repmat(E(i,:),size(Y0,1),1); end

  • 计算代价函数 J,直接利用矩阵的计算完成m个样本的代价函数,避免了循环迭代。注意每次都要补一列全1的偏差项。

神经网络的反向传播算法_第1张图片
代价函数计算公式

X = [ones(m,1) X]; a2 = sigmoid(X * Theta1'); a2 = [ones(m,1) a2]; a3 = sigmoid(a2 * Theta2'); temp1 = [zeros(size(Theta1,1),1) Theta1(:,2:end)]; temp2 = [zeros(size(Theta2,1),1) Theta2(:,2:end)]; temp1 = sum(temp1.^2); temp2 = sum(temp2.^2); cost = Y .* log(a3) + (1 - Y) .* log(1 - a3); J = -1 / m * sum(cost(:)) + lambda/(2*m) * (sum(temp1) + sum(temp2));

  • 计算梯度。
反向传播算法的含义:先计算输出层的误差
再计算第二层即隐藏层的误差,输入层不计算
神经网络的反向传播算法_第2张图片
梯度公式可以由误差矩阵得到

delta_1 = zeros(size(Theta1)); delta_2 = zeros(size(Theta2)); for t = 1:m a_1 = X(t,:)'; %step1,此处不用补1,因为在X中已经执行过这一步了 z_2 = Theta1 * a_1; a_2 = sigmoid(z_2); a_2 = [1;a_2]; z_3 = Theta2 * a_2; a_3 = sigmoid(z_3); err_3 = zeros(num_labels,1); for k = 1 : num_labels %step2 err_3(k) = a_3(k) - (y(t)==k); end err_2 = Theta2' * err_3; %step3 err_2 = err_2(2:end) .* sigmoidGradient(z_2); //特别注意矩阵维度一定要符合,因此去掉第一个值 delta_2 = delta_2 + err_3 * a_2'; %step4 delta_1 = delta_1 + err_2 * a_1'; end Theta1_temp = [zeros(size(Theta1,1),1) Theta1(:,2:end)]; %step5 Theta2_temp = [zeros(size(Theta2,1),1) Theta2(:,2:end)]; Theta1_grad = 1/m * delta_1 + lambda/m * Theta1_temp; //正则化不影响Theta的第一列 Theta2_grad = 1/m * delta_2 + lambda/m * Theta2_temp;

小结

神经网络反向传播的算法精髓到此就告一段落了,与其配合使用的梯度检查和最优化函数也十分重要,在此不详述。通过最小化代价函数得到最优的Theta值,从而得到预测准确率最高的输出,达到正确识别手写数字的目的。

PS:今天无意中发现了Andrew老师的老婆也是斯坦福机器学习实验室的,两人为实验室招募拍了一组照片,瞬间感觉这才是科研的最高境界。附上恩爱照一张:

神经网络的反向传播算法_第3张图片
大师祝我在机器学习的道路上顺利前进吧!

你可能感兴趣的:(神经网络的反向传播算法)