说明:1.1节主要是概括和帮助理解考虑影响因素的BP神经网络算法原理,即常规的BP模型训练原理讲解(可根据自身掌握的知识是否跳过)。1.2节开始讲基于历史值影响的BP神经网络预测模型。
使用BP神经网络进行预测时,从考虑的输入指标角度,主要有两类模型:
如图一所示,使用MATLAB的newff函数训练BP时,可以看到大部分情况是三层的神经网络(即输入层,隐含层,输出层)。这里帮助理解下神经网络原理:
1)输入层:相当于人的五官,五官获取外部信息,对应神经网络模型input端口接收输入数据的过程。
2)隐含层:对应人的大脑,大脑对五官传递来的数据进行分析和思考,神经网络的隐含层hidden Layer对输入层传来的数据x进行映射,简单理解为一个公式hiddenLayer_output=F(w*x+b)。其中,w、b叫做权重、阈值参数,F()为映射规则,也叫激活函数,hiddenLayer_output是隐含层对于传来的数据映射的输出值。换句话说,隐含层对于输入的影响因素数据x进行了映射,产生了映射值。
3)输出层:可以对应为人的四肢,大脑对五官传来的信息经过思考(隐含层映射)之后,再控制四肢执行动作(向外部作出响应)。类似地,BP神经网络的输出层对hiddenLayer_output再次进行映射,outputLayer_output=w *hiddenLayer_output+b。其中,w、b为权重、阈值参数,outputLayer_output是神经网络输出层的输出值(也叫仿真值、预测值)(理解为,人脑对外的执行动作,比如婴儿拍打桌子)。
4)梯度下降算法:通过计算outputLayer_output和神经网络模型传入的y值之间的偏差,使用算法来相应调整权重和阈值等参数。这个过程,可以理解为婴儿拍打桌子,打偏了,根据偏离的距离远近,来调整身体使得再次挥动的胳膊不断靠近桌子,最终打中。
再举个例子来加深理解:
图一所示BP神经网络,具备输入层、隐含层和输出层。BP是如何通过这三层结构来实现输出层的输出值outputLayer_output,不断逼近给定的y值,从而训练得到一个精准的模型的呢?
从图中串起来的端口,可以想到一个过程:坐地铁,将图一想象为一条地铁线路。王某某坐地铁回家的一天:在input起点站上车,中途经过了很多站(hiddenLayer),然后发现坐过头了(outputLayer对应现在的位置),那么王某某将会根据现在的位置离家(目标Target)的距离(误差Error),返回到中途的地铁站(hiddenLayer)重新坐地铁(误差反向传递,使用梯度下降算法更新w和b),如果王某某又一次发生失误,那么将再次进行这个调整的过程。
从在婴儿拍打桌子和王某某坐地铁的例子中,思考问题:BP的完整训练,需要先传入数据给input,再经过隐含层的映射,输出层得到BP仿真值,根据仿真值与目标值的误差,来调整参数,使得仿真值不断逼近目标值。比如(1)婴儿受到了外界的干扰因素(x),从而作出反应拍桌(predict),大脑不断的调整胳膊位置,控制四肢拍准(y、Target)。(2)王某某上车点(x),过站点(predict),不断返回中途站来调整位置,到家(y、Target)。
在这些环节中,涉及了影响因素数据x,目标值数据y(Target)。根据x,y,使用BP算法来寻求x与y之间存在的规律,实现由x来映射逼近y,这就是BP神经网络算法的作用。再多说一句,上述讲的过程,都是BP模型训练,那么最终得到的模型虽然训练准确,但是找到的规律(bp network)是否准确与可靠呢。于是,我们再给x1到训练好的bp network中,得到相应的BP输出值(预测值)predict1,通过作图,计算Mse,Mape,R方等指标,来对比predict1和y1的接近程度,就可以知道模型是否预测准确。这是BP模型的测试过程,即实现对数据的预测,并且对比实际值检验预测是否准确。
图一 3层BP神经网络结构图
回到BP解决的问题中,比如房价(y)预测问题,考虑了房屋面积x1,居室x2,区域经济发展水平x3等影响因素。BP神经网络求解的规律F(),即满足|F(x1(i),x2(i),x3(i)…)-Target(i)|
样本编号 | x1 | x2 | x3 | … | xn | Target(即y) |
---|---|---|---|---|---|---|
1 | – | – | – | – | – | |
2 | – | – | – | – | – | |
… | – | – | – | – | – | |
n | – | – | – | – | – |
其中,x1,x2…,xn为输入神经网络的影响因素值,y为输入到神经网络中用于调整w和b参数的目标输出值。
以电力负荷预测问题为例,进行两种模型的区分。在预测某个时间段内的电力负荷时:
一种做法,是考虑 t 时刻的气候因素指标,比如该时刻的空气湿度x1,温度x2,以及节假日x3等的影响,对 t 时刻的负荷值进行预测。这是前面1.1所说的模型。
另一种做法,是认为电力负荷值的变化,与时间相关,比如认为t-1,t-2,t-3时刻的电力负荷值与t时刻的负荷值有关系,即满足公式y(t)=F(y(t-1),y(t-2),y(t-3))。采用BP神经网络进行训练模型时,则输入到神经网络的影响因素值为历史负荷值y(t-1),y(t-2),y(t-3),特别地,3叫做自回归阶数或者延迟。给到神经网络中的目标输出值为y(t)。这是1.2介绍的模型。
下面以California某机场的客流量数据集为例进行说明,EXCEL数据格式如下:
time (per 5 minutes) | Flow (Veh/5 Minutes) |
---|---|
56 | 12 |
10 | 6 |
15 | 11 |
20 | 25 |
25 | 8 |
30 | 7 |
35 | 11 |
40 | 9 |
45 | 10 |
50 | 4 |
55 | 7 |
60 | 8 |
如果考虑 t 时刻的客流量值受到t-1,t-2,t-3时刻的值影响,那么可以判断,给到BP神经网络中的影响因素指标为3个历史时刻,目标输出为下一时刻。从而BP的输入节点为3,输出节点为1。BP获取数据后,将会处理为以下的数据格式:
样本编号 | x1 | x2 | x3 | Target(即y) |
---|---|---|---|---|
1 | 12 | 6 | 11 | 25 |
2 | 6 | 11 | 25 | 8 |
3 | 11 | 25 | 8 | 7 |
4 | 25 | 8 | 7 | 11 |
5 | 8 | 7 | 11 | 9 |
6 | 7 | 11 | 9 | 10 |
7 | 11 | 9 | 10 | 4 |
8 | 9 | 10 | 4 | 7 |
8 | 10 | 4 | 7 | 8 |
这里不作赘述,请参考我的另一篇博文:BP神经网络matlab代码讲解与实现步骤
1.读取数据,确定自回归阶数
2. 划分训练集、测试集
3. 数据归一化
4. 获取输入层节点、输出层节点个数
5. 确定网络层与层之间的传递函数和训练算法(默认的激活函数为tansig、purelin,训练算法为Levenberg-Marquardt [trainlm] )
6. 训练网络
7. 网络测试
8. 对BP的预测值与实际值进行误差分析
9. 打印预测结果和误差表格
2.3.1 读取数据、确定自回归阶数
采用California某机场的客流量数据集,数据格式如下:
EXCEL的读取命令为(对应EXCEL的工作簿名,工作表Sheet名,单元格范围):
%读取数据
data=xlsread('数据.xls','Report Data','B2:B6648'); %%使用xlsread函数读取EXCEL中对应范围的数据即可
lag=12; %延迟(输入节点数目)为lag值
%处理数据,构建BP神经网络需要的数据
for i=1:length(data)-lag
deal_data(i,:)=data(i:i+lag)'; %撇代表转置
end
2.3.2 划分训练集、测试集
分层抽取即可,通过程序获取样本总数N,设置测试样本数目testNum,训练样本数为N-testNum。
N=length(output); %全部样本数目
testNum=30; %设定测试样本数目
trainNum=N-testNum; %计算训练样本数目
2.3.3 数据归一化
采用MATLAB自带的mapminmax函数,可以很方便的设置归一化的范围为[-1,1],[0,1]等(注意如果MATLAB安装了LSSVM的工具包,会与mapminmax函数发生冲突,在添加的路径中去掉LSSVM路径即可)
%% 数据归一化
%归一化到0,1之间,归一化可以消除特征指标的量纲和数量级的影响
[inputn,inputps]=mapminmax(input_train,0,1);
[outputn,outputps]=mapminmax(output_train);
inputn_test=mapminmax('apply',input_test,inputps);
2.3.4 获取输入层输出层节点的个数
使用size函数,用法为[M,N]=size(A),M对应A的行数,N对应A的列数,size(A,1)返回的M值,size(A,2)返回的N值。指标是列的方向,所以采用N=size(A,2)的写法。
inputnum=size(input,2);
outputnum=size(output,2);
2.3.5 确定网络的传递函数与训练算法
此项设置为默认的即可
string={'tansig','purelin'}; %传递函数
func_str='trainlm'; %训练算法
2.3.6 训练网络
%% 构建最佳隐含层节点(承接层节点)的ELMAN神经网络
net=newff(inputn,outputn,hiddennum_best,string,func_str);
% 网络参数
net.trainParam.epochs=1000; % 训练次数
net.trainParam.lr=0.01; % 学习速率
net.trainParam.goal=0.0001; % 训练目标最小误差
%% 训练网络
net=train(net,inputn,outputn);
2.3.7 网络测试
%% 网络测试
an=sim(net,inputn_test); %用训练好的模型进行仿真
test_simu=mapminmax('reverse',an,outputps); % 预测结果反归一化
2.3.8 对BP的预测值与实际值进行误差分析
error=test_simu-output_test; %预测值和真实值的误差
%% 计算误差指标
SSE=sum(error.^2); %误差平方和
MAE=sum(abs(error))/len; %平均绝对误差
MSE=error*error'/len; %均方误差
RMSE=MSE^(1/2); %均方误差根
MAPE=mean(abs(error./output_test)); %平均百分比误差
3.1 预测值和真实值的误差计算(SSE、MAE、MSE、RMSE、MAPE)
3.2 训练集、验证集、测试集和总体的均方误差随训练次数的变化图像
注:小圆圈位置代表终止的训练次数(即代数)处的均方误差
3.3 BP时间序列模型的预测值与实际值趋势对比图像、误差图像
代码见博客主页