Mr.看海

【深度学习-第4篇】使用MATLAB快速实现CNN多变量回归预测

上一篇我们讲了使用CNN进行分类的MATLAB代码。

这一篇我们讲CNN的多变量回归预测。

是的，同样是傻瓜式的快速实现。

一、什么是多变量回归预测

多变量回归预测则是指同时考虑多个输入特征进行回归预测。举几个例子：

房价预测：给定一组房产的特征，如面积、卧室数量、浴室数量、地理位置等，预测房产的销售价格。
股票价格预测：使用历史股票价格、交易量、财务指标等信息，预测未来某个时间点的股票价格。
销售预测：基于历史销售数据、季节性、促销活动等信息，预测未来某个时间段的销售额。
能源需求预测：考虑天气条件、时间（如一天中的时间、一周中的哪一天、一年中的哪个月份等）、历史能源需求等因素，预测未来的能源需求。
疾病风险预测：根据患者的年龄、性别、生活习惯、基因信息等，预测患者罹患某种疾病的风险。

在许多实际问题中，我们通常需要考虑多个输入特征。虽然 CNN 最初是为图像分类问题设计的，但它也可以应用于回归预测问题。在这种情况下，CNN 的目标不再是预测输入图像的类别，而是预测一个连续的目标值。为此，我们可以将 CNN 的最后一层全连接层修改为输出一个单一的连续值，然后使用一个回归损失函数（如均方误差）来训练网络。

CNN 由于其强大的特征提取能力，特别适合处理这种多变量的回归预测问题。

这篇文章我们就以房价预测为例吧

二、一个简单的案例——波士顿房价预测

下面我们将演示如何使用 MATLAB 的深度学习工具箱实现一个卷积神经网络（CNN）来进行波士顿房价的多变量回归预测。我们将使用波士顿房价数据集来训练我们的模型，该数据集包含波士顿城郊区域的房屋的多个特性（如犯罪率、房间数量、教师学生比例等）和房价。如下图每组房价数据由13个相关属性（即13个指标变量），1个目标变量（房价）组成，总共有506组数据，即为506*14的数组。

房价数据

1. 数据预处理

首先，我们从 'housing.txt' 中读取数据。

代码将数据分割为训练集和测试集，其中70%的数据用于训练，30%的数据用于测试。训练和测试数据的划分是随机的，但是通过设置随机种子rng(1)，我们保证每次运行代码时都能得到相同的分割。

%% 1.数据预处理
data = readmatrix('housing.txt');  %读取数据文件
rng(1);%设置随机种子

% 分割数据为训练集和测试集
trainRatio = 0.7; % 70% 用于训练，其余的用于测试
trainCount = floor(size(data, 1) * trainRatio);
trainData = data(1:trainCount, :);
testData = data(trainCount+1:end, :);

% 分割输入特征和目标变量
XTrain = trainData(:, 1:end-1)';
YTrain = trainData(:, end)';
XTest = testData(:, 1:end-1)';
YTest = testData(:, end)';

2. 数据归一化

归一化是一个很重要的步骤，它能使不同范围和单位的特征值在模型训练中有着相同的权重。注意使用训练集的参数（最大值、最小值）来归一化测试集，以保持数据的一致性。

这里采用的是mapminmax方法，是一种常用的归一化方法，将数据映射到[-1, 1]区间。在后续步骤中，预测出的结果需要反归一化回原始数据的范围，要保证使用正确的参数和方法。

%% 2. 数据归一化
method=@mapminmax;
[XTrainMap,inputps]=method(XTrain);
XTestMap=method('apply',XTest,inputps);
[YTrainMap,outputps]=method(YTrain);
YTestMap=method('apply',YTest,outputps);

3. 数据转换

在这里，我们将数据转换成 CNN 模型可以接受的格式。

在CNN网络中，需要输入的是四维数组，而我们演示数据是二维的（506*14）。

如果数据形状和 CNN 模型的输入层不匹配，会出现错误，因此这一步需要特别小心。

%% 3. 数据转换
XTrainMapD=reshape(XTrain,[size(XTrain,1),1,1,length(XTrain)]);%训练集输入
XTestMapD =reshape(XTest,  [size(XTest,1),1,1,length(XTest)]); %测试集输入

4. 构建 CNN 模型

在定义 CNN 模型时，要确保各层的参数如卷积核大小、步长等设置得当。不合适的参数可能会导致模型训练的效果不佳。关于CNN模型的理论讲解大家可以看一下我之前发的文章，讲的可以说比较详细了。

Mr.看海：【深度学习-第2篇】CNN卷积神经网络30分钟入门！足够通俗易懂了吧（图解）

看完上边的文章，相信大家就知道下边的参数该怎么设置了吧！（如果不知道可以继续往后看）

%% 4.构建 CNN 模型
% 创建层
layers = [
    imageInputLayer([size(XTrain, 1),1 1]) % 输入层
    convolution2dLayer([3,1],64,'Stride',1,'Padding',1) % 卷积层
    batchNormalizationLayer
    reluLayer %ReLU激活函数层
    fullyConnectedLayer(1) % 全连接层
    regressionLayer]; % 回归层

% 显示层信息
analyzeNetwork(layers)

5. 指定训练选项

%% 5.指定训练选项
options = trainingOptions('sgdm', ...%求解器，'sgdm'（默认） | 'rmsprop' | 'adam'
    'ExecutionEnvironment','auto', ...
    'GradientThreshold',1, ...  %梯度极限
    'MaxEpochs',100, ...%最大迭代次数
    'InitialLearnRate', 0.03, ...%初始化学习速率
    'ValidationFrequency',10, ...%验证频率，即每间隔多少次迭代进行一次验证
    'MiniBatchSize',128, ...
    'LearnRateSchedule','piecewise', ...%是否在一定迭代次数后学习速率下降
    'LearnRateDropFactor',0.9, ...%学习速率下降因子
    'LearnRateDropPeriod',10, ...
    'SequenceLength','longest', ...
    'Shuffle','never', ...
    'ValidationData',{XTestMapD,YTestMap'},...
    'Verbose',true, ...
    'Plots','training-progress');%显示训练过程

% 训练模型
net = trainNetwork(XTrainMapD,YTrainMap',layers,options);

这段代码是使用 MATLAB 的深度学习框架来配置神经网络训练的参数。它创建了一个名为 options 的训练选项对象，这个对象包含了一系列用于训练神经网络模型的参数设置。

这些参数将会影响神经网络训练的效率和结果。通过调整这些参数，我们可以优化模型的训练过程，以得到更好的模型效果。

展开说的话，其中每个参数的具体含义如下：

'sgdm'：这是训练算法，'sgdm' 代表带有动量的随机梯度下降（Stochastic Gradient Descent with Momentum）。这是一种常用的优化算法。
'ExecutionEnvironment', 'auto'：此选项指定了训练算法的执行环境。可选值包括 'auto'，'cpu'，'gpu' 和 'multi-gpu'。其中，'auto' 表示 MATLAB 自动选择最佳环境，'cpu' 和 'gpu' 分别表示在 CPU 或 GPU 上执行训练，而 'multi-gpu' 表示在多个 GPU 上执行训练。
'GradientThreshold', Inf：这个参数设置了梯度裁剪阈值，当梯度的绝对值超过此阈值时，梯度将被裁剪。这是防止梯度爆炸的一种方法。在这个例子中，阈值设置为 Inf，意味着梯度裁剪实际上没有被激活。
'MaxEpochs', 30：此参数设定了模型训练的最大迭代次数。一次迭代（也称 epoch）意味着模型已经完整地学习过一次完整的训练集。在这个例子中，模型将会进行 30 次迭代。
'InitialLearnRate', 0.001：此参数设定了学习率的初始值。学习率是优化算法的一个重要参数，决定了模型参数更新的步长。如果学习率太大，可能导致模型无法找到最优解；如果学习率太小，可能导致模型收敛速度过慢。
'MiniBatchSize', 16：此参数设定了每次训练的小批量数据的大小。使用小批量可以加快模型训练速度，并且可以增加训练过程的随机性，有助于提高模型的泛化能力。
'LearnRateSchedule', 'piecewise'：此参数设定了学习率的调整策略。'piecewise' 表示分段恒定策略，即在特定的迭代次数，学习率会乘以一个因子（由 'LearnRateDropFactor' 参数设定）。
'LearnRateDropFactor', 0.9：此参数设定了学习率调整的因子，只在 'LearnRateSchedule' 参数设定为 'piecewise' 时有效。在每个 'LearnRateDropPeriod' 周期后，学习率会乘以这个因子。
'LearnRateDropPeriod', 10：此参数设定了学习率调整的周期，只在 'LearnRateSchedule' 参数设定为 'piecewise' 时有效。每过这么多个迭代周期，学习率会按照 'LearnRateDropFactor' 设定的因子进行调整。
'SequenceLength', 'longest'：此参数设定了序列处理方式，可选值有 'longest'，'shortest' 或一个正整数。'longest' 表示使用最长的序列长度，'shortest' 表示使用最短的序列长度，指定一个正整数则表示所有的序列都将被填充或者截断到这个长度。
'Shuffle', 'every-epoch'：此参数设定了训练数据的混洗策略。'every-epoch' 表示在每次迭代开始时都会重新混洗训练数据。这可以增加训练的随机性，有助于提高模型的泛化能力。
'Verbose', 1：此参数设定是否在训练过程中打印详细信息。如果设定为 1，那么在每次迭代完成后都会打印出一些信息，例如当前的迭代次数、损失函数的值等。
'Plots', 'training-progress'：设置了是否在训练过程中显示训练进度的图表，如果不显示，可以设置为'none'。

虽然这些设置内容看起来蛮多，但是真正核心的是以下这几个参数，在网络调试过程中，需要重点调试：

'MaxEpochs'：最大迭代次数决定了模型在训练集上学习的次数。如果设定的迭代次数太少，模型可能无法充分学习；反之，如果迭代次数过多，可能会导致过拟合。
'InitialLearnRate'：初始学习率对模型的训练速度和效果有很大影响。学习率太大可能会导致模型无法收敛，学习率太小则可能导致训练速度过慢。此外，学习率的设定也会影响到学习率调整策略的效果。
'MiniBatchSize'：小批量大小影响了每次参数更新的计算效率和准确性。较小的批量大小可以增加模型训练的随机性，有助于防止过拟合，但也可能导致训练过程变慢。
'LearnRateSchedule'， 'LearnRateDropFactor'， 'LearnRateDropPeriod'：这三个参数共同设定了学习率的调整策略。适当的调整学习率可以帮助模型更快地收敛，并达到更好的效果。

6. 对测试集进行预测

使用训练好的模型对测试集进行预测时，要确保预测函数的使用正确。同时，预测完成后，我们需要将数据进行反归一化，以还原到原始数据的范围。

%% 6.对测试集进行预测
YPred = predict(net,XTestMapD); 
% 反归一化
foreData=double(method('reverse',double(YPred'),outputps));

7. 对训练集进行拟合

对训练集进行拟合的步骤和测试集类似，也需要注意预测函数的正确使用和数据的反归一化。

%% 7.对训练集进行拟合
YpredTrain = predict(net,XTrainMapD); 
% 反归一化
foreDataTrain=double(method('reverse',double(YpredTrain'),outputps));

8. 训练集预测结果对比

通过可视化的方式对比模型的预测值和实际值，可以更直观地看到模型的预测效果。

%% 8. 训练集预测结果对比
figure('Color','w')
plot(foreDataTrain,'-','Color',[255 0 0]./255,'linewidth',1,'Markersize',5,'MarkerFaceColor',[250 0 0]./255)
hold on 
plot(YTrain,'-','Color',[150 150 150]./255,'linewidth',0.8,'Markersize',4,'MarkerFaceColor',[150 150 150]./255)
legend('CNN训练集预测值','真实值')
xlabel('预测样本')
ylabel('预测结果')
xlim([1, length(foreDataTrain)])
grid
ax=gca;hold on

9. 测试集预测结果对比

测试集的预测结果对比是评估模型性能的重要步骤。同样，我们也要通过可视化来直观地观察模型在未见过的数据上的表现。

%% 9. 测试集预测结果对比
figure('Color','w')
plot(foreData,'-','Color',[0 0 255]./255,'linewidth',1,'Markersize',5,'MarkerFaceColor',[0 0 255]./255)
hold on 
plot(YTest,'-','Color',[0 0 0]./255,'linewidth',0.8,'Markersize',4,'MarkerFaceColor',[0 0 0]./255)
legend('CNN测试集预测值','真实值')
xlabel('预测样本')
ylabel('预测结果')
xlim([1, length(foreData)])
grid
ax=gca;hold on

运行上述代码，可以得到以下几张图：

收敛过程

训练集拟合结果

测试集预测结果

三、“一行代码”实现CNN回归预测任务

上边章节演示了使用MATLAB实现CNN回归预测的基础代码演示，不过我们在实际研究中可能会面临更为复杂的困境：

导入自己的数据后，网络结构一改就频频报错
代码被改得乱七八糟，看的头大
不知道该画哪些图、怎么画图
想要学习更规范的代码编程
……

按照本专栏的惯例，笔者封装了快速实现CNN回归预测的函数，在设定好相关参数后，只需要一行代码，就可以实现数据集训练集/验证集/测试集快速划分、快速绘制训练集/测试集预测结果对比图、绘制预测误差图，导出训练过程数据、计算MAE/MSE/MAPE/RMSE/R等指标等等常用功能，这个函数的介绍如下：

function [foreData,foreDataTrain,net,info] = FunRegCNNs(dataX,dataY,trainR,cLayer,poolingLayer,fcLayer,options,figflag)
% 使用CNN进行回归预测的快速实现函数
% 该函数需要输入的数据为array数组型
% 输入：
% dataX：输入数据，R*Q的矩阵，R为输入数据的维度，Q为批次数，输入该变量时一定要注意维度正确
%           例：对于一维特征，每组数据长度为20，共1000组数据，则dataX的可以维度为：20*1000
% dataY：输出结果
% trainR：数据集中训练集划分比例，如：trainR = 0.6，则代表60%数据用于训练集，40%数据用于测试集

% cLayer：卷积层结构，为n*5的二维数组，其中n为卷积层的数量
% 列向的5个维度时分别代表滤波器的高、滤波器的宽、滤波器数量、步长、填充
% 例，cLayer = [3,1,16,1,1;3,1,32,1,0]时，则代表有两层卷积层，其中第一层滤波器高为3，宽为1，滤波器数量为16，步长1，填充1
%                                                第二次滤波器高为3，宽为1，滤波器数量为32，步长1，填充0

% poolingLayer：池化层结构，为长度为n*5的cell数据，其中n为池化层的数量，和卷积层层数相同。
% 列向的三个维度分别代表：1.池化层类型，分为'maxPooling2dLayer'和'averagePooling2dLayer'两种，如果不用池化层设置为'none'
%                         2.池化区域高度尺寸
%                         3.池化区域宽度尺寸
%                         4.步长
%                         5.填充
% 例如：
% poolingLayer = {'maxPooling2dLayer',2,1,2,1; 'averagePooling2dLayer',2,1,1,0};
% 代表第一个池化层为最大池化层，尺寸为2*1，步长2，填充1，第二个池化层为平均池化层，尺寸为2*1，步长1，填充0
% 注意！如果对应卷积层后不设置池化层，请在对应的位置设置为'none',0,0,0,0
% 比如cLayer设置为两层时，如果只想在第一层卷积层后对应有池化层，第二层卷积层后无池化层，那么池化层应该设置为：
% poolingLayer = {'maxPooling2dLayer',1,2,1,0;
%                 'none',0,0,0,0 }; %后边的四个0主要是占位，不起实际作用

% options：一些与网络训练等相关的设置，使用结构体方式赋值，比如 options.MaxEpochs = 1000，具体包括：
%             solverName：求解器，'sgdm'（默认） | 'rmsprop' | 'adam'
%             MaxEpochs：最大迭代次数，默认30
%             MiniBatchSize：批尺寸，默认128
%             GradientThreshold：梯度极限，默认为Inf
%             InitialLearnRate：初始化学习速率（默认0.005）
%             Plots：是否显示训练过程，'none' 为不显示（默认） | 'training-progress'为显示
%             ValidationFrequency：验证频率，即每间隔多少次迭代进行一次验证，默认50
%             LearnRateSchedule：即LearnRateSchedule是否在一定迭代次数后学习速率下降， LearnRateSchedule ='piecewise'为使用，'none'为不使用（默认）
%             LearnRateDropPeriod：即LearnRateDropPeriod学习速率下降时的迭代数，默认为10
%             LearnRateDropFactor：即LearnRateDropFactor学习速率下降因子，下降后变为LearnRateDropFactor*InitialLearnRate，LearnRateSchedule为0时可以赋0，默认为0.1
%             （未启用）NorFlag：即Normalization Flag，设置为1时则在程序中进行数据归一化和反归一化操作，否则不进行，建议设置为1
%             SeedFlag：随机种子标志，设置为1时启用随机种子,(默认为1)
% fcLayer：全连接层，可以设置多层，如果设置fcLayer=[]，则在网络结构中只包含一个全连接层，输出的维度与数据类别相同。
%                                  如果设置fcLayer为数组，则代表在上边的全连接层之前再加入对应数量的全连接层和ReLU层
%                                  例如设置fcLayer=[32,16]，则代表在共有三个全连接层，第一个是fullyConnectedLayer(32)+ReLU，第二个是fullyConnectedLayer(16)+ReLU，
%                                                           第三个是fullyConnectedLayer(numClasses)
% figflag：是否画图，'on'为画图，'off'为不画
% 输出：
% foreData：测试集的回归预测结果
% foreDataTrain:训练集的回归预测结果
% net：训练好的网络
% info：神经网络训练相关参数，如loss值、准确度等

看注释写的蛮多的似乎有点唬人，其实使用起来比较简单。

例如上边波士顿房价预测的案例，整个第二章节代码可以用下述几行轻松实现：

%% 1.加载数据
boston = readmatrix('housing.txt');  %读取数据文件
% 将数据转为函数要求的格式
dataX = boston(:,1:13)'; %前13列数据为输入数据
dataY = boston(:,14)'; %第14行为房价数据
%% 2.调用函数进行回归预测
divideR = 0.7;  %训练集/验证集/测试集比例
figflag = 'on';           % 是否画图，'on'为画图，'off'为不画

%% 3.指定训练选项
options.solverName = 'sgdm'; %求解器，'sgdm'（默认） | 'rmsprop' | 'adam'
options.MaxEpochs = 100;    %最大迭代次数，默认30
options.InitialLearnRate = 0.03; %初始化学习速率（默认0.005）
options.Plots = 'training-progress'; %是否显示训练过程，'none' 为不显示（默认） | 'training-progress'为显示
options.ValidationFrequency = 10;   %验证频率，即每间隔多少次迭代进行一次验证
options.LearnRateSchedule = 'piecewise'; %是否在一定迭代次数后学习速率下降
options.LearnRateDropFactor = 0.9;  %学习速率下降因子
options.LearnRateDropPeriod = 100;   %学习速率下降时的迭代数
options.Plots = 'training-progress'; %显示训练过程
options.GradientThreshold = 1;       %梯度极限，默认为Inf

%% 4.网络结构设置
conLayer = [3,3,16,1,1]; %波器高为3，宽为3，滤波器数量为128，步长1，填充1
poolingLayer = {'none',0,0,0,0}; %不设置池化层
fcLayer = [];
%% 5.调用函数进行分类
[accuracy,net,info] = FunRegCNNs(dataX,dataY,divideR,conLayer,poolingLayer,fcLayer,options,figflag);

上述代码中留下需要设置的，都是必要的参数，这也是为了在保证代码易用性的同时充分保证灵活性。

运行上述代码可以得到一系列图片和指标，这些在写论文过程中都是很有用的。

具体包括：

收敛过程图

网络结构图

训练过程中损失值和RMSE收敛图

训练集拟合结果对比图

训练集预测结果相对误差

测试集拟合结果对比图

测试集预测结果相对误差

在命令行窗口还会打印出以下内容：

网络结构

每层网络的输出尺寸

MAE/MSE/MAPE/RMSE/R等指标

三、总结

使用封装函数对复杂的CNN训练和评估流程进行了高度封装，大家只需要提供数据和指定参数，就可以轻松进行模型的训练和评估，大大减轻了同学们负担；另外函数接收多个参数作为输入，包括网络结构和训练选项等，使得用户可以根据自己的需求灵活地定制和配置模型，适应各种不同的应用场景；此函数不仅实现了CNN模型的训练，还对模型的性能进行了全面评估，并返回了训练过程中的详细信息，助力用户快速理解模型的性能，并进行后续的优化调整。

需要上述案例的代码和封装函数的代码，同学们可以在下述链接获取：

使用CNN进行回归预测代码 - 工具箱文档 | 工具箱文档

关于CNN的理论讲解可以看这里：