随机森林(RF)是一种基于统计学习理论的组合分类智能算法,由Breiman在2001年提出,其原理是利用Bootstrap重抽样方法从原始数据中抽取多个样本,构建所有Bootstrap样本的决策树,并对所有决策树的预测结果进行组合,并投票选出最终结果.
1 Bootstrap重抽样方法
随机森林属于机器学习的一个重要分支-集成学习,所使用的Bootstrap重抽样方法也是集成学习众多抽样方法之一.Bagging名称来源于Bootstrap aggregating,即为引导聚集算法又称装袋算法,最初由Leo Breiman在1996年提出.Bagging是一种用于训练数据的创建技术,是在原始数据集上通过重复随机有放回抽样,选择出N个数据集并分别训练N个分类器,其训练数据中允许存在重复数据,但N个数据集都是具有相同分布的独立随机向量.因此,某些数据可能会在模型训练中多次使用,而其他数据可能永远不会被使用.这些没有被抽取的数据,约占三分之一,被称为袋外数据(OOB),由于其没有参与训练集模型的拟合,因此常常被用来检测模型泛化能力.
2 决策树
随机森林算法以决策树作为基础学习器,基于许多决策树的生成及其组合以产生最终输出,其输出类别由个别树输出类别的众数决定.决策树是一种基本的分类与回归办法,基于树结构来决策.当决策树用于分类时被称为分类树,用于回归时被称为回归树.决策树由节点和有向边组成,类似于枝杈和树枝.节点有两种类型,内部节点(枝杈)和叶节点(枝梢),其中内部节点表示一个特征,叶节点表示一个类(即决策结果).每个内部节点包含一部分样本集合,会从这些样本集合中随机选择出的特征进行特征测试并根据测试结果将样本划分到子节点中,最终一步步被划分到叶节点中.根节点包含样本全集,从根节点到每个叶节点的路径对应了每一个判定测试序列.其结构像树一样,因此被称为决策树,其学习本质是从训练集中归纳出一组分类规则.
3 随机森林算法
随机森林中“森林”就是决策树的集成,而“随机”是指数据采样的随机和从所有特征中选择部分特征来建立模型的随机.随机森林算法过程有几个阶段:首先,从给定的原始训练集中随机选择样本,为每个样本创建一个决策树,并得到每个决策树的分类结果.接下来对每个分类结果进行投票表决决定最终结果(图1).随机森林集合了多个决策树,比单个决策树有更好的选择结果,它通过对结果求平均值来降低过拟合,因此不宜出现过拟合现象,且预测准确度较高.
总的来说,它具有以下优点:
(1)通过反复二分数据进行分类或回归,因此同等精度下计算量比其他机器学习方法(如神经网络或支持向量机)要低很多.
(2)可以处理数千个输入变量,且无需删除变量.
(3)具有估计缺失数据的有效方法,并在大量数据缺失时保持准确性.
(4)对噪声、异常值和过度训练不敏感,预测精度高误差小.
(5)运行时会生成泛化误差的内部无偏估计,并给出了分类中每个变量的重要性估计值.
(6)可以学习复杂的模式,同时考虑到解释变量和因变量之间的任何非线性复杂关系,并给出有关变量与分类之间的关系信息.
(7)可以保存建立的模型,以便将来用于其他数据.
clc;
clear all;
%% 划分数据集
pwd=‘随机森林苹果病害识别’;
currentPath = pwd; % 获得当前的工作目录
fprintf(‘加载数据…’);
t = tic;
imdsImage = imageDatastore(fullfile(pwd,‘数据’),‘IncludeSubfolders’,true,‘LabelSource’,‘foldernames’); % 载入所有图片集合
[imdsTrain,imdsTest] = splitEachLabel(imdsImage, 0.8,‘randomized’);%每个类都按比例随机拆分数据集,训练集和测试集8:2,
fprintf(‘完成 %.02f 秒\n’, toc(t));
countEachLabel(imdsTrain)
%% 特征提取:颜色特征、纹理特征和形状特征
for i=1:length(imdsTrain.Files)
RGB_Train{i}=readimage(imdsTrain,i);
zyc_train{i}=Extract_features(RGB_Train{i});
end
for i=1:length(imdsTest.Files)
RGB_Test{i}=readimage(imdsTest,i);
zyc_test{i}=Extract_features(RGB_Test{i});
end
%% KNN训练
X=zyc_train’;
X1=zyc_test’;
for i=1:280
X_train(i,:)=X{i,:};
end
for i=1:72
X_test(i,:)=X1{i,:};
end
Y_train=imdsTrain.Labels;
Y_test=imdsTest.Labels;
Mdl = fitcknn(X_train,Y_train,‘NumNeighbors’,5)
Y_predict=predict(Mdl,X_test);
accuracy = sum(Y_predict == Y_test)/numel(Y_test)
confusionchart(Y_predict ,Y_test)
1 matlab版本
2014a
2 参考文献
[1]夏永泉,王兵,支俊,黄海鹏,孙静茹.基于随机森林方法的小麦叶片病害识别研究[J].图学学报. 2018,39(01)
3 备注
简介此部分摘自互联网,仅供参考,若侵权,联系删除