资料来源:《MATLAB 神经网络 43 个案例分析》
Adaboost算法的基本思想是合并多个弱分类器来实现更为有效的分类。其主要步骤为,从样本空间中找出m组训练数据,每组训练数据的权重都是 1 m \frac1m m1 。然后用弱学习算法迭代训练,每次运算后都按照分类结果更新训练数据权重分布,对于分类失败的训练个体赋予较大权重,下一次迭代运算时更加关注这些训练个体。
弱分类器通过反复迭代得到一个分类函数序列 f 1 , f 2 . . . , f n f_1,f_2...,f_n f1,f2...,fn,给每个分类函数赋予一个权重,分类结果越好的函数赋予的权重越大,而最终的强分类函数由 F F F由若分类函数加权得到。我们使用BP神经网络作为弱分类器,反复训练神经网络预测样本输出,最终通过Adaboost算法得到由多个BP神经网络弱分类器加权得到的强分类器。
公司财务预警系统是为了防止公司财务系统运行偏离预期目标而建立的报警系统,它通过公司的各项指标综合评价并预测公司财务状况、发展趋势和变化,为决策者科学决策提供智力支持。
本案例中共有1350 组公司财务状况数据,每组数据的输入为 10 维,代表10个指标,输出为1维,代表公司财务状况,输出为1时表示财务状况良好,为-1时表示财务状况出现问题。从中随机选取1000组数据作为训练数据,350 级数据作为测试数据。 根据数据维数,采用的 BP 经网络结构为10-6-1 ,共训练生成 10个BP神经网络弱分类器,最后用10个弱分类器组成强分类器对公司财务状况进行分类。
说明:
Y = sign(x) 返回与 x 大小相同的数组 Y,其中 Y 的每个元素是:
1,前提是 x 的对应元素大于 0。
0,前提是 x 的对应元素等于 0。
-1,前提是 x 的对应元素小于 0。
数据及代码见文末
%% 该代码为基于BP-Adaboost的强分类器分类
%% 清空环境变量
clc
clear
%% 下载数据
load data input_train output_train input_test output_test
%% 权重初始化
[mm,nn]=size(input_train);
D(1,:)=ones(1,nn)/nn;
%% 弱分类器分类
K=10;
for i=1:K
%训练样本归一化
[inputn,inputps]=mapminmax(input_train);
[outputn,outputps]=mapminmax(output_train);
error(i)=0;
%BP神经网络构建
net=newff(inputn,outputn,6);
net.trainParam.epochs=5;
net.trainParam.lr=0.1;
net.trainParam.goal=0.00004;
%BP神经网络训练
net=train(net,inputn,outputn);
%训练数据预测
an1=sim(net,inputn);
test_simu1(i,:)=mapminmax('reverse',an1,outputps);
%测试数据预测
inputn_test =mapminmax('apply',input_test,inputps);
an=sim(net,inputn_test);
test_simu(i,:)=mapminmax('reverse',an,outputps);
%统计输出效果
kk1=find(test_simu1(i,:)>0);
kk2=find(test_simu1(i,:)<0);
aa(kk1)=1;
aa(kk2)=-1;
%统计错误样本数
for j=1:nn
if aa(j)~=output_train(j)
error(i)=error(i)+D(i,j);
end
end
%弱分类器i权重
at(i)=0.5*log((1-error(i))/error(i));
%更新D值
for j=1:nn
D(i+1,j)=D(i,j)*exp(-at(i)*aa(j)*test_simu1(i,j));
end
%D值归一化
Dsum=sum(D(i+1,:));
D(i+1,:)=D(i+1,:)/Dsum;
end
%% 强分类器分类结果
output=sign(at*test_simu);
%% 分类结果统计
%统计强分类器每类分类错误个数
kkk1=0;
kkk2=0;
for j=1:350
if output(j)==1
if output(j)~=output_test(j)
kkk1=kkk1+1;
end
end
if output(j)==-1
if output(j)~=output_test(j)
kkk2=kkk2+1;
end
end
end
disp('第一类分类错误 第二类分类错误 总错误');
% 窗口显示
disp([kkk1 kkk2 kkk1+kkk2]);
plot(output)
hold on
plot(output_test,'g')
ylim([-1.5,1.5]);
title("预测情况与实际情况对比");
ylabel('公司财务状况');
xlabel('数据编号');
legend('强分类预测结果','实际结果');
%统计弱分离器效果
for i=1:K
error1(i)=0;
kk1=find(test_simu(i,:)>0);
kk2=find(test_simu(i,:)<0);
aa(kk1)=1;
aa(kk2)=-1;
for j=1:350
if aa(j)~=output_test(j)
error1(i)=error1(i)+1;
end
end
end
disp('统计弱分类器分类效果');
error1
disp('强分类器分类误差率')
(kkk1+kkk2)/350
disp('弱分类器分类误差率')
(sum(error1)/(K*350))
运行结果如下:
第一类分类错误 第二类分类错误 总错误
0 14 14
统计弱分类器分类效果
error1 =
16 15 14 16 29 14 17 54 16 14
强分类器分类误差率
ans =
0.0400
弱分类器分类误差率
ans =
0.0586
数据及代码:data