数学建模-14.主成分分析PCA

主成分分析(PCA)

一种降维算法,能将多个指标转换为少数几个主成分
这些主成分是原始变量的线性组合,且彼此互不相关。其能反映出原始数据的大部分信息。
一般而言,当研究问题涉及到多变量且变量之间存在很强的相关性,考虑使用主成分分析的方法对数据进行简化

降维:
是将高维度的数据(指标太多)保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的
优点:
使得数据集更易使用;
降低算法的计算开销;
去除噪声;
使得结果容易理解
主成分分析的思想
数学建模-14.主成分分析PCA_第1张图片
如何确定主成分变量的系数lij等?
数学建模-14.主成分分析PCA_第2张图片
PCA的计算步骤
数学建模-14.主成分分析PCA_第3张图片
第一步,对其进行标准化处理
数学建模-14.主成分分析PCA_第4张图片

X=zscore(x);
 % matlab内置的标准化函数,等同于(x-mean(x)/std(x),即数据-均值除以标准差 ,得矩阵X

第二步,计算标准化样本的协方差矩阵
数学建模-14.主成分分析PCA_第5张图片

R = cov(X) %利用cov函数,得矩阵R,R是对称矩阵

数学建模-14.主成分分析PCA_第6张图片
可见矩阵特点,矩阵对角线为1,,和为p

第三步,计算R的特征值和特征向量
数学建模-14.主成分分析PCA_第7张图片

[V,D] = eig(R);% V 特征向量矩阵  D 特征值构成的对角矩阵

数学建模-14.主成分分析PCA_第8张图片
第四步,计算主成分贡献率以及累计贡献率
数学建模-14.主成分分析PCA_第9张图片

lambda = diag(D);  % diag函数用于得到一个矩阵的主对角线元素值(返回的是列向量)
lambda = lambda(end:-1:1);  % 因为lambda向量是从小大到排序的,我们将其调个头
contribution_rate = lambda / sum(lambda);  % 计算贡献率
cum_contribution_rate = cumsum(lambda)/ sum(lambda);   % 计算累计贡献率  cumsum是求累加值的函数

数学建模-14.主成分分析PCA_第10张图片

第五步,确定主成分
在这里插入图片描述

m =input('请输入需要保存的主成分的个数:  ');
F = zeros(n,m);  %初始化保存主成分的矩阵(每一列是一个主成分)
for i = 1:m
    ai = V(:,i)';   % 将第i个特征向量取出,并转置为行向量
    Ai = repmat(ai,n,1);   % 将这个行向量重复n次,构成一个n*p的矩阵
    F(:, i) = sum(Ai .* X, 2);  % 注意,对标准化的数据求了权重后要计算每一行的和
end

1.对于某个主成分而言,指标前系数越大,代表该指标对于该主成分分析影响越大
2.主成分分析可用于聚类分析、回归分析

主成分聚类
将前面得到的主成分矩阵F,转到excel,再转入spss中
数学建模-14.主成分分析PCA_第11张图片
之后与实现系统聚类中步骤相同,做出谱系图,做聚合系数折线图利用肘部准则确定合适的聚类个数,随后再次系统聚类选定聚类个数进行聚类
例如聚3类:
数学建模-14.主成分分析PCA_第12张图片
主成分聚类最大的意义是能帮我们可视化最后的聚类效果
菜单栏:图形-图表构建器
数学建模-14.主成分分析PCA_第13张图片
数学建模-14.主成分分析PCA_第14张图片
关于主成分分析
数学建模-14.主成分分析PCA_第15张图片
关于所取主成分的解释例子:
数学建模-14.主成分分析PCA_第16张图片
数学建模-14.主成分分析PCA_第17张图片
代码:

clear;clc  %清屏
load data1.mat   % 导入数据集

[n,p] = size(x); % n是样本个数,p是指标个数

%% 第一步:对数据x标准化为X
X=zscore(x);   % matlab内置的标准化函数(x-mean(x)/std(x)

%% 第二步:计算样本协方差矩阵
R = cov(X);

disp('样本相关系数矩阵为:')
disp(R)

%% 第三步:计算R的特征值和特征向量
% 注意:R是半正定矩阵,所以其特征值不为负数
% R同时是对称矩阵,Matlab计算对称矩阵时,会将特征值按照从小到大排列
[V,D] = eig(R);  % V 特征向量矩阵  D 特征值构成的对角矩阵


%% 第四步:计算主成分贡献率和累计贡献率
lambda = diag(D);  % diag函数用于得到一个矩阵的主对角线元素值(返回的是列向量)
lambda = lambda(end:-1:1);  % 因为lambda向量是从小大到排序的,我们将其调个头
contribution_rate = lambda / sum(lambda);  % 计算贡献率
cum_contribution_rate = cumsum(lambda)/ sum(lambda);   % 计算累计贡献率  cumsum是求累加值的函数
disp('特征值为:')
disp(lambda')  % 转置为行向量,方便展示
disp('贡献率为:')
disp(contribution_rate')
disp('累计贡献率为:')
disp(cum_contribution_rate')
disp('与特征值对应的特征向量矩阵为:')
% 注意:这里的特征向量要和特征值一一对应,之前特征值相当于颠倒过来了,因此特征向量的各列需要颠倒过来
%  rot90函数可以使一个矩阵逆时针旋转90度,然后再转置,就可以实现将矩阵的列颠倒的效果
V=rot90(V)';
disp(V)


%% 计算我们所需要的主成分的值
m =input('请输入需要保存的主成分的个数:  ');
F = zeros(n,m);  %初始化保存主成分的矩阵(每一列是一个主成分)
for i = 1:m
    ai = V(:,i)';   % 将第i个特征向量取出,并转置为行向量
    Ai = repmat(ai,n,1);   % 将这个行向量重复n次,构成一个n*p的矩阵
    F(:, i) = sum(Ai .* X, 2);  % 注意,对标准化的数据求了权重后要计算每一行的和
end

你可能感兴趣的:(数学建模)