数据分析-主成分分析

对西大望路周边的10家面馆进行了100份调查问卷,希望找出最好吃的面馆,同时分析那个因素是决定性因。问卷调查整理和统计后如下。

数据分析-主成分分析_第1张图片


准备相关矩阵

将数据用公式"=(值-均值)/标准差"做标准化处理,处理之后均值为0方差为1。计算二二因素的相关系数,面和料的相关系数为"=CORREL(面列,料列)",填写相关矩阵,这个相关矩阵是对称的,所以计算3个相关系数就好。


求特征值

将关联矩阵定义为A,建立单位矩阵定义为B,在特征值中随便填写一个估计值比如1,然后计算矩阵A-cI,接下来用公式"=MDETERM(A-cI)"计算矩阵的行列式值,最后用"单变量求解"功能,设置目标del(A-cI)=0,估计的特征值是可变单元,Excel就自动求解出一个特征值,用同样的方法可以求出三个特征值。

数据分析-主成分分析_第2张图片


求特征向量

定义全1的向量B,用公式"=MMULT(MINVERSE(A-特征值*I),1向量)"计算特征值的估计特征向量,然后用公式"=IF(MAX(估计向量)>-MIN(估计向量),MAX(估计向量),MIN(估计向量))",在最大模方向归一化,然后迭代计算估计向量3到5次,发现估计向量收敛,就是特征向量。


成分分析

对特征向量用公式"=SQRT(x^2+y^2+z^2)"求模,然后用公式"=x/模"进行单位化,选取特征值最大的作为第一主成分X1,第二大的作为第二主成分X2,然后填入调研因素"面、料、汤"到主成分"X1、X2"的映射系数。

数据分析-主成分分析_第3张图片
观察X1和X2的累计贡献度已经达到80%。用散点图观察"面、料、汤"的主成分分布情况如下图,可以看出"汤"的因素是最主要的。

数据分析-主成分分析_第4张图片


店铺分析

用店铺的观察因素的标准化评分乘以映射系数,计算店铺在主成分"X1、X2"上的得分,如下图。

数据分析-主成分分析_第5张图片
用散点图观察店铺的主成分分布图,可以发现X轴上最大值的店铺"花店"是最好吃的店铺,最难吃的店铺是"海店"。

数据分析-主成分分析_第6张图片


Excel相关功能

CORREL函数求解两列的相关系数

MDETERM函数求解矩阵的行列式的值

MMULT函数求解矩阵乘法

MINVERSE函数求解矩阵的逆

MAX函数求最大值

MIN函数求最小值

IF函数做判断

SQRT函数求平方根

单变量求解功能设置目标值后计算单变量

散点图观察数据在XY坐标下的分布情况


数据分析-主成分分析_第7张图片

你可能感兴趣的:(数据)