数学建模6 典型相关分析

1、典型相关分析和皮尔逊相关系数/斯皮尔曼相关系数对比

皮尔逊相关系数和斯皮尔曼相关系数针对的是两个变量的相关性,典型相关分析针对的是两组变量进行相关分析,每组变量还可以由多个变量构成。
例如:下图求皮尔逊相关系数,求各变量之间的相关系数,即(身高,体重)得到一个相关系数,(身高,肺活量)得到一个相关系数,依次类推,得到互不相同的所有变量之间的相关系数。
在这里插入图片描述
下图求典型相关性,求两组变量的相关性,即([第一组变量],[第二组变量])=([低学历,高学历,网络],[艺术家,发行,主管])之间相关性,是将第一组变量的三个变量做线性组合,和第二组变量的线性组合进行相关性分析。分析过程有spss软件进行,主要是对结果的解释。
在这里插入图片描述
数学建模6 典型相关分析_第1张图片

2、典型相关分析

典型相关分析由Hotelling提出,其基本思想和主成分分析非常相似。 首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数; 然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对; 如此继续下去,直到两组变量之间的相关性被提取完毕为此。 被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。
数学建模6 典型相关分析_第2张图片
例题
题目:分析第一组变量(体重,腰围,脉搏)和第二组变量(引体向上次数,起坐次数,跳跃次数)之间的关系。
数学建模6 典型相关分析_第3张图片
操作:将数据导入spss中(版本24以上),分析-相关-典型相关-将(体重,腰围,脉搏)放集合1-剩下的3个放集合2-确定

查看结果(转为中文后):只需了解典型相关系数(Canonical Correlations)、集合1标准化典型变量对应的线性组合系数表(Set 1 Standardized Canonical Correlation Coefficients)、集合2标准化典型相关变量对应的线性组合系数(Set 2 Standardized Canonical Correlation Coefficients)三张表格表达的意思即可。
数学建模6 典型相关分析_第4张图片
分别来看三张表的表达意思

1、典型相关系数表
数学建模6 典型相关分析_第5张图片
表格的最后一列,这一列代表着检验统计量所对应的p值,我们要通过它确定典型相关系数的个数。与前面提到的皮尔逊相关系数的p值一下,一般p值<0.05即为相关,(这是在置信水平为95%情况下);上图中只有第一行的0.064接近0.05,剩下两个p太大,不显著,因此,可以在置信水平为90%情况下(p值<0.1),可认为两组变量的线性组合相关,且因为相关系数为0.796成正相关。因为线性组合只有第一行的显著性水平达到了,因此集合1、集合2的线性组合只取第一列数据。
2、集合1标准化典型变量对应的线性组合系数表
数学建模6 典型相关分析_第6张图片
由典型相关性表分析得出,只有第一个线性组合让两组变量呈现的相关性是显著的,因此,集合1典型相关系数取第一个线性组合的系数,也即第一列的系数。由此可得到第一组变量对应的线性组合:
在这里插入图片描述
3、集合2标准化典型相关变量对应的线性组合系数
数学建模6 典型相关分析_第7张图片
同集合1,可得到第二组变量(集合2)的线性组合:
在这里插入图片描述
分析:其实我们典型分析结果就是得到两组变量各自的线性组合,以及,组合后整体U1和V1之间的相关性。从此题来看,第一组变量[体重,腰围,脉搏]和第二组变量[引体向上次数,起坐次数,跳跃次数]之间是正相关,相关系数为0.796,显著性为0.064,在90%的置信水平内认为此正相关具有统计学意义。且第一个变量体重是正相关,腰围是负相关,可以理解为:U1和V1是正相关,U1增加,V1也增加;假设U1的增加是其他两项不变,体重Z1的增加,则V1增加,假设第二组变量的起坐次数Z2和跳跃次数Z3都不变,则引体向上增加;也即,体重增加,对应引体向上增加。(可以这样理解,前提是其他的变量不变)

3、典型相关分析计算过程

1.数据分布有假设:两组数据符合联合正态分布
2.对两组变量的相关性进行检验
3.确定典型相关变量的个数(p值)
4.标准化后的典型相关变量
5.典型荷载分析
6.贡献

你可能感兴趣的:(数学建模)