典型相关分析

数学建模——典型相关分析

  • 典型相关分析
    • 引例
    • 定义
    • 思路
    • 原理及方法
    • SPSS实现操作

典型相关分析

研究两组可能包含多个指标的变量之间相关关系的一种多元统计方法。它能够揭示出两组变量内部的关系。

引例

我们要探究观众和业内人士对于一些电视节目的观点有什么关系呢?
观众的评分来自低学历(led)高学历(hed)和网络(net)调查三种,它们形成第一组变量;业内人士的评分来自包括演员和导演在内的艺术家(arti)、发行(com)与业内各部门主管(man)三种,形成第二组变量。
典型相关分析_第1张图片
如果直接对这些变量的相关性进行两两分析,很难得到关于这两组变量之间关系的一个很清楚的印象。
于是我们吧多个变量和多个变量之间的关系转化成为两个具有代表性的变量之间的关系。
那么问题来了,选择哪个指标作为哪个最有代表性的变量呢???
首先我们解释一下什么叫做有代表性。
就是能较为全面,综合的衡量其所在组的内在规律。
这里的话,一组最简单的综合形式就是该变量组线性组合。

定义

首先在每组的变量中找出变量的线性集合,使得两组线性组合之间具有最大的相关系数。
然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对
如此下去,直到两组变量之间的相关性被提取完毕。
被选取的线性组合配对称为典型变量,他们的相关系数称为典型相关系数。典型相关系数度量了两组变量之间联系的强度

思路

假设两组变量分别为:在这里插入图片描述
分别在两组变量中选取有若干代表性的综合变量:U(i),V(i),使得每一个综合变量是原变量的线性组合,即:
在这里插入图片描述
注意:综合变量的组数是不确定的,如果第一组就能代表原数据的大部分信息,那么一组就足够了。假设第一组反应的信息不够,那么我们就需要找第二组了。并且为了让第二组信息更有效,需要保证两组的信息不相关,即:
在这里插入图片描述
第一组需要满足的条件:
在var(U1) = var(V1) = 1的条件下,找到a(1)和b(1)两组系数,使得p(U1,V1)最大。(因为相关系数和量纲无关:在这里插入图片描述

这里为了确保典型变量的唯一性,我们只考虑方差为1的X(1)和X(2)的线性函数a(i)’X(1)和b(i)X(2),求使得他们相关系数达到最大的这一组。若存在常相量a(1)和b(1),在D(a(1)'X(1)) = D(b(1)'X(2)) = 1的条件下,使得p(a(1)'X(1),b(1)'X(2))达到最大,则称a(1)'X(1),b(1)'X(2)是一对典型相关变量,求出第一对后,可以类似的求出第二和第三对等典型相关变量

原理及方法

假设两组随机变量中的指标个数p<=q,令:
在这里插入图片描述
根据典型相关分析的基本思想,要进行两组随机变量间的相关分析,首先要计算出各组变量的线性组合——典型变量,并使其系数达到最大,因此,我们设两组变量的线性组合为:
在这里插入图片描述
我们可以得到(其实这里我还没有看懂):
典型相关分析_第2张图片
在前面说明的我们对方差的约束条件下(方差为1),我们可以得出:
在这里插入图片描述
问题就转化为使得上式取得最大值的系数向量a和b。
根据条件极值的求解法我们引出拉格朗日乘数,将问题再次转化为求解
在这里插入图片描述
的极大值。
然后我们分别求导,得出:
典型相关分析_第3张图片
求解方程式可以得到:
典型相关分析_第4张图片
其中A为pp阶矩阵,B为qq阶矩阵。
典型变量和典型相关系数的计算可以归结为矩阵A和矩阵B特征根和特征向量的求解。如果矩阵A和B的秩为r,则有r对典型变量,第k对典型变量的系数向量分别是矩阵A和B的第k特征根对应的特征向量。

SPSS实现操作

首先将数据导入SPSS
典型相关分析_第5张图片
选择典型相关分析
典型相关分析_第6张图片
将不同的组别分开
典型相关分析_第7张图片
随后就弹出分析结果。

你可能感兴趣的:(数学建模,线性代数)