典型相关分析,奇异值分解,RRR(Reduced-Rank Regression)

1.典型相关分析和奇异值分解之间的关系
典型相关分析研究的是两个随机向量之间的相关性,例如如果有向量 Y={Y1,...,YK} Y = { Y 1 , . . . , Y K } X={X1,...,XM} X = { X 1 , . . . , X M } ,目的是需要找到 α={α1,...αK} α = { α 1 , . . . α K } β={β1,...,βM} β = { β 1 , . . . , β M } ,使得 αTY α T Y βTX β T X 的相关系数最大,公式表示为

maxα,βcov(αTY,βTX)var(αTY)var(βTX) m a x α , β c o v ( α T Y , β T X ) v a r ( α T Y ) ∗ v a r ( β T X )
或者
maxα,βαTYXβαTYαβTXβ m a x α , β α T ∑ Y X β α T ∑ Y α ∗ β T ∑ X β

首先我们令
aT=αT1/2Y,bT=βT1/2X a T = α T ∑ Y 1 / 2 , b T = β T ∑ X 1 / 2
这样我们可以得到
maxα,βaT1/2YYX1/2XbaTabTb m a x α , β a T ∑ Y − 1 / 2 ∑ Y X ∑ X − 1 / 2 b a T a ∗ b T b

使用柯西-施瓦茨不等式
aT1/2YYX1/2XbaT1/2YYX1XXY1/2YabTb a T ∑ Y − 1 / 2 ∑ Y X ∑ X − 1 / 2 b ≤ a T ∑ Y − 1 / 2 ∑ Y X ∑ X − 1 ∑ X Y ∑ Y − 1 / 2 a b T b
aT1/2YYX1/2X a T ∑ Y − 1 / 2 ∑ Y X ∑ X − 1 / 2 b b 线性相关时,等号成立,所以为了获取最大值,可以直接令
aT1/2YYX1/2X=kb a T ∑ Y − 1 / 2 ∑ Y X ∑ X − 1 / 2 = k b , 这样便可以转化成

maxαaT1/2YYX1XXY1/2YaaTa m a x α a T ∑ Y − 1 / 2 ∑ Y X ∑ X − 1 ∑ X Y ∑ Y − 1 / 2 a a T a
解该最大值问题,需要使用如下的定理
典型相关分析,奇异值分解,RRR(Reduced-Rank Regression)_第1张图片
也就是说当 a a 1/2YYX1XXY1/2Y ∑ Y − 1 / 2 ∑ Y X ∑ X − 1 ∑ X Y ∑ Y − 1 / 2 的最大特征根对应的特征向量时,可以取最大值,这时b是 1/2XXY1YYX1/2X ∑ X − 1 / 2 ∑ X Y ∑ Y − 1 ∑ Y X ∑ X − 1 / 2 的最大特征根对应的特征向量。所以我们令 A=1/2YYX1/2X A = ∑ Y − 1 / 2 ∑ Y X ∑ X − 1 / 2 ,获取 a a b b 其实就是针对矩阵A进行奇异值分解从而获取相应的特征向量,而最大值对应的就是 特 征 值
2.典型相关分析和RRR之间的关系
RRR是多因变量回归中使用到的一种技术,前提假设不同的因变量之间并不是独立的,协方差矩阵为 ,最终也是通过最小会均方误差来求参数。可以表示如下:
minβ1/NNi=1(YiβXi)TΓ(YiβXi) m i n β 1 / N ∑ i = 1 N ( Y i − β X i ) T Γ ( Y i − β X i )
其中 Yi Y i 是K*1维向量, Xi X i 是M*1维向量, β β 是K*M维矩阵,限定 β β 的秩为 bmin(K,M) b ≤ m i n ( K , M ) ,故称之为RRR.
E(YβX)TΓ(YβX)=E[YTΓYYTΓβXXTβTΓY+XTβTΓβX] E ( Y − β X ) T Γ ( Y − β X ) = E [ Y T Γ Y − Y T Γ β X − X T β T Γ Y + X T β T Γ β X ]
因为 Γ Γ 是对称矩阵,因此令 Γ=Γ1/2Γ1/2 Γ = Γ 1 / 2 Γ 1 / 2 代入上式,得到
E[YTΓYYTΓβXXTβTΓY+XTβTΓβX]=E[YTΓ1/2Γ1/2YYTΓ1/2Γ1/2βXXTβTΓ1/2Γ1/2Y+XTβTΓ1/2Γ1/2βX] E [ Y T Γ Y − Y T Γ β X − X T β T Γ Y + X T β T Γ β X ] = E [ Y T Γ 1 / 2 Γ 1 / 2 Y − Y T Γ 1 / 2 Γ 1 / 2 β X − X T β T Γ 1 / 2 Γ 1 / 2 Y + X T β T Γ 1 / 2 Γ 1 / 2 β X ]
假设 E(Y)=0 E ( Y ) = 0 , E(X)=0 E ( X ) = 0 ,可得
trace(Γ1/2ΣYΓ1/2Γ1/2ΣYXβTΓ1/2Γ1/2βΣXYΓ1/2+Γ1/2βΣXβTΓ1/2) t r a c e ( Γ 1 / 2 Σ Y Γ 1 / 2 − Γ 1 / 2 Σ Y X β T Γ 1 / 2 − Γ 1 / 2 β Σ X Y Γ 1 / 2 + Γ 1 / 2 β Σ X β T Γ 1 / 2 )
其实就等价于
minβtrace(Γ1/2βΣ1/2XΓ1/2ΣYXΣ1/2X)(Γ1/2βΣ1/2XΓ1/2ΣYXΣ1/2X)T m i n β t r a c e ( Γ 1 / 2 β Σ X 1 / 2 − Γ 1 / 2 Σ Y X Σ X − 1 / 2 ) ( Γ 1 / 2 β Σ X 1 / 2 − Γ 1 / 2 Σ Y X Σ X − 1 / 2 ) T
此时,需要使用如下矩阵低秩表示定理
典型相关分析,奇异值分解,RRR(Reduced-Rank Regression)_第2张图片
我们看到如果把 Γ Γ 换成 Σ1Y Σ Y − 1 ,这样就和典型相关分析联系起来了。
ESL3.20,3.21 这 个 也 是 E S L 中 习 题 3.20 , 3.21 的 答 案 。

你可能感兴趣的:(统计/数学)