1.典型相关分析和奇异值分解之间的关系
典型相关分析研究的是两个随机向量之间的相关性,例如如果有向量 Y={Y1,...,YK} Y = { Y 1 , . . . , Y K } 和 X={X1,...,XM} X = { X 1 , . . . , X M } ,目的是需要找到 α={α1,...αK} α = { α 1 , . . . α K } 和 β={β1,...,βM} β = { β 1 , . . . , β M } ,使得 αTY α T Y 和 βTX β T X 的相关系数最大,公式表示为
maxαaT∑−1/2Y∑YX∑−1X∑XY∑−1/2YaaTa−−−−−−−−−−−−−−−−−−−−√ m a x α a T ∑ Y − 1 / 2 ∑ Y X ∑ X − 1 ∑ X Y ∑ Y − 1 / 2 a a T a
解该最大值问题,需要使用如下的定理
也就是说当 a a 取 ∑−1/2Y∑YX∑−1X∑XY∑−1/2Y ∑ Y − 1 / 2 ∑ Y X ∑ X − 1 ∑ X Y ∑ Y − 1 / 2 的最大特征根对应的特征向量时,可以取最大值,这时b是 ∑−1/2X∑XY∑−1Y∑YX∑−1/2X ∑ X − 1 / 2 ∑ X Y ∑ Y − 1 ∑ Y X ∑ X − 1 / 2 的最大特征根对应的特征向量。所以我们令 A=∑−1/2Y∑YX∑−1/2X A = ∑ Y − 1 / 2 ∑ Y X ∑ X − 1 / 2 ,获取 a a 和 b b 其实就是针对矩阵A进行奇异值分解从而获取相应的特征向量,而最大值对应的就是 特征值−−−−−√ 特 征 值
2.典型相关分析和RRR之间的关系
RRR是多因变量回归中使用到的一种技术,前提假设不同的因变量之间并不是独立的,协方差矩阵为 ∑ ∑ ,最终也是通过最小会均方误差来求参数。可以表示如下:
minβ1/N∑Ni=1(Yi−βXi)TΓ(Yi−βXi) m i n β 1 / N ∑ i = 1 N ( Y i − β X i ) T Γ ( Y i − β X i )
其中 Yi Y i 是K*1维向量, Xi X i 是M*1维向量, β β 是K*M维矩阵,限定 β β 的秩为 b≤min(K,M) b ≤ m i n ( K , M ) ,故称之为RRR.
E(Y−βX)TΓ(Y−βX)=E[YTΓY−YTΓβX−XTβTΓY+XTβTΓβX] E ( Y − β X ) T Γ ( Y − β X ) = E [ Y T Γ Y − Y T Γ β X − X T β T Γ Y + X T β T Γ β X ]
因为 Γ Γ 是对称矩阵,因此令 Γ=Γ1/2Γ1/2 Γ = Γ 1 / 2 Γ 1 / 2 代入上式,得到
E[YTΓY−YTΓβX−XTβTΓY+XTβTΓβX]=E[YTΓ1/2Γ1/2Y−YTΓ1/2Γ1/2βX−XTβTΓ1/2Γ1/2Y+XTβTΓ1/2Γ1/2βX] E [ Y T Γ Y − Y T Γ β X − X T β T Γ Y + X T β T Γ β X ] = E [ Y T Γ 1 / 2 Γ 1 / 2 Y − Y T Γ 1 / 2 Γ 1 / 2 β X − X T β T Γ 1 / 2 Γ 1 / 2 Y + X T β T Γ 1 / 2 Γ 1 / 2 β X ]
假设 E(Y)=0 E ( Y ) = 0 , E(X)=0 E ( X ) = 0 ,可得
trace(Γ1/2ΣYΓ1/2−Γ1/2ΣYXβTΓ1/2−Γ1/2βΣXYΓ1/2+Γ1/2βΣXβTΓ1/2) t r a c e ( Γ 1 / 2 Σ Y Γ 1 / 2 − Γ 1 / 2 Σ Y X β T Γ 1 / 2 − Γ 1 / 2 β Σ X Y Γ 1 / 2 + Γ 1 / 2 β Σ X β T Γ 1 / 2 )
其实就等价于
minβtrace(Γ1/2βΣ1/2X−Γ1/2ΣYXΣ−1/2X)(Γ1/2βΣ1/2X−Γ1/2ΣYXΣ−1/2X)T m i n β t r a c e ( Γ 1 / 2 β Σ X 1 / 2 − Γ 1 / 2 Σ Y X Σ X − 1 / 2 ) ( Γ 1 / 2 β Σ X 1 / 2 − Γ 1 / 2 Σ Y X Σ X − 1 / 2 ) T
此时,需要使用如下矩阵低秩表示定理
我们看到如果把 Γ Γ 换成 Σ−1Y Σ Y − 1 ,这样就和典型相关分析联系起来了。
这个也是ESL中习题3.20,3.21的答案。 这 个 也 是 E S L 中 习 题 3.20 , 3.21 的 答 案 。