Canonical Correlation Analysis(CCA) 典型相关分析

1.典型相关分析的基本思想

  首先,什么是非典型的即经典的相关分析。给你两组变量X=[x1,x2,...,xm],Y=[y1,y2,...,yn],要研究X和Y之间的相关性,就是要得到一个X和Y的协方差矩阵cov(X,Y),矩阵中的每一个值uij表示的就是X的第i维特征xi和Y的第j维特征yj之间的相关性。之后的相关性研究工作就是要基于这个矩阵展开。

  这样做的一个弊端就是,只考虑了xi和yj单个维度的相关性,没有考虑X和Y自己内部之间的相关性。而且协方差矩阵有mxn个值,使问题变得复杂,难以从整体上把握。

  而典型相关分析则不是这样,它从总体上把握了两组变量之间的相关程度。

  我们用两个综合变量U和V来分别表示两组变量。他们分别是X和Y的线性组合(当然有很多种组合方式,即很多组U、V):
\[U = {w_{{x_1}}}{x_1} + ... + {w_{{x_m}}}{x_m} = {w_X}^TX\]
\[V = {w_{{y_1}}}{y_1} + ... + {w_{{y_m}}}{y_m} = {w_Y}^TY\]

我们把这样的U、V称作典型变量。求U、V之间的相关系数
\[\rho (U,V)\]

CCA的目的就是,找到U、V相关系数最大的那组典型变量,即找到那组X和Y的线性组合。因此,CCA的实质就是用典型变量(原变量的线性组合)来代表原变量,用它们之间的相关性来反映原变量的相关性。


2.数学描述

参见http://wenku.baidu.com/link?url=XkQJ7vKJw1tdfTuYaoqsVQVMeavutr3kBUmaldMuKhGivyVnNC-CuuA694qI1UROlL9MJJkEfwiHX7Pk2EP7vqA6z_7BT8D6iSvEc-p6pDq


3.举个例子

参见http://blog.csdn.net/statdm/article/details/7585113




你可能感兴趣的:(statistical,knowledge)