假设现在有一个数据矩阵 X ,其大小是 n×p ,其中 n is the number of samples and p is the number of variables (或features)。这里, XT 可以写成 {x1,x2,⋯,xn} , x1 表示一个长度为 p 的列向量,也就是说, XT 包含 n independent observations x1,x2,⋯,xn ,其中每个都是一个 p-dimensional 的列向量,这与【7】中的写法相一致。
现在,不失普遍性地,让我们假设 X is centered, 即 column means have been subtracted and are now equal to zero。如果 X is not centered,也不要紧,我们可以通过计算其与centering matrix H 之间的乘法来对其中心化。 H=I−eeT/p , 其中 e is a 每个元素都是1的 column vector。
基于上述条件,可知 p×p 大小的协方差矩阵 covariance matrix C 可由 C=XTX/(n−1) 给出。此处,我们稍微补充一下协方差矩阵与相关性矩阵(correlation matrix )的一些内容。如果你对此已经非常了解,可以直接跳过这一部分。
如果 X 和 Y 是两个随机变量,with means (expected values) μX and μY and standard deviations σX and σY , respectively, then their covariance is
如果 X are centred data matrices of dimension n×p ,an unbiased estimator of the covariance matrix (sample covariance matrix)
现在我们知道, C=XTX/(n−1) 是一个对称矩阵,因此它可以对角化,即
Any matrix has a singular value decomposition, so we have
参考文献
【1】https://stats.stackexchange.com/questions/134282/relationship-between-svd-and-pca-how-to-use-svd-to-perform-pca
【2】https://intoli.com/blog/pca-and-svd/
【3】https://en.wikipedia.org/wiki/Estimation_of_covariance_matrices
【4】https://en.wikipedia.org/wiki/Covariance_and_correlation
【5】http://www.mathworks.com/help/stats/corrcov.html?s_tid=gn_loc_drop
【6】http://blog.csdn.net/baimafujinji/article/details/6474273
【7】http://blog.csdn.net/baimafujinji/article/details/79376378