t检验、线性回归、PCA、CCA、PLS,都是一家人

知识是需要总结的,否则学得越多,忘得越多,最后在知识的海洋里被淹没。

1.统计学习的最基本的技能就是差异检验,参数或者非参数的,t检验,秩和检验,方差分析,无非是计算几个不同来源的数值之间是否有显著差异。

2. 线性回归说简单也简单,其核心就是用最小二乘法确定损失函数的最小值,如果因变量Y是二分类变量,就是逻辑回归,但也是属于线性回归。

3. PCA用得够多了,要说原理,那就是寻找样本在高维空间中方差最大的投影,具体做法是求矩阵的特征值,或者做奇异值分解。

4. CCA不太常用,其原理是分别求X和Y矩阵的主成分,来衡量两个矩阵的相关性。

5. 如果对以上三个知识点有了解,那么就容易理解PLS的原理了,PLS结合了线性回归、PCA和CCA的思想:先对X和Y分别求主成分,然后对两个主成分进行线性回归,求出协方差,然后重复这个过程,直达找到协方差最大的的那一对成分,也就是X和Y分别的线性组合。

如果没有一个核心将以上这些知识点串联起来,学习者就会明显感觉到吃力,因为这些理论看似都是各自为阵的,需要一个一个去攻破。但是随着学习的深入,我们就会发现其中的联系:首先对于连续变量而言,差异检验和线性回归的本质是相通的,因为差异检验的分组就是自变量X,数值就是因变量Y,我们想要搞清楚的是X的变化对Y的影响是不是显著。

再说线性回归和PCA,PCA本身就是一种线性降维,所谓线性是指PCA得到的主成分就是X矩阵中所有变量的线性组合,这与多变量线性回归得到的模型是一致的,因此也就产生了主成分回归PCR这种回归方法,当然,PCR也是无监督的,没有因变量,追求的是方差最大化。至于线性回归和PCR之间的差异,可以再花时间去调研。

CCA和PLS与PCA的联系上面已经简单说过了,操作的基本单元也是矩阵的成分,即线性组合。

说到底,这些知识之间是有严密的逻辑联系的。昨天无意中看到一个叫做continuum regression的概念,中文还没有正式翻译,能找到的资料也很少,这个方法把OLS、PLS和PCA联系到了一起,设置了一个超参数α,后面再找找资料深入了解吧。


你可能感兴趣的:(t检验、线性回归、PCA、CCA、PLS,都是一家人)