主成分分析(PCA)和独立成分分析(ICA)

最近在学习DL花书时,看到了线性因子模型部分,对其中的PCA和ICA的理解有些模糊,于是到网上求助并翻了些文献资料,总结如下(这里不讨论其推导过程和理论证明):

首先分析一下PCA和ICA之间的共性:

  1. 无论是PCA还是ICA,都不需要对源信号的分布进行具体的假设
  2. Both PCA and ICA try to find a set of vectors, a basis, for the data. So you can write any point (vector) in your data as a linear combination of the basis.

再来主要分析一下PCA和ICA之间的区别:

  1. 主成分分析假设源信号间彼此非相关,独立成分分析假设源信号间彼此独立。这一条对应共性的第一条,不需要队员信号的分布进行具体假设,只需假设其关系
  2. 主成分分析认为主元之间彼此正交,样本呈高斯分布;独立成分分析则不要求样本呈高斯分布。
  3. 从用途上来说:PCA和ICA的用途完全不同。如果只在意数据的能量或方差、假设噪声或不感兴趣的信号都比较微弱,那么用PCA就能把主要信号留下来。在某种意义上,ICA更智能——它不在意信号的能量或方差,只看独立性所以给定的待分析的混合信号经任意的线性变换都不会影响ICA的输出结果,但会严重影响PCA的结果。简单讲:PCA是一个降维的过程,ICA则是帮助你从多个维度分离有用数据的过程。
  4. In PCA the basis you want to find is the one that best explains the variability of your data. The first vector of the PCA basis is the one that best explains the variability of your data (the principal direction) the second vector is the 2nd best explanation and must be orthogonal to the first one, etc.
    In ICA the basis you want to find is the one in which each vector is an independent component of your data, you can think of your data as a mix of signals and then the ICA basis will have a vector for each independent signal.
  5. 不相关是非常一种弱的独立性(线性独立性),一般必须配合别的性质使用才能得出唯一的结果:在PCA里就配合了能量或方差最大这个性质。而一般情况下独立性比不相关强了很多,在一定条件下,强到了足以把数据的产生过程恢复出来的地步。

接下来举个一个经典的例子来解释PCA和ICA之间的关系和用法
对于一组3个模拟信号,如正弦、余弦、随机信号
主成分分析(PCA)和独立成分分析(ICA)_第1张图片
经过随机混合,由6个麦克风录制下来,则观测信号为
主成分分析(PCA)和独立成分分析(ICA)_第2张图片

我们希望将他们分解开,这时就该ICA出场了。但在ICA之前,往往会对数据有一个预处理过程,那就是PCA与白化。白化在这里先不提,PCA本质上来说就是一个降维过程,大大降低ICA的计算量。PCA,白化后的结果如下图所示。可以看到,原先的6路信号减少为3路,ICA仅需要这3路混合信号即可还原源信号。
主成分分析(PCA)和独立成分分析(ICA)_第3张图片

下面,ICA经过多步迭代寻优,就会按照信号之间独立最大的假设,将信号解混输出。
主成分分析(PCA)和独立成分分析(ICA)_第4张图片

总的来说,ICA认为观测信号是若干个统计独立的分量的线性组合,ICA要做的是一个解混过程。
PCA是一个信息提取的过程,将原始数据降维,现已成为ICA将数据标准化的预处理步骤。

下面分享两个链接帮助大家更好理解:
PCA: Principal Component Analysis explained visually

ICA: What is the difference between PCA and ICA?

参考文献:[1] A.
Hyva ̈rinen, J. Karhunen, and E. Oja, Independent Component Analysis,
Wiley-Interscience, New York, 2001[2] J.-F.
Cardoso, “Blind signal separation: statistical principles”, Pro- ceedings of
the IEEE, vol. 90, n. 8, pp. 2009-2026, October 1998.[3] A. Hyva ̈rinen and E. Oja, ”A Fast Fixed-Point Algorithm for
Inde- pendent Component Analysis”. Neural Computation, 9(7):1483-1492, 1997.[4] A. Hyva ̈rinen, “Fast and Robust Fixed-Point Algorithms for
Inde- pendent Component Analysis”. IEEE Trans. on Neural Networks,
10(3):626-634, 1999.
https://www.zhihu.com/question/28845451/answer/42537342

你可能感兴趣的:(机器学习,DeepLearning)