独立成分分析(ICA)--学习笔记

  1. PCA是一个降维过程,ICA则是从多个维度分离有用数据的过程
  2. 独立成分分析是从多元(多维)统计数据中寻找潜在因子或成分的一种方法.ICA与其它的方法重要的区别在于,它寻找满足统计独立和非高斯的成分
  3. 寻找矩阵W以便成分尽可能的包含原始数据的信息.常用统计技术如主成分分析(PCA)、因子分析(FA)的出现,它们是进行统计数据处理、特征提取、数据压缩等比较经典的技术。 
  4. 寻找矩阵W的另一个统计原理是统计独立性假设成分yi之间是统计独立的,即其中一个成分没有受到另一个成分的任何影响,成分之间没有任何信息传递.在因子分析中,经常声称因子之间是统计独立的,这个说法只是部分正确,因为因子分析假设因子是服从高斯分布的,找到独立的方法相当容易(对于高斯分布的成分来说,不相关与独立是等价的)。(wsy:所以求向量内积即可)
  5. 在现实世界中,数据通常并不服从高斯分布,假设成分服从高斯分布的方法在这种情况下是失效的.例如,许多真实世界的数据集是服从超高斯分布的(supergaussian),意味着随机变量更经常的在零附近取值,与相同方差的高斯密度相比,超高斯分布在零点更尖!    
    1. 存在度量随机变量y非高斯性的一个测度峰度是度量非高斯性的一个比较传统的方法。
    2. y的峰度kurt(y)在统计学上是用四阶统计量来表示的:
      kurt(y)=E{y^4}-3(E{y^2})^2
    3. 表达式可以进一步简化,假设随机变量的方差为单位方差,E{y^2}=1,则上述表达式就可以表示为:
       kurt(y)=E{y^4}-3
    4. 峰度值为正值的随机变量称为超高斯分布的随机变量(super-gaussian);峰度值为负值的随机变量称为亚高斯分布的随机变量(sub-gaussian);而高斯分布的随机变量的峰度值为零
      1. 服从超高斯分布的随机变量比高斯分布更尖(spiky),拉普拉斯分布(Laplacian distribution)就是一个典型的超高斯分布密度函数;
      2. 服从亚高斯分布的随机变量比高斯分布更平(filat),均匀分布(Uniform distribution)就是一个典型的亚高斯分布密度函数。
  6. 未知信号的观测混合,可能包括:
    1. 发出电信号的不同脑区;
    2. 在一个房间说话的几个人,发出语音信号;
    3. 发出雷达信号的移动电话。
    4. 假设有几个传感器或接收器,这些传感器放置在不同的位置上,这样,每个传感器纪录的是源信号带有不同权重的混合.前面所说的鸡尾酒会问题就符合这样的情况。
  7. 从混合信号x1(t),x2(t)和x3(t)中找到源信号(有结构的),这就是盲源分离问题(blind source separation,BSS).盲指的是源信号未知,混合系统未知(混合系数未知)。
  8. 独立成分分析模型:
    1. 标准的(即源信号的个数等于混合信号的个数)无噪声独立成分分析的线性模型.标准的线性独立成分分析模型的矩阵形式为X=AS; 
      1. 其中随机向量X=(x1,x2,…,xn)表示观测数据或观测信号(observed data)
      2. 随机向量S=(s1,s2,…,sn)表示源信号,称为独立成分(independent components)
      3. A称为nxn的混合矩阵(mixing matrix),在该模型中,X表示的是一个随机向量,x(t)表示随机向量X的一个样本.假设源信号是相互统计独立的。  
      4. 这就是标准的独立成分分析模型,可以看作是一个生成模型(generativemodel),它的意思是说观测信号是通过源信号混合而生成的,在这个意义下,独立成分也称为隐含或潜在交量(hidden/latent , nariable ),也就是说这些独立成分是无法直接观测到的
      5. 另一方面,混合系数矩阵A也是未知的.
      6. 独立成分分析的任务就是:在只知道观测信号X的T个样本x(1),…,x(T),且在源信号S和混合矩阵A未知的条件下,假设源信号si(0=1,…,n)之间是相互统计独立的,来求解混合矩阵A和源信号s。  
  9. 独立成分分析的假设条件:
    1. 各个成分之间是相互统计独立的.则可以将联合概率密度函数通过每个成分的边缘概率密度函数连乘来表示。    
    2. 独立成分是服从非高斯分布的:
      1. 高斯信息太过于“简单”,真正有意义的信息是服从非高斯分布的信息。高斯随机变量的高阶累积量为零,而对于独立成分分析而言,高阶信息是实现独立成分分析的本质因素,这也是独立成分分析和其它数据处理方法诸如主成分分析和因子分析的本质区别.
      2. 真实世界的许多数据是服从非高斯分布的
    3. 假设混合矩阵是方阵:独立成分的个数等于观测混合信号的个数,进一步假设混合矩阵A是可逆的,这可以使得计算简单化,求混合矩阵A就等价于求它的逆矩阵w,则源信号就可以很容易的得到:S=(W^-1)X。
    4. 对于标准的独立成分分析而言,当给定上述的三个条件时,独立成分分析就是可实现的,也就是说混合矩阵和独立成分是可以求解的。 
  10. 独立成分分析无法确定的因素   
    1. 不能确定独立成分的方差、能量
      1. 因为混合矩阵和独立成分都是未知的,如果对独立成分乘上某个标量ai≠0,或同时对混合矩阵相应的除以一个相同的标量,则不影响混合信号的值。
      2. 在独立成分分析算法中,可以固定独立成分的方差,由于独立成分是随机变量,则最自然的方法就是假设独立成分具有单位方差。       
    2. 不能确定独立成分的顺序.
  11. 数据中心化:

    1. 假设混合变量和独立成分都是零均值的.   

    2. 如果零均值并不成立,可以通过预处理来达到这个条件.一般使用中心化观测变量这一技术,即减去样本均值.

  12. 不相关和白化   
    1. 独立和不相关(uncorrelated)是紧密相关的概念,可以设想使用估计不相关变量的方法来同样估计独立成分,这样的典型方法为白化(whitening)或球化(sphering),通常由主成分分析(principal component analysis)来进行.但用这样的方法来估计独立成分通常是不可行的,一般的,白化是以独立成分分析的预处理技术身份出现的。   
    2. 不相关是独立的较弱形式,两个随机变量y1,y2是不相关的,那么它们的协方差是零:
      conv(y1,y2)=E{y1,y2}-E{y1}E{y2}=0
    3. 如果随机变量是零均值的,协方差化为相关
      conv(y1,y2)=E{y1,y2)
      ,不相关相当于零相关。   
    4. 如果随机变量是独立的,它们即是不相关的.这是因为两个随机变量y1和y2是独立的,那么对于任意两个函数h1和h2,有:
      E{h1(y1)h2(y2)}=E{h1(y1)}E{h2(y2)}
      独立意味着不相关,而不相关并不意味着独立。
    5. 比不相关稍强的概念是白化.白化的随机向量y与它的各分量是不相关的,并且具有单位方差.换句话说,随机向量Y的协方差矩阵是单位阵:
      E{yyT}=I
    6. 白化意味着我们将观测数据向量x进行线性变换:
      z=Vx
    7. 白化变换总是可行的.白化的一个流行方法是协方差矩阵的特征值分解(EVD):
      E{xx^T}=EDE^T
    8. E是E(XXT)的特征向量组成的正交矩阵,D是它的特征值组成的对角矩阵,白化可以通过白化矩阵
       V=ED^(-1/2)E^T
      来实现。

你可能感兴趣的:(deeplearning,概率论)