ICA(Independent Component Analysis)

一、背景:

 seeks to extract these independent components and the mixing matrix of coefficients,通过线性变换寻求统计独立和非高斯分布的潜变量

PCA:降维,去相关性(二阶统计量)

ICA: 不仅去相关性(二阶统计量),还能减少高阶统计量依赖。

注:独立一定不相关(线性);不相关不一定独立

如果潜变量服从非高斯分布,ICA 对原始源信号的提取程度远远大于 PCA 

二、模型:

其中 是数据矩阵(与 PCA 相反,ICA 采用转置数据矩阵),

是未知混合矩阵,

是独立分量矩阵,

是残差矩阵,n 是样本数量。

我们假设(当 ,残差矩阵 E变成零矩阵)。

在已知观测信号X,而源信S号和混合系数A都未知的情况下,希望找到一个分离矩阵W,以便从观测信号中分离出统计独立的源信号,即

在独立分量分析中,分离矩阵砰与混合矩阵的关系为

注:d equals m, 为S的最佳估计

三、预处理

1、约束条件

为确保独立分量分析方法的顺利进行,下约束条件:

   1) 源信号的各成分是瞬时统计独立的。

   2) 各源信号服从非高斯分布,或至多存在一个源信号服从高斯分布,否则无法实现源信号的分离。

   3) 观测信号的数目不少于源信号 的数目。

2、数据预处理

 1)中心化:消除数据中存在的一阶统计相关性

 2)白化或球化(whitening or sphering):在标准化基础上使各分量间彼此正交,达到消除数据二阶统计相关性目的

设随机变量X的第k次采样值为x(k),则其协方差矩阵为:

的特征值分解为:

是一个对角阵,其对角元素是协方差矩阵 的特征值;U是一个与 对应的特征向量按列组合而成的矩阵。

白化变换的表达式为:

白化变换矩阵Q为:

B是一个正交矩阵

白化变换后,ICA的任务从求解矩阵,变为求解正交矩阵

因此,我们可以估计s(k)为:,

其中

3、ICA的目标函数和优化算法

   独立分量分析=目标函数+优化算法

1) 目标函数;非高斯的最大化

      在独立分量分析的模型中,观测信号x(k)是由m个独立的源信号线性混合而成,因此它比其中任意一个源信号更加趋于高斯分布。如果能够找到一个向量w作用于混合信号x(k),使得变换后的结果尽量偏离高斯分布,即非高斯最大化,那么得到的就是其中的一个源信号。同理,可以分离出余下的m-1个源信号。

衡量非高斯性的大小---熵

定义概率密度为f(y)的随机变量y的熵H为:

负熵J为:

是与y等方差的高斯变量,所有 等方差的随机变量中,高斯变量的熵最大。 

负熵近似为:

常用的G函数形式有:

2)  优化算法:FastICA

4、ICA 的排序和降维

we used a Euclidean norm L2 to sort the rows of the demixing matrix, W

可以计算分离矩阵W的行向量的欧氏范数,即其中其中i=1,2,3…d,以此为标准从大到小顺序排列行向量,然后选取前面几个范数和中所占比重大的行向量作为主部,剩下的作为余部,

四、统计量和控制限

: dominant part of W

:  excluded part of W

  ;

统计量:

The confidence limits of the threestatistics,, can be obtained by kernel density estimation

控制限:

non-parametric empirical density estimates using kernel extraction

???

具有核 K 的单变量核估计量:

x is the data point under consideration, 

is an observation value from the data set,

h is the window width (also known as the smoothing parameter),

n is the number of observations, and

K is the kernel function

窗宽随样本个数而趋于零。当取得太小时,随机性的影响增加,使呈现很不规则的形状,这可能掩盖的重要特性反之。太大,则将会过度平滑,使比较细致的性质不能显露出来。

The kernel function K :

选用标准正态密度函数作为核函数,在选取窗宽参数时,考虑到这里的目的是面向工业过程的监控应用,不需要达到理论上的高度最优化,所以窗宽参数的大小可按照下面的关系式计算得到:

其中C=0.7853为对应于标准正态密度核函数的一个常数,Q是样本的四分位数间距,n是样本的个数。

变量贡献图:

测量变量在第K个采样时刻对两种统计量的贡献值分别为

通过直方图可以把这些贡献值大小直观地表示出来,这样就可以较容易看出引起过程异常的具体原因。

你可能感兴趣的:(ICA(Independent Component Analysis))