独立成分分析(Independent Components Analysis)

首先我们对ICA算法做一些形式化的描述:

ICA是用来分离混合源的技术。所以我们准备先混合,再分离,我们定义两个独立的源,上面的称为A,下面的称为B,代码如下:

 

A = sin(linspace(0,50, 1000));   % A
B = sin(linspace(0,37, 1000)+5); % B
figure; 
subplot(2,1,1); plot(A);         % plot A
subplot(2,1,2); plot(B, 'r');    % plot B

M1 = A - 2*B;                  % mixing 1
M2 = 1.73*A+3.41*B;            % mixing 2
figure;
subplot(2,1,1); plot(M1);      % plot mixing 1
subplot(2,1,2); plot(M2, 'r'); % plot mixing 2

figure;
c = fastica([M1;M2]);              % compute and plot unminxing using fastICA	
subplot(1,2,1); plot(c(1,:));
subplot(1,2,2); plot(c(2,:));

独立成分分析(Independent Components Analysis)_第1张图片

然后我们将其线性混合,上面的为A - 2*B下面的为1.73*A+3.41*B

独立成分分析(Independent Components Analysis)_第2张图片

之后使用fastica函数,就将两个源分开了:

独立成分分析(Independent Components Analysis)_第3张图片

完整的工程在这里下载:http://research.ics.aalto.fi/ica/fastica/code/dlcode.html

当然,在真正使用ICA算法之前,通常要白噪声化数据,意思是删除掉数据中所有的相关性。一个几何的解释是,恢复数据最初的形状,然后ICA只是旋转结果矩阵(如下图),混合两个随机的源A和B,A是数据的横坐标,B是数据的纵坐标:

独立成分分析(Independent Components Analysis)_第4张图片

混合A和B

独立成分分析(Independent Components Analysis)_第5张图片

白噪声化:

独立成分分析(Independent Components Analysis)_第6张图片

现在每一个坐标轴上的方差都相等,数据在每一个坐标轴上的映射的相关系数为0,意味着协方差矩阵是对角矩阵,而且每一个值都相等。然后应用ICA算法将这些表达旋转到原始的A和B的坐标轴空间。然后通过最小化数据映射到每个坐标轴上的高斯性来实现旋转:

独立成分分析(Independent Components Analysis)_第7张图片

可以看出之前每个坐标轴都展现了很好的高斯性,旋转后高斯性最小:

独立成分分析(Independent Components Analysis)_第8张图片

代码如下:

POINTS = 1000; % number of points to plot

% define the two random variables
% -------------------------------
for i=1:POINTS
	A(i) = round(rand*99)-50;              % A
	B(i) = round(rand*99)-50;              % B
end;
figure; plot(A,B, '.');                        % plot the variables
set(gca, 'xlim', [-80 80], 'ylim', [-80 80]);  % redefines limits of the graph

% mix linearly these two variables
% --------------------------------
M1 = 0.54*A - 0.84*B;                          % mixing 1
M2 = 0.42*A + 0.27*B;                          % mixing 2
figure; plot(M1,M2, '.');                      % plot the mixing
set(gca, 'ylim', get(gca, 'xlim'));            % redefines limits of the graph

% withen the data
% ---------------
x = [M1;M2];
c=cov(x')		 % covariance
sq=inv(sqrtm(c));        % inverse of square root
mx=mean(x');             % mean
xx=x-mx'*ones(1,POINTS); % subtract the mean
xx=2*sq*xx;              
cov(xx')                 % the covariance is now a diagonal matrix
figure; plot(xx(1,:), xx(2,:), '.');

% show projections
% ----------------
figure; 
axes('position', [0.2 0.2 0.8 0.8]); plot(xx(1,:), xx(2,:), '.'); hold on;
axes('position', [0   0.2 0.2 0.8]); hist(xx(1,:));  set(gca, 'view', [90 90]);
axes('position', [0.2 0   0.8 0.2]); hist(xx(2,:));

% show projections
% ----------------
figure; 
axes('position', [0.2 0.2 0.8 0.8]); plot(A,B, '.'); hold on;
axes('position', [0   0.2 0.2 0.8]); hist(A);  set(gca, 'view', [90 90]);
axes('position', [0.2 0   0.8 0.2]); hist(B);

ICA算法有两个主要的应用问题,一个是股票市场的回报,一个是鸡尾酒晚会问题。

先看一个例子,四个信号的四个线性组合:

独立成分分析(Independent Components Analysis)_第9张图片

接下来是主成分分析的结果:

独立成分分析(Independent Components Analysis)_第10张图片

独立成分分析的结果:

独立成分分析(Independent Components Analysis)_第11张图片

ICA的流程:

首先,假设存在独立的源:

然后只观察他们的线性组合:

但是A和S都是未知的,A被称为混合矩阵

我们的目标是从Y(t)中恢复出原始的信号S(t),寻找一个矩阵L,为A的逆,有LY(t) = S(t)。

之后,摆脱掉相关性:白噪声化,应用一个线性变化N来取消掉相关性,同时规约化信号:(NY)TNY= I. 令Z = NY。当然,白噪声化变换并不是唯一的,其条件为:WTW = I → (WZ)T(WZ) = ZT(WTW)Z = ZTZ = I,主成分是白噪声信号的一个资源。

然后,解决高阶的依赖。找到一个旋转W使白噪声信号独立,也就是WZ的列相互独立。优化问题是,其中dep(M)衡量M的列的依赖性,当然WTW = I。

1.      非线性的去相关

通过白噪声化已经去相关:E[u v] = E[u] E[v],所以E[g(u) h(v)] = E[g(u)] E[h(v)],这些函数的性能取决于数据分布的迹的形状。dep(M)是E[ĝ ĥ]和E[ĝ] E[ĥ]的差。

2.      非高斯性

Y = AS,其中S的列是独立的,但是根据中心极限定理,他们加起来会表现出高斯性,而不混合的信号高斯性很低。

3.      非高斯性的衡量:峰态(Kurtosis)

独立成分分析(Independent Components Analysis)_第12张图片

当然还有以极大似然角度解读ICA算法的:

1.      Y = As  B = A-1


2.      寻找B最大化Y的似然性

3.      首先要有一个P的分布函数,通常使用sigmoid函数




你可能感兴趣的:(machine,learning)