pca与ica学习与理解

本文是在学习后的理解,将数学和原理进行的总结。


pca阅读资料来自http://blog.jobbole.com/109015/

主成分分析(Principal Component Analysis,PCA)

最近复习了线性回归,在概率论书中讲解两个变量之间的关系,变量x和y是否有关系?当然书里设x是一个变量,y是一个随机变量,并且假设y是服从正太分布的。那么假设他们线性相关的话,他们的关系必然是y=ax+b。因此是一条直线,说明他们相关。但是由于y是一个随机变量,它有随机性,因此数据点应该是一个椭圆形。图的话就是阅读资料里的图。

现在想一下假如他们没关系的话他们的图会是什么样子?比如x和y都无关,他们都是0到1之间的均匀分布,因此是在一个正方形内的均匀分布的点。

假如x和y都是变量而不是随机变量,他们是否相关的话,相关肯定就是成一条直线。当然也不能这么说,我觉得这里应该利用线性无关这一说法,或者用物理学里面的自由度。也就是说给我们3维的点,假如其中x和y线性相关,那么我只需要x和z就可以表示这些点,根本不需要y了。


接下来的问题是我们如何找到某一个方向是最优的,让所有向量投影到我这个方向上,得到的向量值是最大的。

那么我就首先假设这些点都是向量,然后有一个单位向量是r,r的方向c是最好的角度。求这个单位向量的做法是求最大值呗:

a1点乘r+a2点乘r+a3点乘r+。。。+an点乘r=T

什么是点乘?请阅读高等数学下空间解析几何那一章。

当然如果是向量的长度那肯定加一个范数(平方)。那么T就是一个最小二乘的公式了,当然这里我们不是求T的最小值,要求他的最大值,因此什么梯度下降或者牛顿都行,当然资料里用了矩阵轮里的知识,反正就是求最大值了。

基本上算法的思想就是这样。


具体算法过程与思想2

一堆数据构成一个表,每一行是一个案例,每一列是某一属性。在有三个属性时是三维空间的一堆向量,找一个方向进行投影,投影后的得到的向量的长度即是一个新的维度。因此一个投影方向紧能得到一个维度。

根据https://blog.csdn.net/cxmscb/article/details/66473130

中的推导,假如原数据有3个属性,那么我们可以找到三个方向,利用这三个方向可以完全表达原数据而不丢失任何信息。这种方向也可以称为线性空间的一组基向量,有很多个。我们认为投影后方差最大的方向即是最好的,经过文中推倒得到一个公式来求最优方向,即是求期特征向量与特征值。3个属性会得到3个投影方向,投影后得到3个维度,我们要降维的话那就只采用里面重要程度比较大的几个。基本原理就是这样。






————————————————————————————————————————————————————

ica独立成分分析(independent component analysis)


相互独立和不相关:首先这两个概念理解时不要与自然语言里的独立和相关进行联系。他们的定义我参考浙江大学概率论与数理统计里的定义是:

协方差cov(X,Y)=0表示独立;相关系数deta=cov(X,Y)/(方差X乘以方差Y);deta=1表示线性相关,0表示不相关,0到1表示有点相关。

很自然若协方差是0那么deta肯定0,因此独立推出不相关。书中109页说明相关系数是表示线性相关程度的量。举出一个例子,X和Y的关系是二次平方关系,但是deta却等于0,说明它们不相关却独立。所以此相关不是咱们理解的不相关,而是线性相关。

给定m个不是高斯分布的随机变量s的线性组合x,欲求s。s就是m个不是高斯分布的信号,x是他们的线性组合。这个问题是一个无穷多解的问题,具体参考https://wenku.baidu.com/view/ad0973b94028915f804dc2aa.html

其实神经网络也是一个无穷多解的问题,但是我们找到一个最好的解,比如我这个解与所有待分类的点平均距离最大,因为如果想找到可以分类所有点的平面,那有无穷多个,而最好的只有一个。

因此解决这个问题的切入点就是,概率论中有一个李雅普诺夫定理,说无穷多个随机变量加到一起就是高斯分布,因此我让x变回s,并且变回去以后s是最不是高斯分布的。

这就转化为一个求极值的问题,找到一个矩阵乘以x然后得到的新矩阵让他最不是高斯分布。

而目标函数(代价函数)就是形容这个矩阵到底有多不是高斯分布,假如这个代价函数是T,然后以W为参数我们最大话T就可以得到最后的解。当然具体计算需要把以上概念转化成数学公式,具体公式请看参考资料。









你可能感兴趣的:(神经网络技术)