PCA 总结
从个人角度,即图像处理的角度来总结,并不适用所有学科的理解。
一: motivation(目标):1 去掉冗余维度
(维度也就是指feature, attribute,)
所谓冗余特征,比如我想用一堆特征表示人,用以下三个特征来描述一个人
[年龄, 身高(m), 身高(cm)]
35 1.71 171
26 1.86 186
20 1.68 168
56 1.70 170
.. .....................................................
在本例中很明显,第二个feature(维度)和第三feature(维度)并不是全部需要的,这就是所谓的冗余feature(维度),冗余feature一方面浪费空间,尤其在大规模问题中;另一方面,会对随后的任务造成干扰。有人肯会说,这很明显就能看出来,在一开始选的时候就不会同时选身高(m),身高(cm)这两个feature来用。问题是对于输入是一幅图片的neutral network,所谓feature也就是图片的每一个pixel。对于一幅100*100的图片,展开成列向量也就是10000, 你还能一眼看出哪一个是不必要的feature?总之在我们观测高维数据的时候,为了观测的“大而全”,以及我们这些“低维”生物面对高维数据的局限性,引入冗余在所难免。而且图像具有局部自相似性,必然有大量冗余,去冗余在图像识别等应用中,使用很广。
2 去掉噪声维度(噪声feature)
所谓的噪声feature,见下面这个例子
Figure 1 弹簧球,不关注其初始位置,初始状态
现在我想描述这个弹簧球的运动,如果一切条件都是理想的,我们清楚的知道它只会在水平线上运动(这个也就是弹簧球运动的feature),可是我们并不总是对所要观察的事物有着非常清楚的认识,情况也不可能是理想的。现在我们通过摄像机的记录来推测弹簧球的运动(也就是通过摄像机的记录来描述弹簧球的feature)。
我们用每秒100张的摄像机对其进行拍照,记录它在一内秒钟的各位置,我们知道理想情况下是这样
Figure 2 理想情况下,1秒钟拍摄的100张图片,弹簧球在每一张图片中的位置
对于这样的运动位置,每一个点用一个1维数据(仅横坐标)描述就行了,
可是实际上假设桌面坑坑洼洼(实际上不仅如此,有更多的干扰因素),则会造成下面的运动情况
Figure 3 实际情况下,1秒钟拍摄的100张图片,弹簧球在每一张图片中的位置
对此,我们对于每个运动位置不得不用一个2维向量(横纵坐标)来表示,实际上弹簧球只在水平运动,但由于噪声(坑坑洼洼等)的干扰,增加了对于样本的描述(i.e.相对于理想情况多了1个特征)。噪声feature(维度)由此产生。对于更多维度,比如那些高达上万维(i.e.上万个feature)的数据,其引入的噪声feature(维度)可能更多...
总结 :PCA的目的通过统计特性(即通过多个样本)更好的表示每一个样本
二 Assumptions/Limitation
待续..