吴恩达机器学习入门——降维

[吴恩达机器学习入门——降维] 降维的作用有两个:一是进行数据压缩、二是可视化。

  • 数据压缩
  • 可视化
  • PCA
    • PCA算法
  • 压缩重现

降维的作用有两个:一是进行数据压缩、二是可视化。

数据压缩

吴恩达机器学习入门——降维_第1张图片
如上图的每个不同颜色的点,本来他们在坐标轴的表示方法都是二维的,现在如果我们找到图中的绿色线,我们可以直接用1维的坐标表示。
吴恩达机器学习入门——降维_第2张图片
同样对于多维数据,比如上图的3D数据,我们找到一个平面曲面的函数,就能直接用二维来表示。

可视化

吴恩达机器学习入门——降维_第3张图片
对于上面这些受到多维参数影响的问题,我们很难直接进行图形绘制。如果进行降维,从多维到二维,就可以更好了理解,如下面两图。
吴恩达机器学习入门——降维_第4张图片
吴恩达机器学习入门——降维_第5张图片

PCA

吴恩达机器学习入门——降维_第6张图片
对于图中的数据,PCA就是找出一个低维平面,然后对数据进行投影,使得每个数据点到该平面的距离最小。 另外PCA与线性回归是不一样的。

PCA算法

首先对数据进行均一化处理,然后计算出协方差函数,
吴恩达机器学习入门——降维_第7张图片
这一步可以用到matlab自带的SVD函数,它的结果U是n*n的向量,我们取前k个向量,这k个向量就是投影数据的方向。
吴恩达机器学习入门——降维_第8张图片
然后取U的前k维向量,并与特征向量x相乘等到降维的z。

压缩重现

压缩重现是降维的逆过程。
吴恩达机器学习入门——降维_第9张图片
重现:Xapprox=Ureduce*z,并且重现的Xapprox近似于x。
pca算法可以加速学习算法的速度,具体操作如下:
1.从训练集中提取输入值x,得到无标签的关于x的训练集,接着进行降维,从而得到新的训练集,该新的训练集就可以用于神经网络、回归算法等。
吴恩达机器学习入门——降维_第10张图片
pca应用于:吴恩达机器学习入门——降维_第11张图片
另外还要注意一个错误的应用:通过PCA算法,我们实现了降维,特征集的个数也减少了,就有人认为PCA算法是防止过拟合的方法。
吴恩达机器学习入门——降维_第12张图片
最后,在设计一个学习算法过程中,我们不会一开始就使用PCA算法,除非原始数据不让你满意的情况下使用。

你可能感兴趣的:(机器学习)