机器学习实战ByMatlab(二)PCA算法


【原创】Liu_LongPo 转载请注明出处
【CSDN】http://blog.csdn.net/llp1992

PCA 算法也叫主成分分析(principal components analysis),主要是用于数据降维的。

为什么要进行数据降维?因为实际情况中我们的训练数据会存在特征过多或者是特征累赘的问题,比如:

  • 一个关于汽车的样本数据,一个特征是”km/h的最大速度特征“,另一个是”英里每小时“的最大速度特征,很显然这两个特征具有很强的相关性
  • 拿到一个样本,特征非常多,样本缺很少,这样的数据用回归去你和将非常困难,很容易导致过度拟合

PCA算法就是用来解决这种问题的,其核心思想就是将 n 维特征映射到 k 维上(k < n),这 k 维是全新的正交特征。我们将这 k 维成为主元,是重新构造出来的 k 维特征,而不是简单地从 n 维特征中取出其余 n-k 维特征。

PCA 的计算过程

假设我们得到 2 维数据如下:


机器学习实战ByMatlab(二)PCA算法_第1张图片

其中行代表样例,列代表特征,这里有10个样例,每个样例有2个特征,我们假设这两个特征是具有较强的相关性,需要我们对其进行降维的。

你可能感兴趣的:(计算机视觉,Machine,Learning,机器学习原理及实战,pca)