数据降维:主成分分析算法(PCA)

数据降维概念

数据降维是在数据挖掘和信号处理任务中,对输入数据进行预处理的常用手段,其目的在于从高维的输入数据中找出能够代表数据特性、能够有利于分类的低维特征。

PCA(Principal Component Analysis)主成分分析 是最常用的降维方法:通过投影的方式,将高维数据映射到低维空间中,并保证在所投影的维度上,原数据的信息量最大,从而使用较少的数据维度,保留住较多的原始数据特性。

PCA基于两种思路进行优化:

1. 最大可分性:样本投影到低维的超平面后,能够尽量的分开。

超平面是指n维线性空间中维度为n-1的子空间

例子:将样本投影到M明显比投影到N的样本数据更加分散。

数据降维:主成分分析算法(PCA)_第1张图片

2. 最近重构性:样本到待投影的低维超平面的距离和要尽量的小。

例子:平面上的样本到M的距离和要比到N的距离小。

数据降维:主成分分析算法(PCA)_第2张图片

所以࿰

你可能感兴趣的:(算法,数据挖掘,机器学习)