每天五分钟机器学习:使用降维算法可以完成高维数据的压缩表示

本文重点

前面我们学习了第一种无监督学习算法k-means,本章我们将学习另外一种无监督算法,称为降维算法。降维可以数据压缩,因而使用较少的计算机内存空间,也加快学习算法的运行。

降维

现在有一个数据集,这个数据集中每个样本有多个特征,为了能够可视化,我们只显示其中的两个特征,一个特征是x1表示物体的长度,单位是厘米,另外一个特征x2也表示物体的长度,单位是英寸,那么我们可以认为特征x1和特征x2表示的是一个意思,所以这是一个非常冗余的数据,所以这两个特征我们应该只保留一个即可。

每天五分钟机器学习:使用降维算法可以完成高维数据的压缩表示_第1张图片

 

保留一个特征,这个需要降维,那么从二维降到一维意味着什么呢?

每天五分钟机器学习:使用降维算法可以完成高维数据的压缩表示_第2张图片

 

如图所示,降维的意思是希望找到这样的一条直线,将所有样本映射到这条线上,这样我们就可以测量这条线上每个样本的位置,我们想把这个新特征叫做z1,z1你能够表示样本在这条线上每个点的位置。

这样新特征z1就表示了对原始训练样本(特征x1、x2)的近似,这是因为我把所有的训练样本都映射到了这条直线上,这样我们就减少了一半的内存需求。上面我们演示的是将二维降维到一维,那么从三维降维到二维是一个什么样的过程呢ÿ

你可能感兴趣的:(每天五分钟玩转机器学习算法,机器学习,算法,人工智能,聚类,均值算法)