主成分分析(PCA)在Iris数据集上的应用

一、什么是PCA
PCA是一种用于提取数据集中的模式的统计技术,它做的就是转换数据集以识别隐藏的关系,相似性或差异,然后可以在其输出上进行降维,数据压缩或特征提取。不过它更为人所熟知的是降维。

那么我们为什么要降维,降维不是意味着数据信息的丢失吗?此言不假,但是在机器学习领域,多数情况下我们遇到的数据集都是有大量特征的,动辄十几条甚至是几十条特征。这种情况下,如果不做处理就直接将数据“喂给”机器学习算法的话,很有可能会造成维度灾难。这样机器学习算法就会失效。所以,降维技术就进入了人们的视线。这篇文章将会来谈一谈PCA算法的工作流程以及基于Python的简单实现,涉及到数学证明的部分很少。

二、PCA的工作流程
PCA的基本流程可以分为下面五个步骤:

读入数据
计算数据的协方差矩阵(covariance matrix of data)
计算协方差矩阵上的特征值和特征向量(eigenvalues and eigenvectors)
选择主要成分(principal components)
从所选成分构造新的特征数据集
三、关于鸢尾花(Iris)数据集
本次实验将要在著名的鸢尾花(Iris)数据集上进行测试,如果对于这个数据集比较陌生,可以看看这个教程,对于鸢尾花数据集的剖析不可谓不深刻。不过我还是简单说说这个数据集,如图所示主成分分析(PCA)在Iris数据集上的应用_第1张图片
这个数据集有1个标签Species和4个特征(花的类型)。所以,这个数据是四维数据。
四、使用Python进行实验
导入数据

from sklearn import datasets
import numpy

你可能感兴趣的:(主成分分析(PCA)在Iris数据集上的应用)