基于IRIS(鸢尾花)数据集使用sklearn的特征工程练习

【环境】

Python 

需要载入sklearn


【IRIS数据集】

由Fisher在1936年整理,包含4个特征(Sepal.Length(花萼长度)、Sepal.Width(花萼宽度)、Petal.Length(花瓣长度)、Petal.Width(花瓣宽度)),特征值都为正浮点数,单位为厘米。目标值为鸢尾花的分类(Iris Setosa(山鸢尾)、Iris Versicolour(杂色鸢尾),Iris Virginica(维吉尼亚鸢尾))。


【练习步骤】

1. 首先载入IRIS的数据集,此数据集在sklearn内已经储存好。

from sklearn.datasets import load_iris #导入IRIS数据集 
iris = load_iris()  #特征矩阵 

其中iris.data 包含了四个特征值,iris.target为目标值。可以打印出来观察。

基于IRIS(鸢尾花)数据集使用sklearn的特征工程练习_第1张图片

基于IRIS(鸢尾花)数据集使用sklearn的特征工程练习_第2张图片


2. 数据预处理

选择归一化对数据进行无量纲化处理

from sklearn.preprocessing import Normalizer
Normalizer().fit_transform(iris.data)

基于IRIS(鸢尾花)数据集使用sklearn的特征工程练习_第3张图片



待续



参考网址:

http://mp.weixin.qq.com/s/_RiW7thoshRNbubONCqgPQ

你可能感兴趣的:(特征工程,sklearn)