Sklearn学习笔记-概述+数据预处理

目录

前言

一、鸢尾花(iris)数据集

1.导入并加载数据集  

2.一些基本命令

3.将数据集转为数据框

二、波士顿房价数据集

1.导入并加载数据集

2.一些基本命令

3.将数据集转为数据框

三、手写数字数据集

1.导入并加载数据集

2.一些基本命令

四、sklearn"三板斧“



前言

这个学期我们开始学习数据挖掘了,准备在csdn上记录一些学习笔记。

实验课是从sklearn数据库开始的。第一次实验课,以鸢尾花(iris)数据集和波士顿房价数据集以及手写数字数据集为例,学习了一些基本概述和数据预处理的相关命令。

 

一、鸢尾花(iris)数据集

1.导入并加载数据集  

#导入iris库
from sklearn.datasets import load_iris
#加载iris数据库
iris = load_iris()
iris

输出结果如下:

 

2.一些基本命令

iris.keys()
#以字典的形式返回
iris.filename
#数据集所在位置
print(iris.DESCR)
#对数据集的介绍
iris.target_names
#目标变量名
iris.feature_names
#列名称
iris.data
#等价于iris['data']

3.将数据集转为数据框

#转为数据框
import pandas as pd
iris_df = pd.DataFrame(iris.data,columns = iris.feature_names)
iris_df

结果如下:

Sklearn学习笔记-概述+数据预处理_第1张图片

 

#增加数据框的列
iris_df['class']= iris.target
iris_df

结果如下:

Sklearn学习笔记-概述+数据预处理_第2张图片

 

二、波士顿房价数据集

1.导入并加载数据集

from sklearn import datasets
boston = datasets.load_boston()
boston

结果如下:

Sklearn学习笔记-概述+数据预处理_第3张图片

 

2.一些基本命令

 

boston.keys()
#以字典的形式返回
boston.filename
#数据集所在位置
print(boston.DESCR)
#对数据集的介绍
boston.target_names
#目标变量名
boston.feature_names
#列名称
boston.data
#等价于iris['data']

3.将数据集转为数据框

 
import pandas as pd
boston_df = pd.DataFrame(boston.data,columns = boston.feature_names)
boston_df.head(20)

结果如下:

Sklearn学习笔记-概述+数据预处理_第4张图片 

 


三、手写数字数据集

手写数字数据集包括1797个数字数据,每个数字由8 * 8的矩阵组成

1.导入并加载数据集

from sklearn.datasets import load_digits
digit=load_digits()
digit

结果如下(部分):

Sklearn学习笔记-概述+数据预处理_第5张图片

 

2.一些基本命令

digit.keys()

结果:

digit.images.shape

 结果:

 

digit.images[0]

结果:Sklearn学习笔记-概述+数据预处理_第6张图片

 

digit.target[1700]

结果:

%matplotlib inline
import matplotlib.pyplot as plt
plt.matshow(digit.images[1700])

 结果:

Sklearn学习笔记-概述+数据预处理_第7张图片

digit.data

 结果:

Sklearn学习笔记-概述+数据预处理_第8张图片

四、sklearn"三板斧“

实例化-->fit(训练)-->transforms or predict(转化/预测)

from sklearn import preprocessing#预处理
std = preprocessing.StandardScaler()#实例化
std.fit(boston.data)

结果:

#期望
std.mean_

 结果:

 

#方差
std.var_

结果:

std.transform(boston.data)#转化

 结果:

Sklearn学习笔记-概述+数据预处理_第9张图片

 

#合二为一
std.fit_transform(boston.data)

结果:Sklearn学习笔记-概述+数据预处理_第10张图片

 

你可能感兴趣的:(SK-Learn学习笔记,数据挖掘,python)