机器学习实战(一)sklearn常用工具介绍

写在前面:
花了大力气学了很多的理论,也用Python实现了其中大部分的算法.接下来开始就进入实战阶段了.
实战阶段有三个重点:

1.选择合适的机器学习框架来减轻负担
2.怎么把实际的问题抽闲成为机器学习的问题
3.理论和实践切换

接下来的过程中,会经常性的使用scikit-learn和pandas等等工具来把理论部分的算法都过一遍.然后讲讲算法在实践中的作用.

一.scikit-learn自带数据集

scikit-learn自身带了一些数据集,这些数据集通常比较简单常见的.这些数据集可能还做不到足以模拟解决现实生活中的问题.但是用来作为学习或者测试机器学习的工具还是非常有作用的.这里只小小的介绍一下常用的数据集.其他的可以参考文档:5. Dataset loading utilities

Ⅰ.load_boston

载入和返回波士顿房价的数据集(回归问题常用).
数据集信息:

样本数:506
维度:13
特征类型:正实数

sklearn.datasets.load_boston(return_X_y=False)

参数:
return_X_y : 布尔值,默认为False,如果是True的话,返回(data, target)代替Bunch对象.

返回值:
Bunch对象.类似于字典的对象.其中的属性有:‘data’, the data to learn, ‘target’, the regression targets, and ‘DESCR’, the full description of the dataset.
或者是(data, target) :当return_X_y设为True的时候.

例子:

from sklearn.datasets import load_boston
boston=load_boston()
print("type of boston",type(boston))
print("data of boston:",boston.data.shape)
print("target of boston:",boston.target.shape)

结果:
这里写图片描述

Ⅱ.load_iris

载入和返回的鸢尾植物信息的数据集(分类问题常用).
数据集信息:

样本数:150(每个类别50个样本)
维度:4
类别:3类
特征类型:正实数

然后其他的载入方式什么的都和之前的boston房价是差不多的,可以类比使用.
列子:

from sklearn.datasets import load_iris

iris=load_iris()
print("type of iris:",type(iris))
print("data shape of iris:",iris.data.shape)
print("target of iris",iris.target)
print("target names:",iris.target_names)

结果:
机器学习实战(一)sklearn常用工具介绍_第1张图片

Ⅲ.load_diabetes
Ⅳ.load_digits
Ⅴ.load_linnerud

你可能感兴趣的:(机器学习应用)