机器学习之路2

sklearn数据集

首先安装sklearn:

pip install Scikit-learn

在pycharm中导入sklearn:

import sklearn

可以使用sklearn.datasets.load_来导入规模较小的数据集,并且其返回值的类型是datasets.base.Bunch(字典格式)

使用sklearn来加载鸢尾花的数据集

#导入鸢尾花的数据集
from sklearn.datasets import load_iris
def datasets_demo():
    #获取数据集
    iris = load_iris()
    #查看鸢尾花数据集
    print("鸢尾花数据集:\n",iris)
    print("鸢尾花数据集描述:\n", iris['DESCR'])
    print("查看数据集特征值的名字:\n", iris.feature_names)
    print('查看特征值:\n',iris.data,iris.data.shape)

数据集的划分

机器学习一般的数据集会划分为两个部分:

训练数据:用于训练,构建模型。

测试数据:在模型检验时使用,用于评估模型是否有效。

划分比例:(一般情况下)

训练集:70%---80%

测试集:30%---20%

划分API:

sklearn.model_selection.train_test_split

划分鸢尾花数据集

def datasets_demo():
    #获取数据集
    iris = load_iris()
    #数据集的划分(训练集和测试集的划分)
    #参数依次是:特征值,目标值,测试集的范围(测试集占数据集的多少),随机数种子
    #返回值的顺序:训练集的特征值,测试集的特征值,训练集的目标值,测试集的目标值
    x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)
    print('训练集的特征值:\n',x_train,x_train.shape)
    return None

机器学习之路2_第1张图片

 可以看到原数据集的大小事150*4

经过划分之后训练集的大小是

机器学习之路2_第2张图片

 训练集的大小是120*4

即150*0.2=30

30*4大小的数据集被划分成了测试集

你可能感兴趣的:(python,机器学习,人工智能)