【机器学习】sklearn中的数据集划分方法(一行代码划分训练集测试集)

文章目录

    • 1 导包
    • 2 API介绍
    • 3 示例一
      • 3.1 构造数据
      • 3.2 数据划分
    • 4 示例二(鸢尾花数据集实战)
      • 4.1 数据准备
      • 4.2 查看数据
      • 4.3 数据划分

1 导包

from sklearn.model_selection import train_test_split

2 API介绍

klearn.model_selection.train_test_split(arrays, *options)

参数:

  • x 数据集的特征值
  • y 数据集的标签值
  • test_size 测试集的大小,一般为float
  • random_state 随机数种子,不同的种子会造成不同的随机采样结果。相同的种子采样结果相同。

返回

  • 训练集特征,训练集特征值,训练标签,测试标签 (默认随机取)

3 示例一

3.1 构造数据

特征值和标签

feature_data = [[1,3,4],[1,3,4],[1,5,2],[1,5,8]]
label_data = [1,3,2,4]

3.2 数据划分

将数据按3:1划分为训练集和测试集,划分后其特征和标签按顺序自动对应

x_train, x_test, y_train, y_test = train_test_split(feature_data, label_data,test_size=0.25)

测试:

print(x_train)
print(y_train)
[[1, 5, 2], [1, 3, 4], [1, 5, 8]]
[2, 1, 4]

该API同样支持numpy类型数据

4 示例二(鸢尾花数据集实战)

4.1 数据准备

from sklearn.datasets import load_iris  # 导入鸢尾花数据
iris = load_iris() # 字典类型的数据集

4.2 查看数据

查看数据

print(iris.keys()) # 查看key值

输出

dict_keys(['data', 'target', 'target_names', 'DESCR', 'feature_names'])

查看特征值data

print(iris['data'])

输出:

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
  ....
 [6.5 3.  5.2 2. ]
 [6.2 3.4 5.4 2.3]
 [5.9 3.  5.1 1.8]]

共有150条数据

4.3 数据划分

# 训练集的特征值x_train 测试集的特征值x_test 训练集的目标值y_train 测试集的目标值y_test,指定测试集所占的比例为20%
x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, random_state=22,test_size=0.2)
print("x_train:\n", x_train.shape)
print("x_test:\n",x_test.shape)

输出shape:

x_train:
 (120, 4)
x_test:
 (30, 4)

你可能感兴趣的:(Python,机器学习与深度学习,python,机器学习,scikit-learn)