python随机划分数据集五份_机器学习基础5 python Scikit-learn对数据集的划分 训练集和测试集...

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

def data_demo():

iris = load_iris()

# print('鸢尾花数据集:', iris)

# print('查看数据集描述:', iris.DESCR)

# print('查看鸢尾花的特征值:', iris.data)

# print('查看鸢尾花的目标值:', iris.target)

# print('查看特征值的名称:', iris.feature_names)

# print('查看目标值的名称:', iris.target_names)

# print('鸢尾花数据集格式:', iris.data.shape,)

# 数据集划分为

x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=0.2,random_state=22)

print('训练集的特征值:',x_train)

print('测试集的特征值:',x_test)

print('训练集的目标值:',y_train)

print('测试集的目标值:',y_test)

if __name__ == '__main__':

data_demo()

Scikit-Learn是用Python开发的机器学习库,其中包含大量机器学习算法、数据集,是数据挖掘方便的工具

数据集划分:sklearn.model_selection.train_test_split(*arrays, **options)

主要参数说明:

*arrays:可以是列表、numpy数组、scipy稀疏矩阵或pandas的数据框

test_size:可以为浮点、整数或None,默认为None

①若为浮点时,表示测试集占总样本的百分比

②若为整数时,表示测试样本样本数

③若为None时,test size自动设置成0.25

train_size:可以为浮点、整数或None,默认为None

①若为浮点时,表示训练集占总样本的百分比

②若为整数时,表示训练样本的样本数

③若为None时,train_size自动被设置成0.75

random_state:可以为整数、RandomState实例或None,默认为None

①若为None时,每次生成的数据都是随机,可能不一样

②若为整数时,每次生成的数据都相同

stratify:可以为类似数组或None

①若为None时,划分出来的测试集或训练集中,其类标签的比例也是随机的

②若不为None时,划分出来的测试集或训练集中,其类标签的比例同输入的数组中类标签的比例相同,可以用于处理不均衡的数据集

通过简单栗子看看各个参数的作用:

①test_size决定划分测试、训练集比例

本博客源码Github地址:

请随手给个star,谢谢!

你可能感兴趣的:(python随机划分数据集五份)