pandas训练集测试集划分_用pandas划分数据集实现训练集和测试集

1、使用model_select子模块中的train_test_split函数进行划分

数据:使用kaggle上Titanic数据集

划分方法:随机划分

# 导入pandas模块,sklearn中model_select模块

import pandas as pd

from sklearn.model_select import train_test_split

# 读取数据

data = pd.read_csv('.../titanic_dataset/train.csv')

# 将特征划分到 X 中,标签划分到 Y 中

x = data.iloc[:, 2:]

y = data.loc['Survived']

# 使用train_test_split函数划分数据集(训练集占75%,测试集占25%)

x_train, x_test, y_train,y_test = train_test_split(x, y, test_size=0.25, ramdon_state=0)

缺点:1、数据浪费严重,只对部分数据进行了验证

2、容易过拟合

2、k折交叉验证(kfold)

原理:将数据集划分成n个不相交的子集,每次选择其中一个作为测试集,剩余n-1个子集作为            训练集,共生成 n 组数据

使用方法:sklearn.model_select.KFold(n_splits=5,shuffle=False,random_state=0)

参数说明:

你可能感兴趣的:(pandas训练集测试集划分)