X_train,X_test,y_train,y_test有什么区别?

感谢这两篇博客:

https://www.jianshu.com/p/075877ace8c3

https://blog.csdn.net/jiushinayang/article/details/81098186

看着这一行代码

 X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2,random_state=0)

我心生疑惑,这究竟代表什么含义?

现在我基本弄懂了,特记录下来。

train_test_split()是sklearn包的model_selection模块中提供的随机划分训练集和测试集的函数;使用train_test_split函数可以将原始数据集按照一定比例划分训练集和测试集对模型进行训练

x,y是原始的数据集。X_train,y_train 是原始数据集划分出来作为训练模型的,fit模型的时候用。

X_test,y_test 这部分的数据不参与模型的训练,而是用于评价训练出来的模型好坏,score评分的时候用。

test_size=0.2 测试集的划分比例。如果为浮点型,则在0.0-1.0之间,代表测试集的比例;如果为整数型,则为测试集样本的绝对数量;如果没有,则为训练集的补充。 

random_state:是随机数的种子。固定随机种子时,同样的代码,得到的训练集数据相同。不固定随机种子时,同样的代码,得到的训练集数据不同。

 

 

你可能感兴趣的:(Yuの十万个为什么)