数据集划分函数sklearn.model_selection.train_test_split参数详解

该函数可以随机划分样本数据为训练集和测试集,并返回划分好的训练集和测试集数据。

sklearn.model_selection.train_test_split(train_data,train_target,test_size=0.3,random_state=5)

参数详解:

  • train_data:待划分样本数据
  • train_target:待划分样本数据的结果,与train_data一一对应
  • test_size:可以为浮点、整数或None,默认为None
    浮点数表示测试数据占总样本的比例;整数表示测试样本的样本数量;
    若为None时,test size自动设置成0.25 test_size决定划分测试、训练集比例
  • random_state:设置随机数种子
    在其它参数相同的情况下,同一个随机数得到的随机数组一样
    若为0或None或不填,则每次得到数据都不一样
  • stratify:可以处理数据不平衡问题
    stratify=train_target时,每次划分后,测试集和训练集中的标签比例同原始的样本中标签的比例相同。假设原始样本中标签A和标签B的比例为1:5,测试集和训练集中标签A和标签B的比例都为1:5

你可能感兴趣的:(数据分析,数据分析)