划分数据集的方法

  1. train_split方法:
    1) 导入包:
    from sklearn.model_selection import
    train_test_split
    2)函数介绍:
    train_split(*arrays, test_size, train_size, random_state, shuffle, stratify)
    3)参数介绍:
    a. *arrays:
    b. test_size: 测试集占总数据集的比例,默认为0.25
    c. train_size: 训练集占总数据集的比例,默认为None,表示总体数据集除去测试集的部分
    d. random_state: (其他参数都相同时)只有设为1时,每次运行时划分的测试集与训练集都一样;设为0或不设置,每次划分的都不一样。
    e. shuffle:boolean类型,默认为True,表示在切割数据集之前是否要打乱数据。当shuffle=False时,stratify必须为None。
    f. stratify: 默认为None,当值不是None时,代表数据集会以一种分层的方式被切割。

  2. ShuffleSplit方法:
    1)导入包:
    from sklearn.model_selection import ShuffleSplit
    2)函数介绍: ShuffleSplit(n_splits=10,test_size=’default’, train_size=None, random_state=None)
    3)参数介绍:
    a. n_splits: 代表划分训练集、测试集的次数,默认为10
    b. test_size: 测试集占总数据集的比例,默认为0.1
    c. train_size: 训练集占总数据集的比例,默认为None,表示总体数据集除去测试集的部分
    d. random_state: (其他参数都相同时)只有设为1时,每次运行时划分的测试集与训练集都一样;设为0或不设置,每次划分的都不一样。
    4)举例说明:

 `rs = ShuffleSplit(n_splits=5, test_size=0.2, random_state=0)

n_splits=5代表5次,test_size=0.2代表5折,因此上述为5次5折交叉验证

你可能感兴趣的:(划分数据集的方法)