sklearn 中的train_test_split函数

语法:

  train_test_split(*arrays, **options)

类型:

  sklearn.model_selection._split 中的函数,分离数组或者矩阵到随机的训练和测试子集。

  快捷实用程序,该程序封装输入验证,该程序调用一个单个的分离操作(可选择二选抽样)

  在用户指南中读取更多

输入参数

  • 参数名:*arrays
  • 类型:sequence of indexables with same length / shape[0],相同长度/形状的可索引的序列[0]
  • 说明:输入是列表、numpy数组、scipy 的稀疏矩阵或pandas的dataframes。

  • 参数名:test_size
  • 类型:float, int, None, optional
  • 说明:如果是浮点数,应该是0.0到1.0之间,代表测试集在整个数据集中所占比例。如果是int型,代表测试集中样本的绝对数量。如果是None,这个值会被设定为和何训练集的大小相同。默认情况下,这个值是0.25,默认值在版本0.21中可以更改。如果训练集大小没有指定,继续维持0.25,否则它将使用指定的训练集大小补充。

  • 参数名:train_size
  • 类型: float, int, or None, default None
  • 说明:如果是浮点数,应该是0.0到1.0之间,代表测试集在整个数据集中所占比例。如果是int型,代表训练集中样本的绝对数量。如果是None,它将使用指定的测试集的大小补充。




  • 参数名:random_state
  • 类型: int, RandomState instance or None, optional (default=None)
  • 说明:如果int, random_state是随机数生成器使用的种子;如果随机状态实例,random_state是随机数发生器;如果没有,随机数生成器就是np.random使用的随机状态实例。

  • 参数名:shuffle
  • 类型:boolean, optional (default=True)
  • 说明:是否在拆分前对数据进行洗牌。如果shuffle=False,那么分层必须为None。

  • 参数名:stratify
  • 类型:array-like or None (default is None)
  • 说明:如果不是没有,数据会以分层的方式进行划分,使用这个作为类标签。

输出参数:

  • 参数名:splitting
  • 类型:list, length=2 * len(arrays)
  • 说明:包含输入的训练测试分离的列表。

  版本 0.16更新: 如果输入是稀疏的,输出将是一个 scipy.sparse.csr_matrix.否则,输出类型将和输入类型相同

示例:

>>> import numpy as np
>>> from sklearn.model_selection import train_test_split
>>> X, y = np.arange(10).reshape((5, 2)), range(5)
>>> X
array([[0, 1],
       [2, 3],
       [4, 5],
       [6, 7],
       [8, 9]])
>>> list(y)
[0, 1, 2, 3, 4]
>>> X_train, X_test, y_train, y_test = train_test_split(
...     X, y, test_size=0.33, random_state=42)
...
>>> X_train
array([[4, 5],
       [0, 1],
       [6, 7]])
>>> y_train
[2, 0, 3]
>>> X_test
array([[2, 3],
       [8, 9]])
>>> y_test
[1, 4]
>>> train_test_split(y, shuffle=False)
[[0, 1, 2], [3, 4]]

你可能感兴趣的:(机器学习,python编程)