机器学习:train_test_split()拆分的略微不足之处!

  把训练集train拆分成训练集 X_train, X_test, Y_train, Y_testd的时候,常常会用到这个方法——train_test_split

  X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.1, random_state = 0)

  但是这个方法有一点不妥之处。

  如果使用了这个方法去填充模型。model.fit(X_train,Y_train)

  再使用model.predict()去预测结果,

  那么会产生偏差(bias)。

  原因很简单,因为没有使用全部数据X,Y去fit()

  当然,这也仅仅是略微不足之处,当你的数据集很大的时候,细微的拆分与不拆分,没有太大的影响!

 

你可能感兴趣的:(sklearn)