sklearn使用train_test_split函数遇到的问题

train_test_split引入使用方法

mark一下防止找不到

from sklearn.model_selection import train_test_split

问题1:

源代码:

train_x,test_x,train_y,test_y = train_test_split(x,y,0.2)

报错 信息如下

Singleton array array(0.2) cannot be considered a valid collection.

解决方案:这个问题得从源代码入手:通过查看train_test_split的源代码,我们可以知道这个函数的函数头是train_test_split(*arrays, **options),arrays是需要进行切割的数据,而options是切割数据时的一些配置。如果按照上面的写法,那么这个函数就会把0.2(虽然这里的本意是 验证集的比例为0.2)当作是第一个参数(*arrays)的其中一个,解决方案就是写清楚 test_size = 0.2
即:

train_x,test_x,train_y,test_y = train_test_split(x,y,test_size = 0.2)

问题2:

源代码:

train_x,test_x,train_y,test_y = train_test_split(x,y,test_size = 0.2)

报错

With n_samples=0, test_size=0.2 and train_size=None, the resulting train set will be emp

解决方案:从报错信息中可以得知,n_samples=0,这意味着需要划分的数据为0,也就是函数中的x,y出问题了,x或y中的一者并没有数据。这个时候可以检查一下,读取数据的地址是不是写错了(出现这个问题基本上可以锁定是数据没读出进去的问题)

你可能感兴趣的:(sklearn使用train_test_split函数遇到的问题)