ValueError: Unknown label type: 'continuous'
What ??黑人问号脸??
百思不得其解。这是什么意思。百度无果,于是自己分析判断一下。
在我把全部数据的"instance_id"去重之后,这个问题消失了。
df.drop_duplicates('instance_id','first',True)
这是什么原因?? 于是我再往下看,下面我针对这个"instance_id"又做了一个“item_city_id”的one-hot处理,又用“instance_id”合并。
ont_hot_features = ['item_city_id']
ont_hot_list = df.loc[:,ont_hot_features + ['instance_id']]
ont_hot_list.loc[:,ont_hot_features] = ont_hot_list.loc[:,ont_hot_features].astype('str')
ont_hot_list = pd.get_dummies(ont_hot_list)
df = pd.merge(df,ont_hot_list,on='instance_id')
问题出现在merge这个函数和“instance_id”这个字段身上。
由于数据原因,instance_id 这个本该全局唯一的值在测试数据集和训练集上都有重复出现。所以在merge的时候,就算你指定了采用‘left’方式合并也会有笛卡尔积的重复。
所以我修改了下代码:
#需要ont-hot处理
ont_hot_features = ['item_city_id']
ont_hot_list = df.loc[:,ont_hot_features + ['instance_id']]
ont_hot_list.drop_duplicates('instance_id','first',True)
ont_hot_list.loc[:,ont_hot_features] = ont_hot_list.loc[:,ont_hot_features].astype('str')
ont_hot_list = pd.get_dummies(ont_hot_list)
df = pd.merge(df,ont_hot_list,'left',on='instance_id')
先对“instance_id”进行去重,再进行左边Join。这样便不会出现笛卡尔乘积的情况。
至于为什么 lightgbm 训练的时候会对这个情况报错,需要我再进一步研究。----------------------------------------------
后续:
搞明白了,因为在输入的训练label中带了None值。
原因是merge的时候,测试数据中的label为None,训练数据中的label为0或1,在两者merge的时候,测试数据混入到了训练数据中被送入模型训练,所以报错