半监督训练-思想与代码实践

以IEEE-CIS-Fraud-Detection比赛为例

半监督训练思想:

test集没有标签,咋办呢?

train集先建立一个model,Score要求在0.95以上;

把该model预测得到的test的标签值isFraud赋值给test.

这样,test集的isFraud就有了类别标签,上述的这种打标签的方式,称为"伪标签"。

 

然后,把train和打了"伪标签的test集纵向拼接在一起,训练一个新的model.

用这个新的model去预测test集,这样预测的结果,会让你在LB上的效果有一定的提升,

当然,别指望提升几个百分点, 提升几个千分点、万分点还是有可能的。

 

代码如下(可能会需要16G内存以上的电脑才能跑):

https://github.com/appleyuchi/TPU_GPU_Code/blob/master/伪标签法.ipynb

 

 

你可能感兴趣的:(Kaggle-数据挖掘与技巧)