机器学习实战——数据探索之数据泄露(Data Leakage)

1、什么是数据泄露

数据科学的中的数据泄露(Data Leakage)和其他场合涉及信息安全的数据泄漏不一样,是指一些feature不是在因果关系上顺利释预测值的‘因’,而是预测值的‘果’,存在和利用这种因果倒置的feature的现象,叫数据竞赛中的Data Leakage。

Data Leakage 基本都是竞赛主办方在准备数据或者数据采样的时候出了问题,误将与结果直接相关或存在颠倒因果关系的feature纳入了数据集。这样的纰漏,比较难以发现。

 

2、数据泄露的案例

Data Leakage 在数据科学竞赛中时常发生。比如这样一个案例:

在男性前列腺癌数据中,有个feature叫PROSSUG,代表着这个患者是否接受过前列腺的手术,这个feature很难说是病人患前列腺癌的‘原因’,而更像是一个标记,当然与病人是否患有前列腺癌极度相关。依靠着这样的feature训练出来的模型,肯定能够得到很好的预测结果,但对实际了解男性前列腺癌的成因,没有一点帮助。

 

3、如何探索数据泄露

在实际竞赛中,我们首先要对数据进行探索,观察是否存在数据泄露并处理。可以从两方面考虑:

(1) 训练集和提交的测试集中是否出现了重复的id;

(2) 训练集和提交的测试集中是否出现了除id不同,其他特征都一样的情况。

你可能感兴趣的:(ML&DM,机器学习笔记)