机器学习中的数据泄露(Data Leakage)

机器学习中的数据泄露(Data Leakage)_第1张图片
在 Kaggle竞赛中出现过奇怪的现象:一只队伍,靠着对极个别特征feature的充分利用(被称为魔法属性),立即将对手超越,成功霸占冠军位置。然而,这可能是竞赛方数据准备过程中出现的失误,使模型沿着有纰漏的,甚至是颠倒的因果关系进行预测,但在测试数据中得到预测结果是极好的。

1.什么是机器学习中的 Data Leakage ?

数据泄漏Data Leakage是在数据分析中需要解决的重要问题之一。

这里的Data Leakage 跟其他场合说的数据泄漏完全不一样,简单来说,数据泄漏会导致模型看起来很精确,当你开始使用模型在真实的世界中做决策的时候,模型变得非常不准确。

数据中存在倒“因”为“果”的feature的现象,叫数据竞赛中的Data Leakage。

此外,还有一种数据泄露叫做:Leaky Validation Strategies.

当处理训练数据和验证数据不合理时,会发生一种截然不同的泄漏类型。例如,如果在调用train_test_split之前运行预处理(比如为丢失的值拟合填充),就会发生这种情况。

Validation 是一种度量模型,用来以前没有见过的数据来评估模型的性能。例如,如果规范化或标准化整个数据集,然后使用交叉验证评估模型的性能,那么就产生了数据泄漏的问题。

2.案例解释

例如,假设你想预测谁会患肺炎。原始数据的前几行可能如下所示:
机器学习中的数据泄露(Data Leakage)_第2张图片
人们在患肺炎(got_pneumonia)后服用抗生素药物(took_antibiotic_medicine)以恢复健康,所以原始数据显示了这些列之间的强关系,但是这个特征feature-是否服用抗生素很难说是病人患肺炎的原因,不能说服用了抗生素而导致患肺炎。

是否服用抗生素这个feature而更像是一个标记,当然与病人是否患肺炎极度相关,根据这样的feature训练出来的模型,肯定能够得到很好的预测结果,但对实际了解患肺炎的原因,没有一点帮助。

3.总结及Tips

没有标准的解决方案可以普遍地防止漏泄预测,它需要对数据进行充分的分析,深入了解探索你的数据。

一般来说,数据漏泄预测因子(特征属性)往往与目标具有很高的相关性。在实际机器学习建模时候,有两点可以关注下:

  • 为了查找可能的Data Leakage,要统计分析与目标target相关的列;
  • 如果你建立一个模型并发现它非常精确,可能有一个数据泄漏问题;
  • 在交叉验证折叠中使用原始没进过预处理的数据;
  • 使用Pipelines。比如: scikit-learn Pipelines;
  • 使用Holdout Dataset。在使用模型之前,保留一个未使用过的的验证数据集作为对模型的最终健全性检查。

你可能感兴趣的:(Machine,Learning)