NASA MDP数据集

本文内容来自于对论文《Data Quality: Some Comments on the NASA Software Defect Datasets》内容的整理,如果转载请说明。

文章目录

      • 1、论文简述
      • 2、预处理的步骤
      • 3、数据集下载地址
      • 4、参考资料

1、论文简述

论文是defect prediction方向相关论文引用率特别高的一篇,最近在找公共数据集,就读了下,论文的基本信息可以参考 [ 1 ] [1] [1]

在这篇论文出现之前,缺陷预测公共数据集使用次数最多的就是NASA Metrics Data Program(MDP),有两个比较大的版本:

  1. NASA提供的最原始的版本;
  2. Promise Data Repository维护的一个版本;

我们都清楚机器学习大多数情况下是数据驱动的,数据的质量或者很小的一个改动都会对最终结果产生很大的影响。为了能保证研究结果可复制,把整个方向的研究成果串联起来,Shepperd就对源数据集进行了一部分数据预处理,产生了两个版本的数据集。

2、预处理的步骤

算法过程比较长,我直接截图过来,然后补充部分说明。
NASA MDP数据集_第1张图片
预处理分两大步:

  1. 3-24行处理实例(Cases),对应于上图的step1-step5(内容就不翻译了);
  2. 25-32行处理特征(Features),删除具有常量和相同值的特征,对应于上图的step6和step7;

原文中也说了预处理的策略和结果:

  • The preprocessing strategy is that first the problem data (e.g., cases with either conflicting feature values or implausible values) are discarded, and then the data, which are not problematic but do not help improve the defect prediction (e.g., the features with constant values and either identical or inconsistent cases), are removed. This results in data set DS being transformed to DS’ and DS’’, respectively.

数据集根据这两大步出来了两个版本:DS’ and DS’’。

3、数据集下载地址

https://github.com/klainfo/NASADefectDataset

NASA MDP数据集_第2张图片
NASA MDP数据集_第3张图片
两个版本的数据都是有的。

4、参考资料

[ 1 ] [1] [1]Shepperd M , Song Q , Sun Z , et al. Data Quality: Some Comments on the NASA Software Defect Datasets[J]. IEEE Transactions on Software Engineering, 2013, 39(9):1208-1215.
[ 2 ] [2] [2]NASA MDP数据集

你可能感兴趣的:(机器学习,机器学习,算法)