2015_ICSE_The Impact of Mislabelling on the Performance and Interpretation of the Defect Prediction Models

私以为,这篇文章写得很好,包括很美观直观的图片,细节的描述以及各种为了完成试验使用的各种高大上的R语言的各种包,让我觉得很有吸引力。这里的吸引力,体现在,让我知道了R中很多现成的包可以用来做模型的建立,数据的分析等,比如boot,bigrf,scottKnott等等。估计漂亮的图形也是用R给画出来的。让我觉得有必要再去深入点学习R本身。

好了,言归正传,这篇文章探究的是issue report本身mislabel的情况。像做defecty prediction model,其performance会受到2方面的bias影响,一方面是issue reporter与source code file的link missing,另一方面是issue report本身可能并不是defect,它可能是feature request或者其他种类等。对于后者,前人研究,觉得issue report本身是random mislabeled,而本文作者,通过对已有知道哪些issue report是mislabel的数据集进行特征的抽取,建立了mislabeled issue report的prediction model,发现,其实它并不是random-exist的。这个就算是新发现了。

随后,作者通过实验验证mislabeled issue report对defect prediction model的performance的影响,发现其对precision影响不大,会影响到recall,如果将数据clean后,recall会更高些。

另外,作者还对是否使用clean数据进行实验,对model的influential factors进行了分析,发现top 1的factor基本是noisy robust的,rank 2 or 3的基本没有太大的说服力,影响会比较大,不是太能将其作为参考。

本文用到了JIRA来link issue report和source code file,好像这个工具很多人用啊。为了研究更有说服力,作者将missing rate太低的project给过滤掉了,然后又得挑知道哪些issue report是mislabelled的数据集,所以最后选择Jackrabbit和Lucene。

感觉本文有很多可以借鉴学习的地方。

PS:作者在做model的时候,分别只用了9个和10个metrics,私以为,尤其是对mislabeled issue report的prediction的时候,是不是将issue report本身的一些特征放进去会比较好些,文章中好像对issue本身,用到的就是comment的数目以及其reporter先前报告report的mislabelling比例。

that's all, thank you!

zou

2015-07-16

你可能感兴趣的:(2015_ICSE_The Impact of Mislabelling on the Performance and Interpretation of the Defect Prediction Models)