2015_ICSE_Learning to Log: Helping Developers Make Informed Logging Decisions

yes,不想说太多,读完这篇文章给我一个感觉,这个是要去评icse best paper的节奏吧。思路清晰,严谨,细节到位,工作有意义充分。

思路简单粗暴,将Machine Learning的方法应用到Software Engineering的tasks中,经过数据集收集,(特征提取),特征选择,训练,测试等。可ML到SE中的套路一般不这么走又如何走呢。关键是,做的工作有意义,本身也创新。本文我觉得工作就做的很好。

我要赞美的是,这又是一个比较好的做一整个完整的研究然后陆续围绕着这个课题根据研究的深入研究成果逐渐发表出来的好例子,就像之前看文章提到的将生物和SE交叉起来研究各种metric的应用一个整体一样。我很欣赏这样的,我也希望我将来能做整体的有意义的研究,并逐渐把它研究透彻。该解决的技术问题解决掉,该做出来的东西搞出来。这就是我的希望。

话说回来,本文致力于研究coder在代码中将相应的key runtime info log下来的log行为。雄心壮志是能通过已有的log数据和unlog数据来预测提出suggestive infomation给developer 告诉他where to log and what to log。当前文章是致力于搞定where to log,what to log估计是要做出来投下一年的icse吧,好可怕。当然,这里where to log并不是指出来说具体去哪儿log,按照一个trick,其实就是对你给定的一段code snippet,它给出need to log还是not log这样的分类lable而已,这就彻底转化成了classification 问题了。做起来思路简单,拿到一些已有的log 和unlog instances,抽取出features,训练测试。那这里,作者没有关注所有的log的instances,而是只关注了2类重要的instances,一类是exception,一类是return value-check。然后,features提取的各个都比较给力,有source code本身当文本特征的,code的语法和语义特征的(文章中有个图很清楚的描述了这些特征),文章对大量的特征还做了个基本的词频过滤最后用了IG来做特征选择,用了各种分类算法分别在微软的2个project和几个开源项目上做测试,效果后。最后将其模型搞成了一个log adviser的工具,通过一个study case,很有效的证实了其工具的有效性。

整体来说,我觉得这篇文章很赞!

以上!

zou@Home

2015-07-19

你可能感兴趣的:(2015_ICSE_Learning to Log: Helping Developers Make Informed Logging Decisions)