code2vec相关文献总结

code2vec相关文献总结_第1张图片

AI for test基本都有涉及到源代码的表示问题(如:将源代码转换为向量,使用向量进行聚类,针对聚类结果进行测试用例优先级排序),其中code2vec就是一种将代码转化为词向量的工具,详见code2vec介绍PPT。

因此,为了了解更多源代码及其表达方式的文献,使用工具connected papers绘制了和code2vec相关的文献脉络图,并了解各个文献的主要工作如下。

首先是code2vec的作者Alon发表的另外两篇相关文章:

  1. 《code2seq: Generating Sequences from Structured Representations of Code》:代码序列化模型。可提取代码片段的语法特征:预测方法名+使用一条自然语言描述代码片段。

  2. 《A general path-based representation for predicting program properties》:提出使用AST中的路径来表示程序,该方法是基于语法、自动提取的。

其次大多数相关文章都来自作者Allamanis:

     3. 《A Convolutional Attention Network for Extreme Summarization of Source Code》:提出一个注意力卷积神经网络,可应用于将源代码片段极端汇总为简短、描述性的函数名称摘要的问题。

     4. 《A Survey of Machine Learning for Big Code and Naturalness》

     5. 《Learning to Represent Programs with Graphs》:在以往研究基础上增加数据流和类型层级信息,使用DNN将源代码表示为图,图的边代表语法及语义关系。

     6. 《The adverse effects of code duplication in machine learning models of code》:代码重复对机器学习模型的影响。在重复代码语料库上测试出的性能指标远不如去重复语料库上的准确。

...

     7. 《Generative Code Modeling with Graphs》:提出模型,该模型使用图来表示生成输出的中间状态。

这里找到一篇对一系列代码表示方法归纳的博文,侵删:

论文笔记 | code representation(代码表示学习)系列_ttliu_kiwi的博客-CSDN博客_代码表示学习

 

你可能感兴趣的:(AI,FOR,TEST,软件测试,测试用例,dnn,深度学习)