说人话,搜代码,Facebook发布神经代码搜索数据集+benchmark

郭一璞 发自 中关村
量子位 报道 | 公众号 QbitAI

怎么才能方便的找自己需要的代码?

最好是能用人话来直接搜索、说什么就给什么那种。

Facebook刚刚发布了新benchmark和数据集,用于评估神经代码搜索模型。

说人话,搜代码,Facebook发布神经代码搜索数据集+benchmark_第1张图片

比如在去年滑铁卢大学、Facebook和UC伯克利的研究者发布的NCS模型,还有MIT、Facebook和UC伯克利发布的UNIF这个模型上,都可以运行。

在这类模型上,给到一个自然语言的query,比如:

How can I convert a stack trace to a string?

如何将栈追踪转化为字符串?”

代码搜索模型就会在整个语料库里搜索相关的代码片段。

因此,Facebook此次推出的数据集包含以下三个部分:

总共包含3个部分:

GitHub存储库

由GitHub上近24549个星数最高的Android库的代码片段组成的搜索语料库,包含Python脚本。

搜索语料库

依靠前面的24549个库,解析其中的方法主体,总共包括4,716,814个。给到自然语言query后,代码搜索模型从中搜索出需要的代码片段。

每个方法主体已经给到了包括它的ID、文件路径、起始行、结束行、url等在内的相关信息。

评估数据集

包含287个堆栈溢出问答对,包括其ID、问题、答案url、答案几个部分,这些问题来自Stack Exchange。

在NCS和UNIF两个模型和他们的变体上的运行结果如下:

说人话,搜代码,Facebook发布神经代码搜索数据集+benchmark_第2张图片

传送门

论文Neural Code Search Evaluation DatasetHongyu Li, Seohyun Kim, Satish Chandra

GitHub

NCS模型Retrieval on source code: a neural code searchSaksham Sachdev, Hongyu Li, Sifei Luan, Seohyun Kim, Koushik Sen, Satish Chandra

UNIF模型When Deep Learning Met Code SearchJose Cambronero, Hongyu Li, Seohyun Kim, Koushik Sen, Satish Chandra

大会启幕!预见智能科技新未来

量子位MEET 2020智能未来大会启幕,将携手优秀AI企业、杰出科研人员呈现一场高质量行业盛会!详情可点击图片:

榜单征集!三大奖项,锁定AI Top玩家

2019中国人工智能年度评选启幕,将评选领航企业、商业突破人物、最具创新力产品3大奖项,并于MEET 2020大会揭榜,欢迎优秀的AI公司扫码报名!

640?wx_fmt=jpeg
640?wx_fmt=jpeg

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 ! 

你可能感兴趣的:(说人话,搜代码,Facebook发布神经代码搜索数据集+benchmark)