首页 > AI前沿 > 正文

说人话,搜代码,Facebook发布神经代码搜索数据集+benchmark 传送门

转载 2019-10-04 0 10

怎么才能方便的找自己需要的代码?

最好是能用人话来直接搜索、说什么就给什么那种。

Facebook刚刚发布了新benchmark和数据集,用于评估神经代码搜索模型。

说人话,搜代码,Facebook发布神经代码搜索数据集+benchmark

比如在去年滑铁卢大学、Facebook和UC伯克利的研究者发布的NCS模型,还有MIT、Facebook和UC伯克利发布的UNIF这个模型上,都可以运行。

在这类模型上,给到一个自然语言的query,比如:

代码搜索模型就会在整个语料库里搜索相关的代码片段。

因此,Facebook此次推出的数据集包含以下三个部分:

总共包含3个部分:

GitHub存储库

由GitHub上近24549个星数最高的Android库的代码片段组成的搜索语料库,包含Python脚本。

搜索语料库

依靠前面的24549个库,解析其中的方法主体,总共包括4,716,814个。给到自然语言query后,代码搜索模型从中搜索出需要的代码片段。

每个方法主体已经给到了包括它的ID、文件路径、起始行、结束行、url等在内的相关信息。

评估数据集

包含287个堆栈溢出问答对,包括其ID、问题、答案url、答案几个部分,这些问题来自Stack Exchange。

在NCS和UNIF两个模型和他们的变体上的运行结果如下:

说人话,搜代码,Facebook发布神经代码搜索数据集+benchmark

论文

Neural Code Search Evaluation Dataset

Hongyu Li, Seohyun Kim, Satish Chandra

https://arxiv.org/abs/1908.09804

GitHub

https://github.com/facebookresearch/Neural-Code-Search-Evaluation-Dataset

NCS模型

Retrieval on source code: a neural code search

Saksham Sachdev, Hongyu Li, Sifei Luan, Seohyun Kim, Koushik Sen, Satish Chandra

https://dl.acm.org/citation.cfm?id=3211353

UNIF模型

When Deep Learning Met Code Search

Jose Cambronero, Hongyu Li, Seohyun Kim, Koushik Sen, Satish Chandra

https://arxiv.org/abs/1905.03813

版权所有,未经授权不得以任何形式转载及使用,违者必究。

相关文章


  • 北大计算机直博第五年,我选择退学,没有硕士学位
  • 谷歌花35元就“骗”走刷脸数据:黑人为主,霸王条款无限使用,为强化新手机能力 5美元“买”走脸面 新机Pixel 4谍照曝光,浴霸三摄
  • 微软这次发布会巨硬:安卓折叠手机、双屏电脑,还有无线耳机和超薄平板
  • 北大电池新研究登上Nature:3万次循环测试,性能衰减不到30%,大幅提高锂空电池性能
  • UC伯克利最新深度强化学习课程上线,视频已上传到B站
  • 丁磊旗下首个IPO的AI业务!网易有道年入7个亿,清华96计算机系为主力,沈向洋任董事 网易有道做什么? 网易有道赚钱能力? 未来靠什么赚钱? 网易有道核心技术? 谁打造了网易有道?
  • 商汤再挖MSRA大将:R-FCN作者代季峰加盟任执行研究总监 代季峰其人 从MSRA离开的大牛们
  • TensorFlow 2.0凌晨发布!“改变一切,力压PyTorch”