OpenAI Codex、DeepMind AlphaCode论文精读阅读笔记

Codex:
基于GPT的语言模型,用Github上的代码进行微调(有意思的是GPT的卖点就是不用微调)。
模型没怎么改动,主要精力在于准备预训练数据和微调数据集(微调数据集应尽可能和你要进行评估的任务相近)上
目标函数的分数不采用常见的BLUE分数因为相同的子序列多并不意味着写出的代码就有效,因此作者团队自己设计了一个pass@K,即每个词采样softmax分数总和0.95的输出,在这些词里面每次随机采样,最后看生成的答案能否通过测试,若以100次采样中有1次能通过测试则算成功,准确度能达到接近80%。

AlphaCode:
流程与Codex接近,用预训练和微调训练一个transformer模型(带完整的编码器和解码器,编码器适合长序列时双向理解文章),最后结果比Codex要好一点,在编程竞赛上能打败54%的人。
预训练数据也是在github上爬的,比Codex大了5倍,微调数据集采用的是CodeContest
编码器和解码器非对称设计,由目标任务进行归纳偏置。
中间有很多trick

准确度线性增加,数据集和模型参数指数级增长

你可能感兴趣的:(机器学习,算法)