超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第3期《智源社区周刊:预训练模型》,从论文推荐、研究动态、热点讨论等几个维度推荐最近一周内发生在预训练模型领域值得关注的信息。
本期贡献者:亓宗帅 常政
论文推荐
随着预训练技术逐渐成熟,越来越多的研究转向预训练技术的现实应用。本期推荐五篇预训练相关论文,具体方向分别是Image Caption、语音识别、程序语言表示、多模态预训练数据集、预训练模型评估。
标题:VisualGPT: Data-efficient Image Captioning by Balancing Visual Input and Linguistic Knowledge from Pretraining(VisualGPT:在Image Captioning中用预训练来平衡视觉和语言知识,提高数据效率)
简介:本文提出VisualGPT,致力于利用大规模预训练语言模型来提高Image Caption任务的数据使用效率。
点击这里阅读详细内容
标题:Generating Human Readable Transcript for Automatic Speech Recognition with Pre-trained Language Model(语音识别中利用预训练语言模型生成人类可读文本)
简介:本文利用预训练模型增强语音识别的准确性,将RoBERT引入到语音识别当中,显著提高了WER和BLEU值。
点击这里阅读详细内容
标题:GraphCodeBERT: Pre-training Code Representations with Data Flow(GraphCodeBERT:预训练的数据流代码表示,ICLR 2021)
简介:本文提出GraphCodeBERT,一个考虑了结构信息的编程语言预训练模型,利用结构信息后显著增加了模型的性能。
点击这里阅读详细内容
标题:Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts(Conceptual 12M:大规模图文预训练数据集用于识别长尾视觉概念)
简介:本文发布了大型数据集Conceptual 12M (CC12M),1200万个图像文本数据对用于vision-and-language模型的训练。
点击这里阅读详细内容
标题:LogME: Practical Assessment of Pre-trained Models for Transfer Learning(LogME:通用快速准确的预训练模型评估方法)
简介:本文提出了一种名为LogME的方法,能极大地加速预训练模型选择的过程,将衡量单个预训练模型的时间从50个小时减少到一分钟。
点击这里阅读详细内容
研究动态
智源x清华开源FastMoE,万亿AI模型基石
智源研究院和清华大学联合发布首个支持PyTorch框架的高性能MoE系统:FastMoE ,相比直接使用PyTorch实现的版本,提速47倍。
点击这里阅读详细内容
英国机构发起世界最大图灵测试,测试GPT-3能否通过
项目由 AiCore 发起,要测试 OpenAI的 GPT-3 是否能通过。实验将在3月25日举行。
点击这里阅读详细内容
OpenAI 放出 DALL-E 的部分论文与实现代码
OpenAI 图像版 GPT-3、120 亿参数的 DALL-E 前日刷屏社区,模型可以将自然语言形式概念转换为图像,效果惊艳。近日,OpenAI放出了DALL-E 的部分论文和代码
点击这里阅读详细内容
加州大学伯克利分校等研究员提出针对GPT-3等语言模型的偏差修正
最近一项由加州大学伯克利分校、加州大学欧文分校和马里兰大学的科学家合作完成的研究发现,语言模型,尤其是GPT-3的准确性,在没有校准的情况下可能是高度不稳定的:训练样本、甚至训练样本的顺序都会影响模型的准确性。为了缓解这种情况,研究人员首先通过输入无内容的虚拟输入(如“N/A”)来估计模型对答案的偏向,接着拟合校准函数,使得该输入的预测在各个答案中保持一致,通过“校准”输出分布来抵消这些偏差。
点击这里阅读详细内容
阿里发布千亿参数规模AI模型M6,可设计30多种物品高清图像
3月2日,阿里巴巴与清华大学联合发布业界最大的中文多模态预训练AI模型M6,该模型参数规模超千亿,同时具备文本、图像的理解和生成能力。以图像生成为例,模型可设计包括服饰、鞋类、家具、首饰、书籍等在内的30多个物品类别的图像,最短一分钟即可完成作品的创作,效率超越普通设计师。
点击这里阅读详细内容
热点讨论
OpenAI的GPT-3说话了,请听!
有1750亿参数的超级语言模型GPT-3自发布以来广受关注,很多问题逐渐暴露——消极的语言、有害的偏见等,那么GPT-3的开发者OpenAI对此有何对策呢?
点击这里阅读详细内容
10个重要问题概览Transformer全部内容
本文用10个主要问题的一篇文章搞定有关transformer的知识和工程方面的“全部”内容。
点击这里阅读详细内容
如果你正在从事或关注预训练模型研究、实现与应用,欢迎加入“智源社区-模型预训练-交流群”。在这里,你可以:
* 学习前沿知识、求解疑难困惑
* 分享经验心得、展示风貌才华
* 参与专属活动、结识研究伙伴
获取更多预训练相关信息,欢迎前往智源社区【预训练专区】