超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了《智源社区周刊:预训练模型》,从研究动态、行业资讯、热点讨论等几个维度推荐最近一周内发生在预训练模型领域值得关注的信息。
本期贡献者:
亓宗帅 李卓然 常政
研究动态
我们从生成式预训练、多模态预训练、图神经网络预训练、知识图谱预训练、模型改进、医学影像预训练这几个方面,向大家推荐6篇值得一读的最新预训练论文。
标题:Learning Contextual Representations for Semantic Parsing with Generation-Augmented Pre-Training(生成式预训练|基于生成增强预训练的语义分析上下文表示学习,AAAI 2021)
简介:本文提出了生成预训练模型(GAP),利用生成模型来生成预训练数据,用以联合学习自然语言话语和模式表示。
点击这里阅读详细内容
标题:Learning Spatiotemporal Features via Video and Text Pair Discrimination(多模态预训练|通过视频-文本对匹配的视频预训练模型,ICLR 2021)
简介:本文提出的CPD模型借助contrastive learning的思想预测视频和文本的匹配关系,对视频网络进行预训练。
点击这里阅读详细内容
标题:CheXtransfer: Performance and Parameter Efficiency of ImageNet Models for Chest X-Ray Interpretation(医学影像预训练|ImageNet上预训练的模型,是否真能更好地用于医学影像任务?)
简介:吴恩达团队通过在大型胸片数据集 CheXpert 上比较多种模型架构,发现无论模型是否经过预训练,基于 ImageNet 的体系结构改进的性能提升,和 CheXpert 性能之间并无明显关系。
点击这里阅读详细内容
标题:BANG: Bridging Autoregressive and Non-autoregressive Generation with Large Scale Pretraining(预训练模型改进|微软亚研院提出预训练模型BANG:兼顾自回归与非自回归模型)
简介:BANG 在大规模预训练中,通过考虑遮盖任意长度的前文来沟通自回归和非自回归生成。
点击这里阅读详细内容
标题:Learning to Pre-train Graph Neural Networks(图神经网络预训练|学习预训练图神经网络,AAAI 2021)
简介:本文分析了预训练和微调之间的差异,并为了缓解这种分歧,作者提出了一种用于GNNs的自监督预训练策略L2P-GNN。
点击这里阅读详细内容
标题:Billion-scale Pre-trained E-commerce Product Knowledge Graph Model(知识图谱预训练 |大规模知识图谱预训练及电商应用)
简介:介绍了浙江大学阿里巴巴知识引擎联合实验室在结构化知识预训练及电商领域应用方面的工作。将“预训练和微调”的思想应用到了大规模商品知识图谱的表示学习与业务应用中。
点击这里阅读详细内容
行业资讯
快手落地业界首个万亿参数推荐精排模型
快手近日宣布他们研发出了业界首个万亿参数推荐精排模型,参数量超过 1.9 万亿,规模相对于Google今日发布的Switch Transformer更大,且已经投入实践。
点击这里阅读详细内容
这里预告一个好消息,春节后,智源社区将邀请快手推荐算法负责人宋洋博士做一场报告分享,和大家交流预训练大模型的相关技术和应用等话题。具体时间、地点敬请留意智源社区的通知。
AAAI 2021 最佳论文出炉,Transformer成为热门
2月4日,人工智能顶会 AAAI 2021以在线虚拟的形式拉开序幕,开幕式上公布了最佳论文、最佳学生s论文等奖项。有多篇最佳论文的研究都在围绕Transformer和预训练开展。
点击这里阅读详细内容
在三篇最佳论文奖中,其中一篇由来自北京航空航天大学的周号益等人获得,论文提出了Transformer的改进 Informer,点击这里阅读该论文的解读:点击这里阅读该论文解读。
此前,在智源社区的AAAI 2021中国预讲会上,周号益同学也对自己的论文进行了汇报预讲,我们也保存了相应的线上展示Poster,有需要的同学可以下载。
Poster地址:https://baai.org/l/zhyPDF
PPT地址:https://baai.org/l/zhyPPT
热点讨论
OpenAI亲谈:我们眼中的GPT-3、大规模语言模型的局限性与出路在哪
近日,OpenAI公布了一篇新论文,内容是对一个GPT-3研讨会的总结。大致来讲,本次研讨会围绕两个主要问题:
大型语言模型的能力和局限性是什么?讨论涉及几个关键领域,包括:规模型对模型功能的巨大影响;评估大型语言模型是否真正理解语言的困难;在多种数据模态下训练模型的重要性;以及使模型目标与人类价值观相一致的挑战。
被广泛使用的大型语言模型的社会影响是什么?讨论涉及了几个关键领域,包括:难以确定通用语言模型的所有可能使用(或滥用)场景;机构在模型部署中可能面临的挑战;模型在算法层面上泄露信息的潜在可能;减少模型偏见(例如:种族、性别、宗教信仰等)存在的阻碍;以及基于语言模型的自动化应用对劳动力市场的影响。
点击这里阅读详细内容
垂直领域出海,多语言预训练好使吗?
腾讯游戏知几AI团队近日的一篇对多语言预训练的技术分析,受到广泛关注和转载,文中详述了他们团队如何通过预训练的方式来解决多语的问题。
点击这里阅读详细内容
如果你正在从事或关注预训练模型研究、实现与应用,欢迎加入“智源社区-模型预训练-交流群”。在这里,你可以:
* 学习前沿知识、求解疑难困惑
* 分享经验心得、展示风貌才华
* 参与专属活动、结识研究伙伴
获取更多预训练相关信息,欢迎前往智源社区【预训练专区】