No.06
智源社区
预训练组
预
训
练
研究
观点
资源
活动
关于周刊
超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第6期《预训练周刊》,从论文推荐、研究动态等维度推荐近期发生在预训练模型领域值得关注的信息。
本期周刊,我们选择了7篇预训练相关的论文,涉及迁移学习、手写文本生成、庞加莱空间映射、Deepfakes检测、蛋白质语言模型和蛋白序列生成的探索。此外,在研究动态方面,我们选择了5篇预训练资讯,将介绍海量多模态的数据、会话应用、NLP工具包、人脸复原和鲁棒性测评等方面的一些最新内容。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
论文推荐
标题:Efficient transfer learning for NLP with ELECTRA(使用ELECTRA进行NLP的高效迁移学习)了解详情
简介:尽管有细微的差别,但我的结果与最初的ELECTRA的实现类似。与两种实现的原始论文相比,仅需14M的参数,ELECTRA-Small的性能就胜于其他产品,在绝对性能方面,采用以前的一些SOTA(例如GPT)或其他方法进行的并发预训练方法,使用知识提炼的有效方法,例如DistilBERT。考虑到计算成本,ELECTRA明显优于包括BERT和TinyBERT在内的所有比较方法。因此,这项工作支持声称ELECTRA在低资源条件下,可以在计算成本方面实现高水平的性能。此外,生成器容量比(ELECTRA的作者)Clark等人的建议要高,且判别器可以由于无法区分输入是否为伪造而崩溃。因此,尽管ELECTRA比GAN更容易训练,它似乎对生成器和判别器之间的容量分配很敏感。
代码地址:https://github.com/cccwam/rc2020_electra
论文地址:https://arxiv.org/pdf/2104.02756.pdf
标题:Handwriting Transformers(手写变换器)了解详情
简介:我们提出了一种新颖的基于变换器的样式化手写文本图像生成方法,即HWT,该方法致力于学习样式内容纠缠以及全球和本地书写样式模式。所提出的HWT通过自注意力机制捕获样式示例内的长距离和短距离关系,从而对全局样式样式和局部样式样式进行编码。此外,所提出的基于变换器的HWT包括编码器-解码器注意力,其通过收集每个查询字符的样式表示来实现样式-内容纠缠。据我们所知,我们是第一个引入用于样式化手写文本生成的基于变换器的生成网络。我们提出的HWT生成逼真的样式的手写文本图像,并且通过广泛的定性,定量和基于人的评估,大大优于最新技术。提出的HWT可以在少样本情况下处理任意长度的文本和任何所需的书写样式。此外,我们的HWT可以很好地推广到具有挑战性的场景,即在训练期间未出现的单词和书写风格,从而生成逼真的样式的手写文本图像。
代码地址:https://github.com/ankanbhunia/Handwriting-Transformers
论文地址:https://arxiv.org/pdf/2104.03964.pdf
标题:ICLR2021|PROBING BERT IN HYPERBOLIC SPACES(在双曲线空间中探索BERT)了解详情
简介:最近,提出了各种探测任务,以发现在上下文单词嵌入中学习的语言属性。其中许多文章含蓄地假设这些嵌入位于某些公制空间,通常是欧几里德空间。本文考虑了几何特殊空间(双曲空间)系列,这些空间对层次结构表现出更好的归纳性偏差,并可能更好地揭示在上下文表示中编码的语言层次结构。我们引入了一个 Poincare(庞加莱) 探头,一个结构探头,将这些嵌入投射到具有明确定义的层次结构的庞加莱子空间中。我们专注于两个探索目标:(a) 将等级定义为头部依赖结构的依赖性树;(b) 将等级定义为词的极性(积极和消极)的词汇情绪。我们认为,探测器的一个关键缺点是它对语言结构存在的敏感性。我们将探针应用于 BERT,这是一个典型的上下文嵌入模型。在语法子空间中,我们的探测器比欧几里德探测器更好地恢复树结构,揭示了BERT语法的几何学不一定是欧几里德的可能性。在情绪子空间中,我们揭示了正面和负面情绪的两种可能元嵌入,并展示了词汇控制的上下文化将如何改变嵌入的几何定位。我们通过广泛的实验和可视化来演示我们的庞加莱探测器的发现。
代码地址:https://github.com/FranxYao/PoincareProbe
论文地址:https://arxiv.org/pdf/2104.03869.pdf
标题:Improving the Efficiency and Robustness of Deepfakes Detection through Precise Geometric Features(通过精确的几何特征提高Deepfakes检测的效率和稳健性)了解详情
简介:Deepfakes 是恶意技术的一个分支,将目标面移植到视频中的原始技术,导致严重问题,如侵犯版权、信息混乱,甚至公众恐慌。之前的 Deepfakes 视频检测工作主要侧重于外观功能,这些功能有被复杂操作绕过的风险,也导致模型复杂性和对噪音的敏感性。此外,如何挖掘纵视频的时间特征并加以利用仍然是一个悬而未决的问题。我们提出了一个高效而强大的框架,名为LRNet,用于通过精确几何特征的时空建模来检测 Deepfakes 视频。设计了一种新型校准模块,以提高几何特征的精度,使其更具辨别性,并构建了双流循环神经网络,以充分利用时间特征。与以前的方法相比,我们建议的方法模型更轻,训练更方便。此外,我们的方法在检测高度压缩或噪声损坏的视频方面表现出了稳健性。我们的模型在FaceForensics++数据集上实现了0.999的AUC。同时,当面对高度压缩的视频时,它的表现(-0.042 AUC)有一个优雅的下降。
论文地址:https://arxiv.org/pdf/2104.04480.pdf
标题:MSA Transformer了解详情
简介:在数百万不同蛋白质序列上训练的无监督蛋白语言模型可以学习蛋白质的结构和功能,迄今为止来自研究组的蛋白质语言模型已经可以做到从序列训练进行推理。而计算生物学中长期以来的方法是通过对每个蛋白家族独立拟合一个模型,从进化相关的家族序列中进行任务判断。本文将这两种范式结合起来,引入了一个以MSA(多重序列比对)的形式将一组蛋白序列作为输入的蛋白质语言模型。该模型在输入序列上交错进行行列attention,在众多蛋白质家族中使用MLM(掩码语言模型)的变体进行训练。该模型的性能远远超过了当前最先进的无监督结构学习方法,参数效率远高于之前最先进的蛋白质语言模型。
代码地址:https://github.com/facebookresearch/esm
论文地址:https://www.biorxiv.org/content/10.1101/2021.02.12.430858v1.full
标题:M-Evolve: Structural-Mapping-Based Data Augmentation for Graph Classification(基于结构映射的图分类数据增强)了解详情
简介:图分类任务旨在识别图形的类别标签,该任务在药物分类、毒性检测、蛋白质分析等方面发挥着重要作用。然而,由于基准数据集的规模限制,图分类模型很容易陷入过度拟合和泛化不足的局面。为了改善这种情况,本文引入了对图的数据增强,即图增强,并提出了四种方法:随机映射、顶点相似度映射、motif-随机映射和motif-相似度映射,通过对图结构的启发式转换,为小规模的基准数据集生成更多的弱标签数据。此外,作者提出了一个通用的模型进化框架,命名为M-Evolve。该框架结合预训练,图增强、数据过滤和模型重训练来优化预训练的图分类器。在6个分子,蛋白,脑科学相关的基准数据集上的实验表明,M-Evolve框架可以帮助现有的图分类模型在小规模基准数据集上缓解训练中的过度拟合和泛化问题,并成功地使模型平均精度提高了3 - 13%。
论文地址:https://arxiv.org/abs/2007.05700v4
标题:Protein sequence design with deep generative models(通过深度生成模型进行蛋白序列设计)了解详情
简介:蛋白质工程的目的是识别发现具有更优性质的蛋白质序列,在机器学习的指导下,蛋白序列生成方法可以借鉴先验知识和实验迭代来改进这一过程。本文讨论了深度生成模型在蛋白工程中的三种应用:将学习到的蛋白序列表征和预训练模型用于下游学习任务;使用生成模型生成蛋白质序列;对生成模型进行定向优化,使生成的蛋白质序列在某性质上的概率提升实现富集。上述这些方法将与实验验证生成序列的研究相结合并最终形成迭代。此外,作者还对蛋白序列的常见深度生成模型进行了概述,包括VAE,GAN和其他自回归模型等。
论文地址:https://arxiv.org/pdf/2104.04457v1.pdf
研究动态
标题:华为|从海量多模态的数据中高效地进行知识提取,实现行业AI的关键突破了解详情
简介:智能世界离不开AI, AI应用碎片性与AI的可信问题不可回避。AI模型的通用性是解决应用碎片性的关键。通过大量无标注的数据和更大的模型,从全监督到自监督,构建通用的AI系统,这是当前需要突破的方向。其次,把AI与科学计算交汇,这也为AI应用走出碎片提供了大用场。AI为科学计算带来了新思路、新方法、新工具,而科学计算的严谨体系也有助于提升AI的可解释性。可信AI,是我们长期追求的目标。特别是人命关天的关键领域,如无人驾驶,必须解决从相关性到因果性的难题。
标题:Got It AI|使用变换器和大规模的预训练语言模型构建NLP和会话式AI应用了解详情
简介:变换器席卷了AI研究和产品社区。我们已经看到他们在AI的多个领域取得了进步,例如自然语言处理(NLP),计算机视觉和机器人技术。作者介绍了基于对话的AI,NLP和基于变换器的大规模语言模型(例如BERT和GPT-3)的一些背景知识,和有关流行应用程序以及如何构建NLP应用程序的一些示例。
标题:俄勒冈大学推出:基于“号称是最先进的预训练语言模型”的轻量级NLP工具包--Trankit了解详情
简介:俄勒冈大学推出:最新轻量级多语言NLP工具集Trankit发布1.0版本 。Trankit基于Transformer,性能已超越之前的热门同类项目斯坦福Stanza:中文处理更精准,内存占用小45% ;Trankit支持多达56种语言,除了简体和繁体中文以外,还支持文言文。
标题:CVPR2021 | GAN人脸预训练模型,让五官复原效果惊艳!
了解详情
简介:人脸复原 (Face Restoration) 是指从低质量的人脸中复原得到高清的人脸。真实世界中的人脸复原是一个很有挑战的任务,因为降质 (degradation) 过程复杂且不尽相同。来自腾讯 PCG 应用研究中心 (ARC) 的研究者们提出了利用预先训练好的人脸生成模型提供的先验,来指导人脸复原的任务。
标题:模型鲁棒性好不好,复旦大学20余人历时九个月的一键式评测平台TextFlint会告诉你!了解详情
简介:复旦大学自然语言处理实验室发布模型鲁棒性评测平台 TextFlint。该平台涵盖 12 项 NLP 任务,囊括 80 余种数据变形方法,花费超 2 万 GPU 小时,进行了 6.7 万余次实验,验证约 100 种模型,选取约 10 万条变形后数据进行了语言合理性和语法正确性人工评测,为模型鲁棒性评测及提升提供了一站式解决方案。
如果你正在从事或关注预训练学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)