No.04
智源社区
预训练组
预
训
练
研究
观点
资源
活动
关于周刊
超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第4期《预训练周刊》,从论文推荐、研究动态、热点讨论等几个维度推荐近期发生在预训练模型领域值得关注的信息。
本期周刊,我们选择了5篇预训练相关的论文,涉及语音转文本、长文档和质效权衡、自监督预训练以及生物医学领域的探索。此外,在研究动态方面,我们将介绍中国首个超大规模智能模型系统——智源研究院“悟道1.0”,以及GPT-3在运营等方面的一些最新介绍。周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动预训练社群的分享、学习和交流活动。可以扫描文末的二维码加入预训练群。
(本期贡献者:申德周 翟珂 吴新刚)
论文推荐
标题:An Approach to Improve Robustness of NLP Systems against ASR Errors(提高 NLP 系统对 ASR 错误的稳健性的方法)了解详情
简介:支持语音的系统通常首先通过自动语音识别(ASR)模型将音频转换为文本,然后将文本馈送至下游自然语言处理(NLP)模块。ASR系统的错误可能会严重降低NLP模块的性能。因此,必须使它们能够有力地应对ASR错误。先前的工作已经表明,在培训过程中通过注入ASR噪声来使用数据增强方法来解决这个问题是有效的。在本文中,我们利用普遍存在的预先训练的语言模型,以ASR可验证的噪音生成培训样本。与以前的方法相比,我们的方法产生更符合真实世界错误分布的 ASR 噪声。关于口语翻译(SLT)和口语理解(SLU)的实验结果表明,我们的方法有效地提高了系统对 ASR 错误的稳健性,并在这两项任务上都取得了最先进的结果。
论文地址:https://arxiv.org/pdf/2103.13610
标题:Pretrained Transformers for Text Ranking: BERT and Beyond(文本排名的预训练变换器:BERT 与其延申)了解详情
简介:文本排名的目标是生成从语料库中检索的有序文本列表,以响应查询。虽然文本排名最常见的公式是搜索,但在许多自然语言处理应用程序中也能找到任务实例。本次调查概述了被称为变换器的神经网络架构的文本排名,其中 BERT 是最有名的例子。变换器和自我监督预训练的结合毫不夸张地彻底改变了自然语言处理(NLP)、信息检索(IR)等领域。在本次调查中,我们为希望更好地了解如何将变换器应用于文本排名问题的从业者和希望从事这一领域的工作的研究人员提供了现有工作的综合点。我们涵盖了广泛的现代技术,分为两个高级类别:变换器模型,在多阶段排名架构中执行重新排名,并学习密集的表示,试图直接执行排名。我们的调查有两个主题:处理长文档的技术,超越NLP中使用的典型逐句处理方法,以及解决有效性(结果质量)和效率(查询延迟)之间的权衡的技术。虽然变换器架构和预训练技术是最近的创新,但如何应用于文本排名的许多方面都相对了解,代表了成熟的技术。然而,仍有许多悬而未决的研究问题,因此,除了为文本排名奠定预训练变换器的基础外,本次调查还试图预测该领域的发展方向。
论文地址:https://arxiv.org/pdf/2010.06467
标题:VisualCheXbert: Addressing the Discrepancy Between Radiology Report Labels and Image Labels(解决放射科报告标签与影像标签不一致的问题)了解详情
简介:对于计算机视觉模型解释医疗图像而言,从放射科报告中自动提取医学条件信息至关重要。而放射科医生标注报告与放射科医生标注相应的胸部X射线图像存在显著的分歧,降低了报告标签作为图像标签替代的质量。本文开发并评估了从放射科报告中产生标签的方法,这些标签与放射科医生标注图像有更好的一致性。其中性能最好的方法,称为VisualCheXbert。该方法使用生物医学文本预训练的BERT模型直接从放射科报告映射到图像标签,图像监督信号由以从胸部X射线图像训练的计算机视觉模型所决定。VisualCheXbert的表现优于使用现有放射学报告标签器的方法,同时VisualCheXbert与标记胸部X射线图像的放射科医生的一致性比标记相应放射科报告的放射科医生的一致性更好。
论文地址:https://arxiv.org/abs/2102.11467v2
标题:Self-Supervised Pretraining Improves Self-Supervised Pretraining(自监督预训练提升了自监督预训练)了解详情
简介:针对自监督预训练对计算资源,训练数据要求较高的问题,本文提出了一种分层预训练策略HPT。基于该策略的自监督预训练在16个cv数据集上将收敛速度加速80倍,同时提升了模型表现,证明了其对图像增强和预训练数据变化具备较好的鲁棒性。
论文地址:https://arxiv.org/pdf/2103.12718.pdf
标题:Classification of Shoulder X-Ray Images with Deep Learning Ensemble Models(通过深度学习集成模型分类肩部X光片)了解详情
简介:针对人工智能辅助诊断肩部骨折的问题,本文在肌肉骨骼X光片(MURA)上对26个深度学习预训练模型进行了评估,并开发了2个集成模型EL1&EL2。所涉及到的预训练模型包括ResNet、ResNeXt、DenseNet、VGG、Inception、MobileNet等。集成后的2种模型在测试集上的准确率可分别0.8455,0.8472。
论文地址:https://arxiv.org/abs/2102.00515v3
研究动态
标题:中国AI研究新突破:智源「悟道1.0」发布了解详情
智源研究院发布超大规模智能模型“悟道1.0”。“悟道1.0”是我国首个超大规模智能模型系统,由智源研究院学术副院长、清华大学唐杰教授领衔,带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关,取得了多项国际领先的AI技术突破,形成超大规模智能模型训练技术体系,训练出包括中文、多模态、认知、蛋白质预测在内的系列模型,勇闯通用智能发展前沿,构建我国人工智能应用基础设施。同时,与龙头企业共同研发工业级示范性应用,加快大规模智能模型应用生态建设。
标题:GPT-3 Powers the Next Generation of Apps(GPT-3为新一代APP赋能)了解详情
近日,OpenAI发表了名为GPT-3为新一代APP赋能的blog。该文表示自从API发布9个月以来,目前有超过300个应用程序正在通过OpenAI的API提供GPT-3支持的搜索、对话、文本完成和其他高级AI功能,共有全球数万名开发者正在其上进行开发,平均每天产生45亿字。OpenAI对此分别从工业应用,平台改进,开发者群体和未来前景角度,进行了展示和评论,并最终号召各位开发者继续突破GPT-3的极限。
标题:27亿参数的「野生版」GPT-3开源:GPT-Neo闪亮登场!了解详情
简介:GPT-3是2020年OpenAI推出的具有1750亿参数的自回归语言模型,它在许多自然语言基准上都取得了出色的成绩。不同于 GPT-2 和 GPT-1,OpenAI选择不开源 GPT-3,而是通过商业API来提供该模型的能力及训练数据集。该公司通过选择将GPT-3独家许可给与OpenAI 有业务关联的微软来进一步限制访问。尽管如此,既然论文已经放出,人们对于 GPT-3「野生版」的开发没有止步。其中开源 AI 研究机构 EleutherAI 的 GPT-Neo 项目是GPT-3的复现与开源中最优秀的项目之一。3 月 22 日,EleutherAI 的开源项目 GPT-Neo 宣布放出复现版 GPT-3 的模型参数(1.3B 和 2.7B 级别)。
Hub链接:https://hub.baai.ac.cn/view/7297
标题:模拟人类医生,AI能写出靠谱医学报告了,CVPR2021收录|腾讯医典出品!了解详情
简介:在医疗实践中,医生需要针对医学图像按标准撰写和输出医学报告。面对庞大的患者数量,为所有的图像逐一撰写报告占据了医生大量工作时间,不同医生的经验差异也使得部分图像中的异常被忽略,无法体现在报告中。如何借助人工智能快速、准确地自动生成报告,对于提升医生工作效率和服务质量具有重要的实用价值,也成为了近年医学图像研究领域中的一个重要课题。然而,先进的医学图像报告自动生成系统也很容易受医学图像报告中的数据偏差误导。本次腾讯医典AI入选CVPR的论文《Exploring and Distilling Posterior and Prior Knowledge for Medical Report Generation》,创新地提出了后验-先验知识探索及蒸馏(PPKED)框架,模仿人类医生的判读方式,结合先验和后验知识来生成报告,以提高最终生成的医学报告质量,针对性弥补了这一不足。
标题:收费的GPT-3 API,无法阻挡玩家的热情!了解详情
简介:2020 年 6 月,OpenAI推出了一个用于访问自家开发的新AI模型GPT-3的API——OpenAI API。与其他大多数设计用于单一用例的 AI 系统不同,该 API 提供了一个通用的「text in, text out」界面,用户可以在任何英文任务上试用。这是OpenAI首个商用产品。OpenAI API收费的价格不菲,其中Explore 版本前3个月免费试用、Create版本100美元 / 月、Build版本400美元 / 月,还有Scale版本。这样的收费标准,适用于大规模企业用户、普通用户可能玩不起。即便如此,目前已有超过300个应用在使用 GPT-3,全球数万用户也在该平台上进行开发活动,该平台平均每天可以生成45亿单词、并且仍在持续上升。本文详细列举了GPT-3 API的行业应用场景、以及平台改进的未来计划。
标题:NLPCC 2020竞赛经验分享:以预训练模型提升实验效果!
了解详情
简介:第九届国际自然语言处理与中文计算会议(NLPCC 2020)推出技术评测任务:Auto Information Extraction(AutoIE),即信息抽取系统的自动构建,任务旨在通过利用只有少量不完全标注的数据集来完成NER抽取系统的构建。本文将主要介绍百分点认知智能实验室在本次比赛过程中使用的主体技术方案以及对应的评测结果,其中尤其提到了:融合了多种特定领域的预训练词向量来让实体边界识别更加精准,同时在不同的预训练模型上进行对比实验、找出与任务最匹配的预训练模型,最终在集成学习的帮助下将模型的潜力发挥到了最大。
资源推荐
标题:清华大学推出中文预训练语言模型XLNET-tiny了解详情
简介:(中文分词任务)在MSR2005中文分词数据集上,结合变换器-XL层,与BERT+CRF模型相比,在F1分数上有3.23% 提升。
如果你正在从事或关注 强化学习研究、实现与应用,欢迎加入“智源社区-预训练-交流群”。在这里,你可以:
学习前沿知识、求解疑难困惑
分享经验心得、展示风貌才华
参与专属活动、结识研究伙伴
扫描下方二维码,或点击阅读原文申请加入(选择“兴趣交流群→预训练”)
阅读往期《预训练周刊》
《预训练周刊》第1期:吴恩达团队医疗影像预训练、快手落地万亿参数模型
《预训练周刊》第2期:Facebook用“预微调”改进预训练性能、再议GPT-3中的东方主义偏见
《预训练周刊》第3期:智源x清华开源万亿AI模型基石FastMoE、英国机构发起世界最大图灵测试