01
54.7 AP!最强的目标检测网络:DetectoRS(已开源)
许多现代目标检测器通过使用两次looking和thinking的机制,表现了出色的性能。在本文中,作者探索了用于目标检测的backbone设计中的这种机制。
在宏观层面上,作者提出了递归特征金字塔(RFP,Recursive Feature Pyramid),它结合了从特征金字塔网络到自下而上的backbone层的额外反馈连接,具体如图(a)所示。
在微观层面上,作者提出了可切换的空洞卷积(SAC,Switchable Atrous Convolution),它以不同的atrous rate对特征进行卷积,并使用switch函数收集结果,具体如图(b)所示。
将它们组合在一起将产生DetectoRS,这将大大提高目标检测的性能。
DetectoRS = Detector + RFP + SAC = Detector + Recursive Feature Pyramid + Switchable Atrous Convolution
RFP(递归特征金字塔)
RFP(递归特征金字塔)= Recursive Structure + Bottom-up Backbone Layers + Top-down FPN Layers,作者称实现了 looking and thinking twice or more
SAC(可切换的空洞卷积)
SAC(可切换的空洞卷积)= Different atrous rates + Switch functions,作者称实现了 looking and thinking twice
实验结果
在COCO test-dev 目标检测中,DetectoRS达到54.7% AP!目前排名第一,遥遥领先!
信息来源:CVER
02
百度ERNIE语义理解开源套件动静合一全新升级 速来“尝鲜”
从模型拉取到执行预测,只需7行代码,ERNIE开源套件就能用起来!话不多说直接上才艺:
如此简洁易用,得益于本次ERNIE语义理解开源开发套件的全新升级。借助国产深度学习框架飞桨动态图优势,本次升级实现了“动态图”与“静态图”的完美结合,即“一套代码,两种运行方式”,使得开发者更加高效、方便地使用ERNIE解决工业生产中的各类NLP问题,达到简单几行代码即可实现基于ERNIE的文本分类、情感分析等经典NLP任务。
动静合一的ERNIE开源套件
新版ERNIE开源套件突显了模型易取易用性,简单几行代码就可以把ERNIE跑起来。整套核心代码简单、清晰,使得开发者,尤其是刚入门NLP的新手玩家,可以学习各类NLP任务的Finetune,加载旧版本checkpoint、C++ inference API、ERNIE-server等每一个重要功能的细节。
同时,新版ERNIE开源套件还为广大初学者提供了丰富的AI Studio教程,用户无需自己提供GPU,即可运行ERNIE来完成各类NLP任务,做到了“人人有AI学”。除此以外,新版ERNIE的环境配置也很简单,大部分的依赖都可以通过pip安装:pip install paddle-ernie 。
新版ERNIE套件最大程度地保证了逻辑的简洁,整体模型结构核心代码量较原来减少了41%,并采用了大家熟悉的面向对象设计。几乎所有的网络运算逻辑集中在ernie/modeling_ernie.py文件中,在这里你可以看到ERNIE所支持的全部NLP任务的源代码。各个对象及其对应的NLP任务可见下表:
动态编程,静态部署
为了保证动态图模型部署的性能,兼容针对静态图做的部署代码性能优化。开发者可选择通过TracedLayer.trace API将动态模型序列化成为静态模型使用:
在调用TracedLayer.trace API时,开发者可动态传入两个虚拟构造出来的tensor;分别代表即将输入的token id和sentence type id,paddle后台会自动追踪ERNIE的forward过程并把中间运行的op序列化下来,成为静态图模型。随后便可调用静态图save_inference_model API将模型保存下来。如此保存下来的模型与旧版本模型并无二致。
开源地址:
https://github.com/PaddlePaddle/ERNIE
信息来源:百度NLP
03
黄埔学院三期开学,百度吴甜:复合型人才将弥补技术与业务落地的“鸿沟”
6月6日,由百度与深度学习技术及应用国家工程实验室共同打造的“黄埔学院”在京迎来第三期开学礼。与来自一汽大众、联想、TCL、中国工商银行、国家卫星气象中心、中国石油规划总院、太平洋保险等企业的81位学员以线上+线下的方式参与了开学典礼。
开学礼现场,吴甜在致辞中分享到:“新基建”今年被首次写入了政府工作报告,‘加速产业智能化转型’站上了时代背景中越来越重要的位置,而人才培养是产业智能化当中非常重要的话题。百度黄埔学院旨在培养“首席AI架构师”,他们是产业化过程当中,既懂应用场景、又懂AI技术、能够把AI技术应用起来,解决场景当中实际问题的复合型人才。这也是每一位黄埔学院学员的成长目标。”
百度集团副总裁、深度学习技术及应用国家工程实验室副主任、黄埔学院院长吴甜致辞
马艳军整体介绍了本期黄埔学院的课程安排,包含24节核心课程,内容由浅入深,覆盖从理论到实践的各个环节。值得一提的是,在此次的师资配置方面,不仅延续了此前的“超强阵容”,由多位百度重量级科学家、AI架构师授课,还特别配置了专家小组全程指导,分别在学员项目搭建、流程跑通、调整优化、答辩展示等的课程前中后各期,以“切实落地”为目的进行全面辅导。
百度黄埔学院第三期开学典礼合影
随着国家大力推进“新基建”战略,5G基建、大数据中心、AI、工业互联网等各个领域正在加快发力,而AI作为新基建中的重要一项,为其他多项提供着基础技术支撑,在稳投资、促消费、助升级、培植经济发展新动能、创建智能经济新形态等多方面潜力巨大。而在促进人工智能与传统行业的融合应用中,企业的“首席AI架构师”不可或缺。百度黄埔学院正是面向企业CTO等高端技术人员,为中国产业界源源不断培养输送集理论、技术、应用三位一体的“首席AI架构师”的专项计划。
百度黄埔学院第三期开学典礼现场
信息来源:飞桨PaddlePaddle
04
尴尬而不失礼貌的微笑,再也不能骗到AI了
英国布拉德福德大学的一项研究使用计算机技术,通过对面部关键点的检测和跟踪来自动识别假笑。研究人员表示,他们找到了自动识别是否假笑的方法。事实证明,当你试图「尴尬而不失礼貌的微笑」时,你的眼睛会背叛你。
从某种意义来说,笑容分析类似于德州扑克牌桌上高手们对于他人面部微表情的分析——那些微小的面部抽动可以展现出玩家真正的手牌与情绪。「微表情是更具自发性也更微小的面部动作,往往在不自觉的情况下发生。正因如此,这类动作可以揭示人类真正的内在情绪,」以色列理工学院计算机科学教授 Ron Kimmel 解释道。
研究人员首先拍摄带有微笑表情的视频,识别面部关键点(眼周、脸颊和嘴巴)然后用一种自动算法来度量微笑时眼周、脸颊和嘴部的动态变化。该算法的输出能够让研究者精确地度量这几个面部关键点在时间尺度上的变化,并对比真实微笑和被迫假笑的差异。
信息来源:百度AI
05
本周论文推荐
【ACL 2020 | 百度】:同声传译中的纠错技术
Opportunistic Decoding with Timely Correction for Simultaneous Translation
论文介绍:
同声传译有许多重要的应用场景,近年来受到学术界和业界的广泛关注。然而,大多数现有的框架在翻译质量和延迟之间难以平衡,即解码策略通常要么过于激进,要么过于保守。
在本论文中,百度首次提出了一种具有及时纠错能力的解码技术,它总是在每一步产生一定数量的额外单词,以保持观众对最新信息的跟踪,同时,它也在观察更多的上下文时,对前一个过度生成的单词提供及时的纠错,以确保高翻译质量。
本文还首次提出了对这种纠错场景下的延迟指标。实验表明,我们的技术提高了延迟和质量:延迟减少了2.4,BLEU 增加了3.1,中英翻译和中英翻译的修改率低于8%。本系统可用于任何语音到文本的同传系统中。
END