AI行业态势感知(第六期)

 

AI行业态势感知(第六期)_第1张图片

 

导读

 

为了帮助飞桨同学更好地了解人工智能领域的最新资讯,每周二更新《AI行业态势感知》,从学术(论文和新思想、学术会议等),行业和政策(技术产业政策、项目基金申请、技术投融资等),人物(学者的人事变动和获奖情况)、数据(数据集),工具(新工具和应用推荐)等诸多角度,鸟瞰过去一周人工智能领域值得关注的动态。

 

 过去一周(2020/11/02~2020/11/ 09),值得关注的内容有以下3方面:

 

1.  MNN 1.1.0发布:重构几何计算,极大地降低了异构后端算子实现的成本。基于几何计算机制,MNN新增了TensorRT和CUDA后端。MNN在这次发布中添加了对基于Transformer结构的ASR模型的支持,在Interpreter上增加setCacheFile API。并在ARM,Opencl,X86皆进行了一系列优化,ARM CPU和GPU性能再提升(详情参见本周报“直接竞品动态”栏目)

 

2.  针对设计集成的 AutoML系统面临可配置性,可扩展性,可集成性和平台多样性的四个重大挑,华为诺亚方舟实验室自研了Vega AutoML算法工具链,可针对多个硬件平台进行兼容和优化。具有完备的AutoML能力、业界标杆的自研算法、高并发模型训练能、多Backend支持。(详情参见本周报“对飞桨有竞争压力”栏目)

 

3.  市场上现有的数据科学notebook工具都有很多痛点,比如版本控制、可复现性、协作体验等,与其他工具配合使用时也不太方便。在这些痛点面前,大多数人选择将就,但还有人选择自己动手,Jakub就是其中之一。为了解决上述痛点,Jakub和他的同伴两年前就立志打造一个新的notebook。如今,他们的成果终于问世。这款名叫 Deepnote的数据科学notebook建立在Jupyter的生态系统之上,运行在云端,个人用户可以免费使用。(详情参见本周报“新工具”栏目) 

 

 

直接竞品动态:

 

 

Google谷歌发布最新元学习框架「DVRL」,用强化学习量化模型中每个数据点的价值

 

Google AI研究院最近的研究表明,并不是所有数据样本对于训练都同样有用,特别是对于深度神经网络(DNN)来说。10月28日,他们发表了一篇博客,详细叙述了用强化学习评估训练数据的影响。他们的主要结论是:

 

1. Google AI研究院这次提出了一种新的元学习数据评估框架,该框架决定了每个训练样本用在预测模型的训练过程的可能性。

2. 与以往的研究不同的是,该方法将数据评估融入到预测器模型的训练过程中,使得预测器和DVE能够相互提高。

3. 通过使用一个经过 RL 训练的 DNN 对这个数据值估计任务进行建模,并从一个代表目标任务绩效的小验证集中获得奖励。

4. DVRL 以高效的计算方法提供了高质量的排序后的训练数据,有利于领域自适应、错误样本发现和鲁棒学习,同时还发现了DVRL在不同类型的任务和数据集上显著优于其他方法。

 

DVRL 以高效的计算方法提供了高质量的排序后的训练数据,有利于领域自适应、错误样本发现和鲁棒学习,同时还发现了 DVRL 在不同类型的任务和数据集上显著优于其他方法。

Google AI 博客链接:

https://ai.googleblog.com/2020/10/estimating-impact-of-training-data-with.html

 

 

MNN MNN 1.1.0发布,重要提升点如下:

 

 

1.  重构几何计算将大部分算子的计算过程中与硬件后端无关部分(形状计算和几何计算)剥离出来,极大地降低了异构后端算子实现的成本。基于几何计算,MNN重写了目前所有的硬件后端。由于引入几何计算之后GPU后端算子的覆盖率的增加,在阿里巴巴内部的业务模型中,MNN GPU后端性能普遍获得约20%提升。

2.  新增后端:基于几何计算机制,MNN新增了TensorRT和CUDA后端。目前已经支持常用CV模型与RNN模型。

3.  ASR模型支持:MNN在这次发布中添加了对基于Transformer结构的ASR模型的支持。这类模型结构要求推理引擎支持Control Flow、Dynamic Shape和Zero Shape等特性

4.  性能优化:

ARM后端:MNN持续投入ARM CPU性能优化,在各模型和芯片上又获得了10%~20%的性能提升

OpenCL后端:开启AutoTuning等一系列优化后,MNN在1.0.0的基础上,普遍有20%~100%的性能提升

x86后端:5月以来,MNN团队持续投入x86后端的优化,目前浮点单线程性能与行业标杆OpenVINO基本持平,部分情况(Squeezenet v1.0) 超越。 

5.  框架易用性:

由于OpenCL新增的AutoTuning机制、TensorRT后端初次推理的耗时较高,MNN在Interpreter上增加setCacheFile API,用于缓存GPU后端的编译优化之后的模型

 

 

 

MindsporeMSG | 香港站•浸会大学站周六开启!速来报名!

 

本周末(11.07-11.08)Mindspore通过webinar线上授课的方式,对报名的开发者进行为期两天的机器学习和人工智能课程讲解的学习组『MSG · 香港浸会大学(HKBU)』 。并为前40位报名的同学提供开发平台云资源。

 

 

对飞桨有竞争压力的项目:

 

 

 

安谋中国“周易”Z2 AIPU,单核算力可达4TOPS,性能翻倍效率翻番

 

安谋科技(中国)有限公司(“安谋中国”)上个月发布了“周易”Z2 AIPU(AI Processing Unit),单核算力最高可达4TOPS,同时支持多达32核的可扩展配置,从而能够在单个SoC中实现128TOPS的强大算力。“周易”Z2 AIPU延用了“周易”AIPU的架构,并在微架构上进行了优化,从而将芯片面积减少30%,在运行部分神经网络模型时,相同算力配置下性能提升可达100%。此外,“周易”Z2 AIPU对内存子系统也进行了优化,并升级了高级带宽节省技术(Advanced Bandwidth Saving Technology,ABST),除了第一代中已有的权重压缩(weight compression)技术之外,还增加了feature map压缩技术。全新“周易”Z2 AIPU将主要面向中高端安防、智能座舱和ADAS、边缘服务器等应用场景。

·

 

 VEGA:华为诺亚自研的AutoML 算法工具链

 

 

AutoML是自动发现和部署机器学习模型的重要工业解决方案。但是,设计集成的 AutoML系统面临可配置性,可扩展性,可集成性和平台多样性的四个重大挑战。Vega是诺亚方舟实验室自研的AutoML算法工具链,可针对多个硬件平台进行兼容和优化,有以下特点:

  1. 完备的AutoML能力:涵盖HPO(超参优化, HyperParameter Optimization)、Data-Augmentation、NAS(网络架构搜索,Network Architecture Search)、Model Compression、Fully Train等关键功能,同时这些功能自身都是高度解耦的,可以根据需要进行配置,构造完整的pipeline。
  2. 业界标杆的自研算法:提供了诺亚方舟实验室自研的 业界标杆 算法,并提供 Model Zoo 下载SOTA(State-of-the-art)模型。
  3. 高并发模型训练能力:提供高性能Trainer,加速模型训练和评估。
  4. 多Backend支持:支持PyTorch,TensorFlow(试用中),MindSpore(开发中)。

Vega ver1.0.0 发布:

  • 新增算法:auto-laneAutoFISAutoGroupMFKD
  • 特性增强:
    • Trainer提供回调机制:Trainer支持Callback机制,并提供九个缺省的callback。
    • Report机制:提供统一的AutoML算法的数据收集和处理机制。
    • 多Backend:提供TensorFlow支持,欢迎试用。
    • 评估服务:提供独立的评估服务,提供Atalas 200DK和Bolt(coming soon)的模型评估。

 

华为诺亚方舟实验室 

 

 

论文推荐

 

 针对对话系统的混合监督强化学习模型

Hybrid Supervised Reinforced Model for Dialogue Systems

 

本文提出了一种基于深度递归Q网络(DRQN)的面向任务的对话系统的递归混合模型和训练程序。 该模型处理对话管理所需的两个任务:状态跟踪和决策。它基于将人机交互建模为潜在表示的方法,其中嵌入了交互上下文以指导讨论。该模型比非经常性基准具有更高的性能,学习速度和鲁棒性。此外,结果可以解释和验证信息方面的政策演变和潜在代表。

 

论文下载

 

 

基于统一框架的跨媒体关键词预测

Cross-Media Keyphrase Prediction: A Unified Framework with Multi-Modality Multi-Head Attention and Image Wordings

 

由于推特等社交媒体每天都会产生大量的内容,为了帮助用户更快的获取所需信息,关键词预测任务引起了越来越多的关注。然而,当前大多数的工作都集中在文本建模上,忽略了相关的图像特征。因此,本文探讨了基于文本和图像联合建模的多媒体关键词预测模型。首先为了对齐社交媒体中的文本和图像特征,作者设计了一个多模态、多头注意力框架去捕获复杂的跨媒体交互信息。接着以字符特征和图像属性的形式来连接图像、文字这两种不同的模态。此外,文章还设计了一个融合关键词分类和生成两种任务优势的新的统一框架。实验结果表明本文提出的模型优于传统的基于协同注意力机制的技术。

 

论文下载 

 

基于网格多尺度特征融合的快速目标检测

Fast Object Detection with Latticed Multi-Scale Feature Fusion

 

尺度目标检测问题中的一项关键性挑战。早期的方法通过利用图像和特征金字塔来解决该问题。这种方法在提高计算负担和引入内部网络结构的约束的条件下得到了次优的结果。之前的研究人员还提出了多尺度(即多层次、多分支)特征融合方法来解决这一问题,并取得了可喜的进展。然而,现有的融合方法仍存在特征尺度不一致、忽略层次语义变换、粒度较粗等不足。在本文中,作者提出了一种名为「Fluff」的新模块,用来弥补现有的多尺度融合方法的缺点,提升多尺度目标检测的性能。具体而言,Fluff利用了基于空洞卷积的多层次和多分支方案,以实现快速、有效和粒度更细的特征融合。此外,本文作者将Fluff集成到SSD中构建了一种功能强大的实时单阶段多尺度目标检测器 FluffNet。在MS COCO和PASCAL VOC数据集上的实验结果表明,FluffNet实现了显著的效率提升,并实现了目前最高的准确度。此外,本文作者还通过展示如何将Fluff模块嵌入到其它广泛使用的检测器中,来说明其卓越的泛化性能。

 

论文下载

 

 

数据

 

RADIATE:恶劣天气下的多模态雷达数据集

 

无人驾驶汽车的数据集对于感知系统的开发和基准测试至关重要。但是,大多数现有数据集都是在天气良好的情况下使用相机和LiDAR传感器捕获的。在本文中,我们提出了恶劣天气中的RAdar 数据集(RADIATE),旨在促进使用雷达感应进行安全自动驾驶的目标检测,跟踪和场景理解的研究。 RADIATE包含3个小时的带注释的雷达图像,总共带有200K标记的road actors,每个雷达图像平均约有4.6个实例。它涵盖了8种不同类别的参与者,这些参与者在各种天气条件下(例如,太阳,夜晚,雨天,雾和雪)和驾驶场景(例如,停车,城市,高速公路和郊区)代表了不同的挑战水平。据我们所知,这是第一个公共雷达数据集,该数据集在公共道路上提供了标记有大量道路参与者的高分辨率雷达图像。在不利的天气(例如,雾和降雪)中收集的数据是唯一的。给出了一些基于雷达的物体检测和识别的基线结果,这些结果表明,雷达数据的使用对于恶劣天气下的汽车应用很有希望,因为恶劣天气下视觉和LiDAR可能会失效。RADIATE还具有针对其他应用的立体图像,32通道LiDAR和GPS数据,例如传感器融合,定位和地图绘制。

 

赫瑞-瓦特大学 

 

新工具

 

Deepnote 支持实时协作的notebook

 

市场上现有的数据科学notebook工具都有很多痛点,比如版本控制、可复现性、协作体验等,与其他工具配合使用时也不太方便。在这些痛点面前,大多数人选择将就,但还有人选择自己动手,Jakub就是其中之一。为了解决上述痛点,Jakub和他的同伴两年前就立志打造一个新的notebook。如今,他们的成果终于问世。这款名叫 Deepnote的数据科学notebook建立在Jupyter的生态系统之上,运行在云端,个人用户可以免费使用。

 

机器之心 

 

DeepReg:用于医学图像配准的深度学习工具包

 

DeepReg是一个免费的,社区支持的开源工具包,使用深度学习进行医学图像配准的研究和教育。特性: 1. 基于TensorFlow2的高效训练和快速部署 ;2. 实施主要的无监督和弱监督算法及其组合和变体; 3. 专注于增长和多样化的临床应用,所有 DeepReg演示均使用可访问的开放数据;4 简单的内置命令行工具,需要最少的编程和脚本编写;5 根据Apache 2.0许可,开放,允许且由研究和教育驱动。

 

伦敦大学学院

 

观点

 

图灵奖得主、深度学习教父Yann LeCun:人们对GPT-3这样的大规模语言模型能做什么有着完全不切实际的期待

图灵奖得主、深度学习教父Yann LeCun近日在社交媒体发出警告,称“人们对GPT-3这样的大规模语言模型能做什么有着完全不切实际的期待。”作为一个问答系统,GPT-3不是很好。 用“神经”联想记忆大量知识的方法在这方面做得更好。作为一个对话系统,它也不是很好。 其他被明确训练过与人类互动的方法在这方面做得更好。

 

雷锋网 

 

应用

 

人工智能将古代地图转换成卫星图像

 

古代地图可以帮助我们了解几个世纪前的风景。但是如果我们用现代的镜头来观察这些古老的地图,我们会看到什么呢?Henrique Andrade是佩南布哥大学埃斯科拉政治学院的学生,他已经研究了他家乡巴西Recife的地图好几年了。他说:“我收集了所有这些地图的电子版,最后发现了关于我家乡那些并不广为人知的东西。我觉得在Recife,人们无法接触到自己的过去,这使得他们很难理解自己是谁,也很难理解他们能为自己的未来做些什么。”为了实现这个项目,他们使用了一个现有的人工智能工具Pix2pix,它依赖于两个神经网络而工作。第一个网络根据输入集创建图像,而第二个网络则判断生成的图像是否是假的。然后训练这些网络互相纠错,最终根据提供的历史数据创建逼真的图像。

 

IEEE电气电子工程师 

 

人工智能识别二战照片出自谁手

 

在日常生活中,我们经常会看到一些十分漂亮、构思精妙的照片,但某张照片背后的摄影师是谁?我们有时却并不清楚。如今,人工智能(AI)可以帮助我们找到图片背后的摄影师。在一项新的国际跨学科研究中,研究人员通过使用人工智能算法分析近60000张二战时期的历史照片发现,人工智能可以根据照片内容来识别摄影师的身份。相关研究成果以论文的形式发表在科学杂志IEEE Access上。

 

学术头条 

 

谷歌发布Amber项目,用AI分析脑电波诊断治疗抑郁症

 

谷歌母公司Alphabet的X LAB刚刚发布了一个被称作“Amber”的项目,该项目旨在使用AI诊断脑电波引起的抑郁症,让脑电波像血糖一样容易理解。其目的是开发出抑郁和焦虑的客观测量值,以用于支持诊断、治疗和治疗抑郁症。谷歌Amber团队试图将机器学习技术与脑电图相结合,以测量大脑的电活动。相关灵感来自大脑在游戏任务中,衡量大脑奖 励系统的处理过程的反应,与不抑郁的人相比,在赢了一场比赛后,抑郁的人的大脑反应较弱。

 

大数据文摘

 

 

代码及开源项目

 

基于动态关系推理的多智能体轨迹预测问题

 

从纯粹的物理系统到复杂的社会动态系统,世界上普遍存在着多主体交互系统。在许多应用中,有效地了解交互式代理的情况,准确地预测其运行轨迹,在决策、规划等下游任务中发挥着重要作用。在本文中,作者提出了一个通用的轨迹预测框架,它具有显式的关系结构识别和预测,并通过多个异构交互代理之间的潜在交互图进行预测。考虑到未来行为的不确定性,设计了多模态预测假设。由于潜在的交互作用可能会发生突变,不同的演化方式可能会导致不同的结果,因此我们提出了动态关系推理的必要性,并自适应地演化交互图。我们还引入了双阶段的训练管道,不仅提高了训练效率和加速收敛,而且提高了模型的性能。该框架在综合物理模拟和多个不同领域的实际基准数据集上进行评估。实验结果表明,该方法在预测精度方面达到了SOTA性能。

 

UCB 

 

 

COOT:用于视频-文本表征学习的协作式分层次Transformer

 

本文收录于NeurIPS 2020会议,来自弗莱堡大学和马里兰大学巴蒂尔摩县分校的研究人员提出一种协作式分层次Transformer(COOT),以利用分层信息为不同级别粒度和不同模式之间的交互建模。许多现实世界中的视频文本任务涉及不同级别的粒度信息,例如帧和单词,片段和句子或视频和段落,每个都有不同级别的语义,然而现有的表征学习并不能充分的学习到这些细粒度语语义信息,从而没有充分利用大量的数据信息去学习更好的联合表示,没能将视频文本在长范围时间的特征进行关联。本文着重研究这种长范围时间依赖性问题,提出一种协作式分层次Transformer(COOL),可以利用视频和文本中的长范围时间上下文信息学习跨模态联合表示特征。

 

NeurIPS 2020 

  

 

教程

哥伦比亚大学最新《机器学习》课程

 

COMS 4771是一个研究生水平的机器学习入门。本课程涵盖监督机器学习的基本统计原理,以及一些常见的算法范例。

 

哥伦比亚大学

 

机器学习在能源行业中的应用

 

这本书是关于运用机器和深度学习来解决石油和天然气行业的一些挑战。这本书开篇简要讨论石油和天然气勘探和生产生命周期中不同阶段的数据流工业操作。这导致了对一些有趣问题的调查,这些问题很适合应用机器和深度学习方法。最初的章节提供了Python编程语言的基础知识,该语言用于实现算法;接下来是监督和非监督机器学习概念的概述。作者提供了使用开源数据集的行业示例以及对算法的实际解释,但没有深入研究所使用算法的理论方面。石油和天然气行业中的机器学习涵盖了包括地球物理(地震解释)、地质建模、油藏工程和生产工程在内的各种行业主题。

 

专知

 

纽约大学最新《语音识别Speech Recognition》2020课程

 

本课程以计算机科学的方式介绍自动语音识别,以及正确转录语音的问题。描述包括创建大规模语音识别系统的基本算法。所提出的算法和技术目前已在大多数研究和工业系统中得到应用。目前在自然语言处理、计算生物学和机器学习的其他应用领域中使用的许多学习和搜索算法和技术,最初都是为解决语音识别问题而设计的。语音识别继续给计算机科学带来挑战性的问题,特别是因为它产生的学习和搜索问题的规模。因此,本课程的目的不仅仅是让学生熟悉语音识别中使用的特定算法,而是以此为基础来探索一般的文本和语音,以及与计算机科学其他领域相关的机器学习算法。本课程将利用几个软件库,并将研究这一领域的最新研究和出版物。

 

纽约大学

 

人物

 

Hinton最新采访:我相信深度学习将能够做任何事情,但是我们还需要一些概念性的突破

 

“我相信深度学习将能够做任何事情,”在接受MIT Tech Review的记者Karen Hao 10月20日EmTech会议上的采访时,Hinton这样说,“但是我们还需要一些概念性的突破。” 他认为transformer就是这样的突破,但还需要更多类似的突破。尤其是能用大的神经活动向量来实现推理等功能的突破 。另外规模也非常重要,人脑大约100万亿参数(或者说突触),GPT-3已经达到1750亿,只差一千倍左右了。Hinton所说的规模既指参数也指数据。此外,他同意常识和(精细)运动控制也非常重要。

 

MIT Tech Review

 

 

行业与政策

 

中国智能交通协会:中国自动驾驶芯片市场被国外垄断,技术困境待突破

 

11月6日,中国汽车技术研究中心有限公司、中国智能交通协会、社会科学文献出版社发布了《自动驾驶蓝皮书:中国自动驾驶产业发展报告(2020)》。蓝皮书指出,中国的自动驾驶芯片存在国外厂商垄断市场、算法优化和迭代周期长、尚未建立完整生态系统、产业中游的芯片制造工艺薄弱等问题,芯片技术困境亟待突破。自动驾驶场景下的更高要求,使得芯片设计难度高、周期长、成本大。以长效性为例,消费类芯片的寿命周期一般是两到三年,自动驾驶芯片的工作要求则至少是10到15年。自动驾驶级别提高带来的算力增加,也给芯片设计带来挑战。蓝皮书称,自动驾驶本身极具商业应用前景,但高级别自动驾驶的大规模落地仍需较长孵化期。目前自动驾驶芯片主流方案依然掌握在英特尔、英伟达、赛灵思等国外公司手中。国内的芯片公司如华为、芯驰科技和地平线等起步较晚,目前还处于市场推广和产品初步落地阶段。如何在有限的市场中找到盈利模式,实现芯片产品大规模量产,对国内芯片公司来说仍是难题。

 

智车科技 

 

Intel收购以色列机器学习平台公司Cnvrg.io

 

TechCrunch报道,Intel已经确认收购了以色列的MLOps平台公司Cnvrg.io。公司此前融资800万美元,估值1700万。CEOYochay Ettun 2017年毕业于以色列希伯来大学计算机专业。女CTO Leah Forkosh Kolben是系友和同事,毕业于2015年。该公司的主要竞争对手是Databricks, Amazon Sagemaker和Dataiku以及H2O.ai这样开源的小平台。一周前,Intel刚刚收购了In-Q-Tel(CIA投资机构)、A16z和YC投资的一家机器学习模型优化公司SigOpt 

 

TechCrunch 

 

谷歌Waymo无人驾驶测试报告:行驶981万公里,发生18次意外

 

谷歌母公司旗下自动驾驶公司Waymo近日发表了一份在凤凰城地区的无人驾驶汽车测试报告,详尽地说明了该公司的测试活动细节。自从在凤凰城开始测试以来,Waymo的车辆一共已行驶了981万公里之远,并且当中有10.5万公里是没有人类驾驶在监看的“真·全自驾”状态。此外,Waymo的车辆自2019年到2020年前九个月为止,共发生了18次的意外,再加上29次人类驾驶必需介入以避免碰撞的情况。在所有的事故当中,16起为追撞事故,仅有一起是由Waymo追撞前车。

 

界面 

  

 

你可能感兴趣的:(AI行业态势感知)