2018年国外主要实验室和科研团队成果和动向
作者简介:SIGAI人工智能平台
全文PDF下载:2018年国外主要实验室和科研团队成果和动向
This blog is copied from: https://zhuanlan.zhihu.com/p/56818027
Geoffrey Hinton
Geoffrey Hinton,被称为“神经网络之父”、“深度学习鼻祖”,他曾获得爱丁堡大学人工智能的博士学位,并且为多伦多大学的特聘教授。在2012年,Hinton还获得了加拿大基廉奖(Killam Prizes,有“加拿大诺贝尔奖”之称的国家最高科学奖)。2013年,Hinton 加入谷歌并带领一个AI团队,他将神经网络带入到研究与应用的热潮,将“深度学习”从边缘课题变成了谷歌等互联网巨头仰赖的核心技术,并将BP算法应用到神经网络与深度学习。
Hinton在2017年的NIPS会议上提出的胶囊网路,基于一种新的结构,通过与现有的卷积神经网络(CNN)相结合,在一些图像分类的数据上取得了非常优越的性能,成为了2018年的发展新趋势。
2018年4月,Hinton 团队发布《Large Scale Distributed Neural Network Training Through Online Distillation》(https://arxiv.org/pdf/1804.03235.pdf ),通过online distillation进行大规模分布式神经网络训练。该工作提出了Codistillation的概念,通过大规模实验,发现codistillation方法提高了准确性并加快了训练速度,并且易于在实践中使用。
在11月发表的《DARCCC:Detecting Adversaries by Reconstruction from Class Conditional Capsules》(https://arxiv.org/abs/1811.06969?context=cs )中,他的团队提出重构网络可以视作检测对抗性攻击的非常有效的方法:从获胜的顶层胶囊的身份和姿态参数中重构输入,以验证网络能够感知我们期望它从某个类的典型样例中感知的东西。
Yann LeCun
Yann LeCun 是美国工程院院士、Facebook前人工智能研究院院长、纽约大学Sliver教授,同时还兼职于科学数据中心,数学科学交流学院,神经科学中心,以及电子工程计算机系。他于2003年加入纽约大学,之后还在普林斯顿的NEC研究院短暂任职。在2012年,他创建了纽约大学数据科学中心,并担任主任。2013年底,他被任命为Facebook人工智能研究总监, 并继续在纽约大学做兼职教授。2015-2016年,他在巴黎法兰西工学院做客座教授。Lecun创立的卷积网络模型,被广泛地应用于计算机视觉和语音识别应用里,也因此他被称为卷积网络之父,是公认的世界人工智能三巨头之一。
2018年4月,Yann LeCun 等人发表了一篇针对未来实例分割预测的论文《Predicting Future Instance Segmentation by Forecasting Convolutional Features》(https://arxiv.org/abs/1803.11496)。
该论文提出了一种预测模型,可通过预测卷积特征来对未来实例分割进行预测。
前不久,Lecun等人在论文《Model-Predictive Policy Learning with Uncertainty Regularization for Driving in Dense Traffic》(http://arxiv.org/abs/1901.02705v1 )中提出通过随多个时间步骤展开环境动态学到的模型来训练一个策略的方法,同时明确地惩罚了两个成本:优化策略时的原始成本;表示训练状态离散的不确定成本。最后,研究人员使用大规模驾驶行为数据集对此方法进行了评估,结果显示能够从存粹的观察数据中有效学习驾驶策略,不去要环境交互。
Yoshua Bengio
yoshua bengio,蒙特利尔大学(Université de Montréal)的终身教授,同时是蒙特利尔大学机器学习研究所(MILA)的负责人,是CIFAR项目的负责人之一,负责神经计算和自适应感知器等方面,又是加拿大统计学习算法学会的主席,是ApSTAT技术的发起人与研发大牛。Bengio在蒙特利尔大学任教之前,是AT&T贝尔实验室&MIT的机器学习博士后。他的主要贡献在于他对循环神经网络(RNN, Recurrent Neural Networks)的一系列推动,包括经典的neural language model,gradient vanishing 的细致讨论,word2vec的雏形,以及machine translation。Bengio是Deep Learning一书的合著者,且Bengio的”A neural probabilistic language model”论文开创了神经网络的语言模型 language model先河,里面的思路影响了之后的很多基于神经网络做NLP的文章。
9月份,Bengio 等研究者在论文《Learning deep representations by mutual information estimation and maximization》提出了 Deep INFOMAX(DIM)(https://arxiv.org/abs/1808.06670v2)。该方法根据信息内容和统计或架构约束来学习表示,可用于学习期望特征的表示,并且在分类任务上优于许多流行的无监督学习方法。他们认为,这是学习好的和更有条理的表示的一个重要方向,有利于未来的人工智能研究。
10月份,Bengio 研究团队提出了一种称为 BabyAI 的研究平台,支持将人类加入到语言学习的基本循环中。BabyAI 平台由难度递增的 19 个层级组成。支持智能体获取具有丰富组合的合成语言,并提供了用于模拟人类教师的启发式专家。
NIPS2018中,Bengio的《Dendritic cortical microcircuits approximate the backpropagation algorithm》(http://papers.nips.cc/paper/8089-dendritic-cortical-microcircuits-approximate-the-backpropagation-algorithm.pdf ),介绍了一个简化的树突室的多层神经元网络模型,其中错误驱动(error-driven)的突触可塑性使网络适应一个全面性的期望输出。这个框架框架与最近观察到的大脑区域和皮质微电路结构之间的学习是一致的。
Bengio 等研究者在前不久的最新论文《Quaternion Recurrent Neural Networks》中,提出了一种新的四元循环神经网络(QRNN)以及相应的四元长短期记忆网络(QLSTM),将四元代数的外部关系和内部架构依赖性皆考虑在内。实验证明,与 RNN 和 LSTM 相比,QRNN 和 QLSTM 都在自动语音识别等实际应用中达到了更好的性能。
吴恩达Andrew Ng
吴恩达,华裔美国人,是斯坦福大学计算机科学系和电子工程系副教授,人工智能实验室主任。吴恩达是人工智能和机器学习领域国际上最权威的学者之一。吴恩达也是在线教育平台Coursera的联合创始人(with Daphne Koller)。
2018年5月,吴恩达团队在MURA数据集上发起了一项深度学习挑战赛, 这个数据集是他们团队在2018年1月开源的一个骨骼 X 光片的大型数据集,总共有 40561 份多视图放射线影像。
7月的时候,该团队开发出了一种使用人工智能来预测病人死亡时间的系统,该系统可以为病人提供更好的临床关怀。研究人员提出了一种新的预报检验方法 Survival-CRPS,通过优化连续分级概率评分(continuous ranked probability core, CRPS)来提高预报的锐度(sharpness, 评价模式预测极值的倾向),同时保持预报的校准度(calibration, 评价模型预测值的数值大小和结局事件发生概率的大小是否一致)。这是科学界首次将最大似然法之外的评分方法成功应用于大型生存预测任务。
11月底,团队发布了一个名为CheXNeXt的X光诊断算法。与曾经的肺炎检测专门算法不同,该模型可以诊断14种疾病,包括肺炎、胸腔积液、肺肿块等等。在其中10种疾病的诊断上,AI都与人类放射科医生的表现相当,还有一种超过了人类。并且,AI的诊断速度是人类的160倍。团队说,这样的算法有希望填补医疗资源的短缺,也可以用来减少人类医生因为疲劳而导致的诊断错误。
11月28日,团队宣布在《公共科学图书馆》期刊发表关于膝关节磁共振成像的深度学习辅助诊断的最新研究。该团队表示,他们开发了一种算法来预测膝关节核磁共振检查中的异常,并测量了在解释过程中向放射科医师和外科医生提供算法预测的临床效用。 此外在年底的时候,吴恩达又发布了《AI 转型指南》,面向公司管理层,介绍AI产业转型的一些方法。
2019年年初,也就是前不久,他们斯坦福团队又在Nature Medicine上发表了一项研究,开发了一种深度神经网络,可基于单导程 ECG 信号分类 10 种心率不齐以及窦性心律和噪音,性能堪比心脏病医生,准确度高达83.7%,超过了人类心脏病医生的78.0%。
Ian Goodfellow
Ian Goodfellow,人工智能领域的顶级专家,因提出了生成对抗网络(GANs)而闻名,被誉为“GANs之父”。他从斯坦福大学获得计算机科学学士、硕士学位以及博士学位。毕业后,Goodfellow加入Google,成为Google Brain研究团队的一员。然后他离开谷歌加入新成立的OpenAI研究所。Ian Goodfellow 在OpenAI短暂工作后,于2017年3月从OpenAI重回谷歌Goodfellow最出名的是发明了生成性对抗网络,这是Facebook经常使用的机器学习方法。他也是Deep Learning教科书的主要作者。2017年,Goodfellow被麻省理工学院技术评论评为35位35岁以下的创新者之一。
2018年年初,William Fedus、Ian Goodfellow和Andrew M. Dai在ICLR 2018共同提交的论文中使用 GAN 和强化学习方法在 NLP 中做了自己的探索(https://arxiv.org/abs/1801.07736)。
2018年7月,Ian等人提出一种新型对抗攻击(对抗攻击通常会使得神经网络分类错误),对神经网络重新编程,诱导模型执行攻击者选定的新任务。该研究首次表明了神经网络惊人的脆弱性和灵活性。(https://arxiv.org/pdf/1806.11146.pdf )。
8月的一篇论文中,和Augustus Odena共同提出了一种新方法覆盖引导模糊测试(coverage guided fuzzing,CGF),将其应用于神经网络的测试(https://arxiv.org/pdf/1808.02822.pdf ),该方法能够自动Debug神经网络。Goodfellow表示,希望这将成为涉及ML的复杂软件回归测试的基础,例如,在推出新版本的网络之前,使用fuzz来搜索新旧版本之间的差异。
此外开源了名为TensorFuzz的CGF软件库。 此外,Ian与团队的人提出对抗正则化方法(https://arxiv.org/pdf/1807.07543v2.pdf )显著改善了自编码器的平滑插值能力,这不仅能提高自编码器的泛化能力,对于后续任务的表征学习也会大有帮助。
何恺明
何恺明,2003年广东9名高考状元之一,本科就读于清华大学,。博士毕业于香港中文大学多媒体实验室,研究生导师为汤晓鸥。 何恺明与他的同事开发了深度残余网络(ResNets),目前是计算机视觉领域的流行架构。ResNet也被用于机器翻译、语音合成、语音识别和AlphaGo的研发上。 2009年,何恺明成为首获计算机视觉领域三大国际会议之一CVPR“最佳论文奖”的中国学者。 何恺明作为第一作者获得了CVPR 2009,CVPR 2016和ICCV 2017(Marr Prize)的最佳论文奖,并获得了ICCV 2017最佳学生论文奖。 2017年4月,何恺明获选香港中文大学(中大)工程学院杰出校友。
进入FAIR部门之后,何恺明的动向一直备受关注,在3月份左右,他和FAIR 研究工程师吴育昕提出了组归一化(Group Normalization)方法,试图以小批尺寸实现快速神经网络训练,这种方法对于硬件的需求大大降低,并在实验中超过了传统的批归一化方法。这篇论文也获得了ECCV 2018最佳论文(2018年9月13日,ECCV 2018 获奖论文公布,吴育昕与何恺明合作的《Group Normalization》获得了最佳论文荣誉提名奖。)
6月19日,CVPR 2018奖项出炉,何恺明获得本届大会的 PAMI 年轻学者奖。
8月份的时候,何何恺明等多名研究者发表了一项独特的迁移学习研究,无需数据清洗和手工标记数据,通过训练大型卷积网络可以预测数十亿社交媒体图像的hashtag,在图像分类和目标检测任务上都得到了迄今最高的精度。
11月22日,何恺明等人在arxiv贴出一篇重磅论文,题为《Rethinking ImageNet Pre-training》,表明ImageNet 预训练模型并非必须,ImageNet 能做的只是加速收敛,对最终物体检测的精度或实例分割的性能并无帮助。
陈天奇
陈天奇,华盛顿大学计算机系博士生,研究方向为大规模机器学习。他曾获得 KDD CUP 2012 Track 1 第一名,并开发了 SVDFeature,XGBoost,cxxnet 等著名机器学习工具,是 Distributed (Deep) Machine Learning Common 的发起人之一。
2018年5月份,陈天奇以及上海交通大学和复旦大学的研究团队提出一个基于学习的框架(https://arxiv.org/pdf/1805.08166.pdf ),以优化用于深度学习工作负载的张量程序。该研究使用基于机器学习的方法来自动优化张量运算核心并编译AI工作负载,从而可以将最优的性能部署到所有硬件。实验结果表明,该框架能够为低功耗CPU,移动GPU和服务器级GPU提供与最先进手工调优库相媲美的性能。
7月12日,陈天奇团队推出 Versatile Tensor Accelerator(VTA),这是一种开放、通用、可定制的深度学习加速器。VTA是一种可编程加速器,提供了 RISC风格的编程抽象来描述张量级的操作。VTA的设计体现了主流深度学习加速器最突出和最常见的一些特征,比如张量操作、DMA加载 /存储和显式的计算 /内存调节。
谷歌:Deep Mind人工智能实验室
DeepMind位于英国伦敦,是由人工智能程序师兼神经科学家戴密斯·哈萨比斯(DemisHassabis)等人联合创立,是前沿的人工智能企业,其将机器学习和系统神经科学的最先进技术结合起来,建立强大的通用学习算法。最初成果主要应用于模拟、电子商务、游戏开发等商业领域。谷歌于2014年收购了该公司。目前,Google旗下的 DeepMind 已经成为 AI 领域的明星 。
2018年2月27日,Deepmind提出了命名为“独角兽(Unicorn)”的智能体架构,它展示出优秀的持续学习能力,已经胜过很多基准智能体。研究人员表示,独角兽通过利用并行的off-policy学习策略,统一表示和学习多种策略,才达到了这样的表现。
7月28日,发表的论文《Machine Theory of Mind》中,研究人员提出了一种新型神经网络 ToMnet,具备理解自己以及周围智能体心理状态的能力。该论文已被 ICML 2018 接收为 Oral 论文。
8月13日,与伦敦 Moorfields 眼科医院合作,已经训练其算法能够检测出超过 50 种威胁视力的病症,其准确度与专家临床医生相同。它还能够为患者正确推荐最合适的行动方案,并优先考虑那些最迫切需要护理的人。
10月,发表了一篇题为《Do Deep Generative Models Know What They Don’t Know?》(https://arxiv.org/abs/1810.09136?context=stat.ML )的论文。该论文提出,过去学界普遍认为神经网络在面对和训练数据分布不同的数据时容易产生错误的预测,而生成模型则在这个问题上鲁棒性更强。不过他们发现基于流程的模型,VAE和PixelCNN的模型密度无法区分常见物体。
11月14日,宣布旗下的健康部门DeepMind Health、以及负责推进“Streams”(帮助医生更快识别和诊断患者病情的移动APP)团队将调整合并到Google 最新成立的“Google Health”部门中。原子公司DeepMind Health将不再作为独立品牌存在,但是,DeepMind的其他部门仍将保持独立。
11月16日,DeepMind表示其与英国眼科医院Moorfields合作的人工智能医疗研究项目已进入下一阶段。该项目旨在探索人工智能技术在眼部疾病诊疗方面的应用。8月时DeepMind发布了该项目的第一批结果,该结果表明人工智能可以与专家人类医生的表现相匹配,为50多种眼病的正确疗程提供建议。DeepMind表示,基于这项研究成果,该项目已经进行到下一个研究阶段,在症状出现之前预测眼病和预防严重疾病。
12月5日,DeepMind宣布推出全新的AlphaFold系统,能够预测并生成蛋白质的3D结构。这一系统在国际蛋白质结构预测竞赛(CASP)上击败了其余的参会选手。
12月,ICLR 2019 接收论文名单放出,DeepMind & Google 的唇读技术论文《LARGE-SCALE VISUAL SPEECH RECOGNITION》(https://openreview.net/pdf?id=HJxpDiC5tX )未被接收。评审们认为即使它在工程上和数据上都非常突出,但大模型加上大数据会提升性能是共识,这类改进不能被看作是贡献。
今年年初,DeepMind和牛津大学提出了注意力神经过程。研究者认为,神经过程(NP)存在着一个根本的不足——欠拟合,对其所依据的观测数据的输入给出了不准确的预测。他们通过将注意力纳入NP来解决这个问题,允许每个输入位置关注预测的相关上下文点。研究表明,这大大提高了预测的准确性,显著加快了训练速度,并扩大了可以建模的函数范围。
谷歌:Google Brain团队
Google Brain是谷歌的人工智能研究小组,由Jeff Dean, Greg Corrado和Andrew Ng共同成立。成立于2011年的谷歌大脑,目前有正式成员48名,团队负责人是传奇人物Jeff Dean。在这个团队中,还包括部分供职的泰斗级人物Geoffrey E. Hinton,以及Martín Abadi、Michael Burrows等资深科学家。另外,谷歌首席科学家Vincent Vanhoucke也在谷歌大脑团队中。
2018年2月,Ilya Tolstikhin 等人提出了生成模型新算法:Wasserstein 自编码器,其不仅具有VAE的一些优点,更结合了GAN结构的特性,可以实现更好的性能。该研究的论文《Wasserstein Auto-Encoders》(https://arxiv.org/abs/1711.01558 )被在 4 月 30 日于温哥华举行的 ICLR 2018 大会接收。
2018年4月,谷歌架构调整。谷歌大脑(Google Brain)联合创始人杰夫·迪恩(Jeff Dean)将领导谷歌所有人工智能领域的项目。
在5月份的ICLR 2018中,和卡内基梅隆大学的研究者提出一种新型问答模型 QANet (https://openreview.net/pdf?id=B14TlG-RW),该模型去除了该领域此前常用的循环神经网络部分,仅使用卷积和自注意力机制,性能大大优于此前最优的模型。 来自谷歌大脑的研究者在arXiv上发表论文(https://arxiv.org/abs/1805.09501 ),提出一种自动搜索合适数据增强策略的方法 AutoAugment,该方法创建一个数据增强策略的搜索空间,利用搜索算法选取适合特定数据集的数据增强策略。此外,从一个数据集中学到的策略能够很好地迁移到其它相似的数据集上。
8月初,同柏林工业大学的研究人员在最新发表的论文Backprop Evolution (https://arxiv.org/pdf/1808.02822.pdf ),提出一种自动发现反向传播方程新变体的方法。该方法发现了一些新的方程,训练速度比标准的反向传播更快,训练时间也更短。
Ian等人还提出了对抗正则化方法(https://arxiv.org/pdf/1807.07543v2.pdf )显著改善了自编码器的平滑插值能力,这不仅能提高自编码器的泛化能力,对于后续任务的表征学习也会大有帮助。 此外,Ian和Augustus Odena共同提出了一种新方法覆盖引导模糊测试(coverage guided fuzzing,CGF),将其应用于神经网络的测试(https://arxiv.org/pdf/1808.02822.pdf ),该方法能够自动Debug神经网络。Goodfellow表示,希望这将成为涉及ML的复杂软件回归测试的基础,例如,在推出新版本的网络之前,使用fuzz来搜索新旧版本之间的差异。此外开源了名为TensorFuzz的CGF软件库。
在11月的时候公开了一篇论文“Simple, Distributed, and Accelerated Probabilistic Programming”(https://arxiv.org/pdf/1811.02091v1.pdf ),发表于NIPS 2018。论文提出了一种简单的方法,用于将概率编程嵌入到深度学习生态系统。这种简单分布式、加速的概率编程,可以将概率程序扩展到512个TPUv2、1亿+参数的模型。
年底的NeurIPS 2018上,密歇根大学和谷歌大脑的研究人员提出了一种新的面向NLP任务的机器学习新架构(https://papers.nips.cc/paper/7757-content-preserving-text-generation-with-attribute-controls.pdf ),不仅能够根据给定的实例生成句子,而且能够在保留句子意思的情况下,改变句子表达的感情、时态、复杂度等属性。
今年初,CMU联合谷歌大脑、谷歌 AI 发表了一篇论文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》(https://arxiv.org/pdf/1901.02860v1.pdf )。Transformer 网络具有学习更长期依赖性的潜力,但这种潜力往往会受到语言建模中上下文长度固定的限制。在此论文中,研究人员提出了一种叫做 Transformer-XL 的新神经架构来解决这一问题,它可以在不破坏时间一致性的情况下,让 Transformer 超越固定长度学习依赖性。
Facebook : FAIR(Facebook’s Artificial Intelligence Research)
五年前,Yann Lecun创立了 Facebook 人工智能研究院(FAIR),旨在通过开放研究推进人工智能的发展,并惠及所有人。FAIR 的目标是理解智能的本质,以创造真正的智能机器。自此以后,FAIR不断发展,并成长为一个国际研究组织,在门洛帕克、纽约、巴黎、蒙特利尔、特拉维夫、西雅图、匹兹堡、伦敦都设有实验室。人工智能已经成为 Facebook 的核心,因此 FAIR 现在是更大的 Facebook AI组织的组成部分,该组织致力于人工智能研发的各个方面,从基础研究到应用研究和技术开发。FAIR团队经常早早地发布前沿研究成果,并尽可能地开源研究代码、数据集和工具(如PyTorch、fastText、FAISS、Detectron)。这种方法也成功地推动了人工智能的研究发展。今年,FAIR 的研究人员已经获得了广泛认可,在 ACL、EMNLP、CVPR、ECCV 等大会获得了最佳论文奖,在 ECCV、ICML 和 NeurIPS会议上获得了时间检验奖(Test of Time award)。开放的工作可以让每个人在人工智能领域取得更快的进步。
4月初,FAIR 研究人员提出两种机器翻译模型的变体,一种是神经模型,另一种是基于短语的模型。研究者结合了近期提出的两种无监督方法,并简化了结构和损失函数,得出的新模型性能更优,且易于训练和调参。
5月13日,开源了围棋 AI ELF OpenGo训练模型及代码,它基于现有的强化学习研究平台 ELF,击败了世界围棋冠军。
6月19日,FAIR开源了 DensePose,这是一个能将人体所有像素的 2D RGB 图像实时映射到 3D 人体模型的应用。这一模型利用 COCO 数据集中 50K 张密集型人体对应关系的标注,并在有遮挡和尺度变换等自然情况下能准确实现密集型人体姿态估计。
11月初,FAIR 和纽约大学的研究者合作开发了一个新的自然语言推断语料库 XNLI,该语料库将 MultiNLI 的测试集和开发集扩展到 15 种语言,包括斯瓦西里语和乌尔都语等低资源语言。XNLI 是跨语言句子理解的基准,实际可用且具备一定难度,有助于带来更好的跨语言理解方法。 在年底,FAIR宣布推出 PyText 的开源版本,它是Facebook正在使用的主要自然语言处理(NLP)建模框架,目前每天在为 Facebook 及其应用程序系列的用户提供超过 10 亿次 AI 任务处理;同时FAIR开源了全卷积语音识别工具包wav2letter++。
今年年初,FAIR Alexander Kirillov、何恺明等人在《Panoptic Feature Pyramid Networks》(http://cn.arxiv.org/pdf/1901.02446v1)提出全景特征金字塔网络。该论文提出的全景特征金字塔网络结合了分别用于语义分割和实例分割的 FCN 和 Mask R-CNN,在两种任务基线上有很好的稳健性和准确率。
MIT : CSAIL(Computer Scienceand Artificial Intelligence Laboratory)
MIT的CSAIL最初是两个实验室:计算机实验室创办于1963年,人工智能实验室创办于1959年,两个实验室在2003年正式合并。 CSAIL是MIT最大的实验室,也是世界上最重要的信息技术研发中心。CSAIL的成员创立了多于100家知名公司,包括机器人之父科林·安格尔,iRobot公司创始人之一海伦·格雷纳,波士顿动力公司创始人马克·雷伯特,还有卡内基·梅隆大学机器人研究所的负责人马特·梅森。
4月初,CSAIL研发出一种名为Pixel Player系统(https://arxiv.org/abs/1804.03160 ),能够通过大量无标签的视频来学习声音定位,更强大的是,Pixel Player能够把声音与声源的像素点进行分离,并完美做到视觉与声音的同步,“想听哪里点哪里”。同时,利用Pixel Player系统,用户能够对图像中不同的声音分别进行音量调节,实现简单的音频编辑。 此外还提出了一款名为 RoadTracer 的道路采集系统。针对道路交汇路段,RoadTracer 的采集准确率能达到 45%,远高于传统图像分割方法的 19%。
5月初,CSAIL1的研究人员开发了一种全新的系统 MapLite,这种系统允许无人车在不依赖 3D 地图的情况下,在未知的道路上驾驶。此外,该系统还能将 Google 地图上的 GPS 数据与一系列传感器收集到的路况信息结合起来。
7月,CSAIL和电子工程与计算机科学系( EECS )的研究人员开发了一种模型用于更有效的选择先导分子。该模型输入分子结构数据,创建分子图片,详细展示分子结构,节点代表原子,边线代表化学键。这些图又被分解成更小的有效官能团簇,成为“构件”,用于实现更精确的分子重构和修饰。
8月,CSAIL正式发布编程语言Julia 1.0,这门由MIT CSAIL 实验室开发的编程语言结合了 C 语言的速度、Ruby 的灵活、Python 的通用性,以及其他各种语言的优势于一身,并且具有开源、简单易掌握的特点。
10月4日,CSAIL和QRCI(卡塔尔计算研究所)宣布研究出一种可以识别虚假新闻在传播前的来源和个人政治偏见的AI系统。他们所使用的机器学习算法利用现有文章集合来衡量给定出口的准确性和偏差,该系统或可将不可信赖的新闻信息自动分类。
在12月发表的论文Deep sequential models for sampling-based planning(https://arxiv.org/abs/1810.00804 )中,研究人员展示了他们的模型在两个环境中的优势:通过具有陷阱和狭窄通道的具有挑战性的房间导航,以及在避免与其他Agent碰撞的区域导航。一个有前途的现实世界应用程序正在帮助自动驾驶汽车在十字路口行驶,在那里他们必须在并入交通之前快速评估其他汽车将做什么。目前,研究人员正通过丰田凯撒尔联合研究中心来研究这些应用。 NeurIPS 2018中,CSAIL和谷歌的研究人员发表了一篇论文,描述了一个能够生成具有逼真纹理的人工智能系统——视觉对象网络(Visual Object Networks,VON),不仅生成的图像比当前最先进的方法还要逼真,还可以进行形状和纹理编辑、视角转换以及其它3D调整。
UC Berkeley : BAIR(Berkeley Artificial Intelligence Research)
加州大学伯克利分校的人工智能研究室(Berkeley Artificial Intelligence Research)主要研究领域涵盖计算机视觉、机器学习、自然语言处理、规划和机器人等(computer vision,machine learning,natural language processing, planning, and robotics)。其中的机器人和智能机器实验室,致力于用机器人复制动物的行为。其自动化科学和工程实验室从事更广泛的机器人功能的研究,如机器人辅助外科手术和自动化制造。还有计算机可视化小组,学生可以学到如何帮助机器人能“看的见”。
4月的时候,BAIR介绍了他们对于运动建模的最新研究成果DeepMimic模型,他们使用动作捕捉片段训练自己的模型。训练中着力减小跟踪误差并采用提前终止的方法来优化训练结果。训练模型最终表现优秀。
6月,BAIR发表博客论文Delayed Impact of Fair Machine Learning,讨论了静态公平性准则的长期影响,发现结果和人们的期望相差甚远。相关论文被 ICML 2018 大会接收(https://arxiv.org/pdf/1803.04383.pdf )。
6月的时候还发布了迄今为止规模最大、最多样化的开放驾驶视频数据集BDD100K。该数据集共包含 10 万个视频,BAIR 研究者在视频上采样关键帧,并为这些关键帧提供注释。此外,BAIR 还将在 CVPR 2018 自动驾驶 Workshop 上基于其数据举办三项挑战赛。
10月18日,BAIR开源了DeepMimic(https://xbpeng.github.io/projects/DeepMimic/index.html )。DeepMimic使用强化学习技术,用动作捕捉片段训练模型,教会了AI智能体完成24种动作,包括翻跟斗、侧翻跳、投球、高踢腿等等,动作非常流畅自然。
BAIR的研究人员还提出了一种从视频中学习技能的框架(skills from videos,SFV),结合了前沿的计算机视觉和强化学习技术构建的系统可以从视频中学习种类繁多的技能,包括后空翻和很滚翻等高难度动作。同时智能体还学会了在仿真物理环境中复现这些技能的策略,而无需任何的手工位姿标记。
BAIR年末的一篇Visual Foresight: Model-Based Deep Reinforcement Learning for Vision-Based Robotic Control(https://arxiv.org/abs/1812.00568 )论文中,提出了一种自我监督的基于模型的方法,在这种方法中,预测模型学习直接从原始感官读数(如摄像机图像)预测未来,证明了可视化MPC可以概括为从未见过的对象并使用相同的模型解决一系列用户定义的对象操作任务。
蒙特利尔大学 : MILA(Montreal Institute for Learning Algorithms)
加拿大蒙特利尔现在被媒体称作是人工智能的“新硅谷”。加拿大广播公司报道说,这个功劳,主要归功于“深度学习三巨头”之一的Yoshua Bengio。他是MILA(Montreal Institute for Learning
Algorithms)的创始人,带领团队进行人工智能研究已经有超过10年的时间。由蒙特利尔大学 (University of Montreal )的计算机学教授Yoshua Bengio带领,MILA在深度学习(deep learning)和深度神经网络(辨别型和生成型)(deep neural networks, both discriminative and generative)等领域都有开创性研究,并应用到视觉、语音和语言方面等领域。
4月,MILA提出了一种有助于提升深度网络在应对对抗攻击方面的稳健性的模型:防御增强型网络(Fortified Networks)。该研究已提交 ICML 2018 (https://arxiv.org/abs/1804.02485v1 )。
10月,Yoshua Bengio及其小组提出了一个叫做「BabyAI」的研究平台用来训练人工智能从头学习和理解人类语言,每个单词背后的意思到底是什么。该平台包括一个有效模拟的网格世界环境(MiniGrid)和一些被称之为Level的指令跟随任务,全部由合成语言的子集(婴儿语言)形成。平台还提供了一个模拟人类的启发式专家,用于模拟人类教师。
斯坦福:SAIL(Stanford Artificial Intelligence Laboratory)
去年一年里,SAIL所获得的最佳论文:Yuanzhi Li, Tengyu Ma, Hongyang Zhang. Algorithmic Regularization in Over-parameterized Matrix Sensing and Neural Networks with Quadratic Activations. Best paper award at COLT 2018.
在论文中探讨了了梯度下降法为训练过参数化的矩阵分解模型,以及使用二次函数作为激活函数 的单隐含层神经网络提供了隐式的正则化效果。Pranav Rajpurkar, Robin Jia, Percy Liang. Know What You Don’t Know : Unanswerable Questions for SQuAD.. Best short paper ACL 2018.
在这篇论文中,SAIL提供了SQuAD 2.0,这是斯坦福问答数据集(SQuAD)的最新版本。SQuAD 2.0将现有的SQuAD数据与5万多个无法回答的问题结合在一起,这些问题由众包人员以相反的方式撰写,看起来与可回答问题类似。为了在SQuAD 2.0上取得好成绩,系统不仅必须尽可能回答问题,还要确定何时段落不支持答案并且不回答问题。SQuAD 2.0对于现有模型来说是一个具有挑战性的自然语言理解任务:在SQuAD 1.1上获得86% F1的强大的神经系统在SQuAD 2.0上仅获得66%F1。Rob Voigt, Nicholas P. Camp, Vinodkumar Prabhakaran, William L. Hamilton, Rebecca C. Hetey, Camilla M. Griffiths, David Jurgens, Dan Jurafsky, and Jennifer L. Eberhardt. Language from police body camera footage shows racial disparities in officer respect. Cozzarrelli Prize (best paper in PNAS).
这篇论文利用随身携带的摄像机拍摄的录像,分析了警察语言在日常交通中对白人和黑人社区成员的尊重程度,发现即使在控制了警察的种族、违法行为的严重程度、停车地点和停车结果之后,警察对黑人和白人社区成员的尊重程度也一直较低。 Amir Zamir, Alexander Sax, William Shen, Leonidas Guibas, Jitendra Malik, Silvio Savarese. Taskonomy:Disentangling Task Transfer Learning. Best paper award at CVPR 2018.
这篇论文提出了一种计算不同任务相似性的方法,以及利用不同任务相似性,在少量训练数据条件下进行多任务组合学习的分配方法。文章的最终目标是通过计算任务相似性,进一步计算选取针对目标任务的多任务组合进行训练,并实现以少量数据尽可能接近全监督学习的性能。Zi Ye, Olga Diamanti, Chengcheng Tang, Leonidas Guibas, Tim Hoffmann. A unified discrete framework for intrinsic and extrinsic Dirac operators for geometry processing. 1st Place best paper award at SGP 2018.
本文考虑了一对离散的Dirac算子,后者对应于每个面上定义了多边形面和正态线的离散面,并证明了光滑理论的许多关键性质。特别地,讨论了相应的自旋变换、它们的保角不变量以及这一算符与其内在对应算符之间的关系。Jingwei Huang, Yichao Zhou, Matthias Nießner, Jonathan Shewchuk, Leonidas Guibas. QuadriFlow: A Scalable and Robust Method for Quadrangulation. 2nd Place best paper award at SGP 2018.
本文提出的算法是在Instant Field-Aligned Meshes 这篇文章的基础提出的。本文提出了一种有效的方法,通过将实时网络目标与线性和二次约束系统相结合来最小化奇点。通过解决全局最小成本网络流问题和本地布尔满意度问题来实施这些约束。利用本文算法生成的四边形质量与其他方法一样好,而且运行速度较快。其他的外部算法产生的奇点比较慢,本文的算法花费不到10秒钟来处理每个模型。
Hongseok Namkoong, John Duchi. Variance-based Regularization with Convex Objectives. Best paper award at NIPS 2017.
这篇文章研究了一种风险最小化和随机优化的方法,该方法可以为方差提供一个凸属性的替代项,并允许在逼近和估计误差间实现近似最优与高效计算间的权衡。
卡内基梅隆大学
卡内基梅隆大学(Carnegie Mellon University)一直是众所周知的计算机领域大牛。自人工智能(ArtificalIntelligence)领域创建以来,卡内基梅隆大学一直在全球引领AI的研究、教育和创新。在18年秋季,其计算机学院开设全美第一个人工智能本科专业。
CMU团队最新的主要研究成果如下:
CMU的陈鑫磊(现Facebook 研究科学家)、Abhinav Gupta,谷歌的李佳、李飞飞等人提出的一种新型推理框架《Iterative Visual Reasoning Beyond Convolutions》(https://arxiv.org/abs/1803.11189 ),其探索空间和语义关系的推理性能大大超过了普通卷积神经网络,被评为 CVPR 2018 大会 Spotlight 论文。
年中时候,在读博士刘寒骁、DeepMind 研究员 Karen Simonyan 以及 CMU 教授杨一鸣提出的「可微架构搜索」DARTS 方法基于连续搜索空间的梯度下降,可让计算机更高效地搜索神经网络架构。该研究的论文《DARTS: Differentiable Architecture Search》(https://arxiv.org/abs/1806.09055 )一经发出便引起了 Andrew Karpathy、Oriol Vinyals 等学者的关注。研究者称,该方法已被证明在卷积神经网络和循环神经网络上都可以获得业内最优的效果,而所用 GPU 算力有时甚至仅为此前搜索方法的 700 分之 1,这意味着单块 GPU 也可以完成任务。
10月份的时候,来自英特尔实验室和卡内基梅隆大学的研究员提出了一种用于序列建模的新架构Trellis Network。研究员声称,Trellis Network吸收了循环神经网络和卷积神经网络中的结构和算法元素。实验证明,Trellis Network在各种具有挑战性的基准测试中表现都优于当前的技术水平,包括Penn Treebank和WikiText-103。
在年底,NIPS 2018 对抗视觉挑战赛中, CMU 邢波团队包揽两项冠军,另一项冠军则由来自加拿大的 LIVIA 团队斩获,清华 TSAIL 团队获得“无针对性攻击”的亚军。本次比赛共分为三个单元:防御、无针对性攻击和有针对性攻击。
CMU、北大和 MIT 的研究者在年底发表了论文《Gradient Descent Finds Global Minima of Deep Neural Networks》(https://arxiv.org/abs/1811.03804v1 ),该论文证明了对于具有残差连接的深度超参数神经网络(ResNet),梯度下降可以在多项式时间内实现零训练损失。研究者的分析依赖于神经网络架构引入的格拉姆矩阵的多项式结构。这种结构帮助研究者证明格拉姆矩阵在训练过程中的稳定性,而且这种稳定性意味着梯度下降算法的全局最优性。
伊利诺伊大学大学厄本那香槟分校
伊利诺伊大学厄巴纳-香槟分校(University of Illinoisat Urbana-Champaign,缩写为UIUC),建立于1867年,是一所享有世界声望的一流研究型大学。该大学从美国国家科学基金会(NSF)获得研究经费量年年在全美名列第一。位於该大学的美国国家超级计算应用中心(NCSA)在高性能计算、网路和资讯技术的研究和部署领域,一直处于世界领先的地位。
UIUC的最新研究成果如下:
来自北京邮电大学和UIUC的研究者们提出一种适用于密集人群计数的空洞卷积神经网络模型 CSRNet,论文《CSRNet: Dilated Convolutional Neural Networks for Understanding the Highly Congested Scenes》(https://arxiv.org/pdf/1802.10062.pdf)。该网络模型摆脱以往广泛应用于人群计数的多通道卷积网络方案,在大幅削减网络参数量和网络训练难度的同时,显著提升了人群计数的精度和人群分布密度图的还原度。该研究已被 CVPR 2018 接收。
UIUC 和 Zillow 的研究者发表《LayoutNet: Reconstructing the 3D Room Layout from a Single RGB Image》(https://arxiv.org/abs/1803.08999 )论文提出了 LayoutNet,它是一个仅通过单张透视图或全景图就能估算室内场景 3D 布局的深度卷积神经网络(CNN)。该方法在全景图上的运行速度和预测精度比较好,在透视图上的性能是最好的方案之一。该方法也能够推广到非长方体的曼哈顿布局中,例如“L”形的房间。
极低照明度下,传统增加亮度的方法会放大噪点和色彩失真。而 UIUC 和英特尔的研究者在《Learning to See in the Dark》(https://arxiv.org/abs/1805.01934 )中通过全卷积网络处理这一类黑黑的照明度图像,并在抑噪和保真的条件下将它们恢复到正常亮度。这种端到端的方法将为机器赋予强大的夜视能力,且还不需要额外的硬件。