一年一度的斯坦福「人工智能指数」报告来了,过去一年,全球 AI 领域又有哪些热门趋势和动向呢?
在人工智能领域,由斯坦福大学发起的人工智能指数(AI Index)是一个追踪 AI 动态和进展的非营利性项目,旨在全面研究 AI 行业状况,旨在促进基于数据的 AI 广泛交流和有效对话。
刚刚,AI Index 正式发布了 2022 年度报告。
报告下载地址:https://aiindex.stanford.edu/report/
2022 年度发布的报告要点可总结为以下八点:
1. AI 领域私人投资猛增,投资集中度加剧。
2. 美国和中国主导了 AI 跨国合作。
3. 语言模型比以往任何时候都更有能力,但也更有偏见。
4. AI 伦理的兴起无处不在。
5. AI 变得更负担得起,性能更高。
6. 数据,数据,还是数据。
7. 关于 AI 的全球性立法比以往任何时候都多。
8. 机械臂越来越便宜
来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 新架构。
近年来,计算机视觉领域的新型架构层出不穷,包括视觉 Transformer、MLP 等,它们在很多任务上都取得了超越 CNN 的性能,受到广泛关注。其中,视觉 MLP 具有极其简单的架构,它仅由多层感知器(MLP)堆叠而成。与 CNN 和 Transformer 相比,这些简洁的 MLP 架构引入了更少的归纳偏置,具有更强的泛化性能。
然而,现有视觉 MLP 架构的性能依然弱于 CNN 和 Transformer。来自华为诺亚方舟实验室、北京大学、悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 架构,在 ImageNet 分类、COCO 检测、ADE20K 分割等多个任务上取得了 SOTA 性能。
论文地址:
https://arxiv.org/abs/2111.12294PyTorch
代码:
https://github.com/huawei-noah/CV-Backbones/tree/master/wavemlp_pytorchMindSpore
代码:
https://gitee.com/mindspore/models/tree/master/research/cv/wave_mlp
从早期的学术框架 Caffe、Theano,到后来的PyTorch、TensorFlow,自 2012 年深度学习再度成为焦点以来,很多机器学习框架成为研究者和业界工作者的新宠。
2018 年底,谷歌推出了全新的JAX框架,其受欢迎程度也一直在稳步提升。很多研究者对其寄予厚望,希望它可以取代 TensorFlow 等众多深度学习框架。
不过,PyTorch 和 TensorFlow仍是ML框架领域的两大实力玩家,其他新生框架的力量暂时还无法匹敌。而PyTorch 和 TensorFlow之间则是此消彼长的关系,力量对比也在悄悄发生着变化。
2019年10月,康奈尔大学本科生、曾在PyTorch 团队实习的Horace He曾对PyTorch 和 TensorFlow在学界的使用情况进行了数据统计。结果显示,研究者已经大批涌向了 PyTorch,不过当时看来,业界的首选仍然是 TensorFlow。
如下图所示,从2019年中期开始,在统计的各大顶会中,PyTorch从使用率指标上就已完成了对TensorFlow的反超。
数据收集时间:2019年10月。
来自 MIT 和哈佛大学博德研究所等机构的一项研究刚刚登上了 Nature 封面。他们创建了一个数学框架来预测基因组中非编码序列的突变及其对基因表达的影响。研究人员将能够利用这些模型来设计细胞、研发新药、寻找包括癌症和自身免疫性疾病在内的疾病新疗法。
尽管每个人类细胞都包含大量基因,但所谓的「编码」DNA 序列仅占人类整个基因组的 1%。剩下的 99% 由「非编码」DNA 组成,非编码 DNA 不携带构建蛋白质的指令。
这种非编码 DNA(也称为调控 DNA)的一个重要功能是帮助打开和关闭基因,控制蛋白质的合成量。随着时间的推移,细胞复制它们的 DNA 以生长和分裂,这些非编码区域经常会出现突变——有时会调整它们的功能并改变它们控制基因表达的方式。这些突变大多是微不足道的,但有时可能会增加一些疾病风险,包括癌症。
近日,来自麻省理工学院和哈佛大学博德研究所等机构的研究者开发了一种新框架来研究调控 DNA 的适应度地形。该研究利用在数亿次实验测量结果上进行训练的神经网络模型,预测酵母菌 DNA 中非编码序列的变化及其对基因表达的影响,登上了最新一期《自然》杂志的封面。
论文地址:https://www.nature.com/articles/s41586-022-04506-6
1.FlexIT:迈向灵活的语义图像翻译
论文题目:
FlexIT: Towards Flexible Semantic Image Translation
论文摘要:
深度生成模型,如 GAN,极大地提高了图像合成的技术水平,并且能够在人脸等结构化域中生成接近照片般逼真的图像。基于这一成功,最近的图像编辑工作通过将图像投影到 GAN 潜在空间并操纵潜在向量来进行。然而,这些方法的局限性在于只能转换来自窄域的图像,并且只能进行有限数量的编辑操作。我们提出了 FlexIT,这是一种新颖的方法,可以采用任何输入图像和用户定义的文本指令进行编辑。我们的方法实现了灵活自然的编辑,突破了语义图像翻译的极限。首先,FlexIT 将输入图像和文本组合成 CLIP 多模态嵌入空间中的单个目标点。通过自动编码器的潜在空间,我们将输入图像迭代地变换到目标点,通过各种新颖的正则化项确保连贯性和质量。我们提出了一种用于语义图像翻译的评估协议,并在 ImageNet 上彻底评估了我们的方法
论文地址:
https://arxiv.org/abs/2203.04705
2.YOLOP
论文题目:
You Only Look Once for Panoptic Driving Perception
论文摘要:
全景驾驶感知系统是自动驾驶的重要组成部分。高精度、实时的感知系统可以辅助车辆在行驶中做出合理的决策。我们提出了一个全景驾驶感知网络(YOLOP)来同时执行交通目标检测、可行驶区域分割和车道检测。它由一个用于特征提取的编码器和三个用于处理特定任务的解码器组成。我们的模型在具有挑战性的 BDD100K 数据集上表现非常出色,在准确性和速度方面在所有三个任务上都达到了最先进的水平。此外,我们通过消融研究验证了我们的多任务学习模型对联合训练的有效性。据我们所知,这是第一个可以在嵌入式设备 Jetson TX2(23 FPS)上实时同时处理这三个视觉感知任务并保持出色精度的工作。
代码地址:
https://arxiv.org/abs/2108.11250v5
论文地址:
https://arxiv.org/abs/2201.03545