链接:https://www.zhihu.com/question/504050716
编辑:深度学习与计算机视觉
声明:仅做学术分享,侵删
作者:星邪
https://www.zhihu.com/question/504050716/answer/2280529580
不敢妄加评论,只是个人意见,GitHub上有人总结了2021 Amazing AI papers,我认为比较中肯,基本可以算是今年影响力比较大的论文集锦:https://github.com/louisfb01/best_AI_papers_2021
我认为其一是Transformer攻占各个领域,尤其是Swin Transformer大杀四方;其二是各大研究机构的.预训练大模型发布及其在下游任务的惊人性能,当然这也离不开self-supervised+transformer;其三就是大家都提到的MAE,当然还是离不开transformer;还有一个我认为比较重要的是基于NeRF的一系列工作也在今年开始爆发,包括CVPR best paper GIRAFFE,不过这方面工作主要还是集中在国外研究团队
作者:Riser
https://www.zhihu.com/question/504050716/answer/2285962009
刚刚看了Andrew Ng老师的“赠人玫瑰,手有余香”的圣诞寄语,并回顾了2021年AI社区的发展,并对未来社区的发展进行了展望。
原文链接:https://read.deeplearning.ai/the-batch/issue-123/
吴恩达老师主要谈到了:多模态AI的起飞,万亿级参数的大模型,Transformer架构,还有恩达老师本行—AI生成音频内容,人工智能相关法律的纷纷出台,前三个课题也是我比较关注的,结合恩达老师的talk发表一点点自己的理解。
个人觉得Open AI的 CLIP绝对是2021多模态AI的杰出代表,将图像分类任务建模为图文匹配,利用互联网大量的文本信息监督图像任务,感觉“文本+图像”,甚至“文本+图像+知识图谱"是这块未来前景很好的一条线,也有很多lab已经开始了这块的研究。另外Open AI的Dall·E(根据输入文本生成对应图像),DeepMind 的 Perceiver IO (文本、图像、视频及点云进行分类),斯坦福大学的ConVIRT(为医学 X 射线影像添加文本标签)也都是这个课题很好的开端。
显然过去一年,模型经历了从更大到更大的发展历程。
从谷歌参数量1.6万亿的Switch Transformer,到北京人工智能研究院1.75万亿的悟道2.0,一次次刷新模型量级的上线,抛开模型量级不说,它们最初的motivation和Bert都是一样的,为许多下游任务提供更general更好用的语言预训练模型,或许这种“general learning”的思想也将迁移到CV领域(事实上,我们做很多任务也会迁移imagenet的预训练模型),更大级别的general CV model或许需要我们对图像的数据格式特点和自监督训练模式进行思考。
另外就是Transformer在各大视觉顶会和机器学习顶会杀疯了,Swin Transformer踩着VIT,Detr等众多视觉Transformer前驱的肩膀上拿下ICCV2021 best paper,证明了Transformer在视觉任务上的适用性,Transformer在音频文本等序列任务基本已经被证明革了RNN的命,而这年,我们看到Transformer开始挑战CNN在视觉任务的霸主地位,当然将这两者有机融合也是当前很热很被看好的点。DeepMind 发布了 AlphaFold 2 的开源版本,其使用 transformers 根据氨基酸序列预测蛋白质的 3D 结构,震惊医学界,对人类自然生物领域做出了杰出贡献。这些都证明了Transformer具备良好的普适性,也期待更多更优越的模型架构出现,解决更多的问题。
另外不可忽视的就是基于nerf(Neural Radiance Fields)的一系列工作的爆发,几乎统治了三维重建等很多课题,严格来说nerf是2020年的工作,一直觉得没有拿到当年ECCV的best paper很遗憾(当然Raft也很强。。),不过GIRAFFE拿下今年的CVPR2021 best paper也算弥补了这个遗憾。
总之,2021年很多AI研究依旧激动人心,让我们共同期待和亲历2022 AI 的发展!!!
作者:匿名用户
https://www.zhihu.com/question/504050716/answer/2280944226
理论方面感觉都在灌水。唯一可能可以算关键性进展的工作可能是 Proxy Convexity: A Unified Framework for the Analysis of Neural Networks Trained by Gradient Descent; Frei & Gu 2021. 这篇文章是深度学习优化理论的集大成者。
作者:灰瞳六分仪 https://www.zhihu.com/question/504050716/answer/2280495756
我关心的领域都比较小,也没啥很惊艳的东西
比较火热的工作中,MAE确实很有趣,但总觉得还是没有NLP里使用mask那么自然
总感觉CV中比较自然的自监督预训练的未来没有大家想的这么近,隐约感觉会和二维画面的三维重建有关
作者:匿名用户
https://www.zhihu.com/question/504050716/answer/2279821079
我心中最关键的是clip…我觉得clip比vit要有意思。当然vit也开启了很重要的一个方向,rethinking architecture for vision tasks
dalle是个非常impressive的work。gan也有很多,比如styleganv3和gaugan2。nerf的followup也有很多。
除此之外,还有ssl吧,但我觉得都不是本质性的breakthrough。。。即便是mae也只是证明了以前的self reconstruction对vit的backbone十分有效
作者:吃猫的鱼
https://www.zhihu.com/question/504050716/answer/2279784861
看到这问题脑海中想到的第一个可能就是今年ICCV的best paper:swin transformer了。这篇论文也是对当前transformer在CV领域的热门ViT(Vision Transformer)的一种继承吧。
包括可以看今年transformer在计算机视觉顶会CVPR和ICCV上的应用,用到transformerz占了很大一部分,可以看到在CV领域使用transformer将会是一股热潮。而Swin Transformer更是其中的巅峰之作,目前在CV领域应该没有效果超过Swin Transformer的结构的了。
所以我觉得Swin Transformer可以说是今年深度学习领域的关键性进展了吧。
☆ END ☆
如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。
↓扫描二维码添加小编↓