关注极市平台公众号(ID:extrememart),获取计算机视觉前沿资讯/技术干货/招聘面经等
原文链接:大盘点|卷积神经网络必读的 100 篇经典论文,包含检测 / 识别 / 分类 / 分割多个领域
参考|学术头条
编辑|极市平台
作为深度学习的代表算法之一,卷积神经网络(Convolutional Neural Networks,CNN)在计算机视觉等领域上取得了当前最好的效果。
1998 年,Yann LeCun提出LeNet-5,将 BP 算法应用到神经网络结构的训练上,形成当代CNN雏形。2012 年,在 Imagenet 图像识别大赛中,Hinton 组的论文中提到的 Alexnet 引入了全新的深层结构和 dropout 方法,将 error rate 从 25% 以上提升到了 15%,一举颠覆了图像识别领域,CNN自此声名大噪并蓬勃发展。在 2016 年,CNN 再次给人们一个惊喜:谷歌研发的基于深度神经网络和搜索树的智能机器人“AlphaGo”在围棋上击败人类。随后利用 ResNet 和 Faster-RCNN 的思想,一年后的 Master 完虐了所有人类围棋高手,达到神一般的境界。
可以说,卷积神经网络是深度学习算法应用最成功的领域之一。
而研读卷积神经网络的经典论文,对于学习和研究卷积神经网络必不可缺。根据相关算法,科技情报大数据挖掘与服务系统平台AMiner从人工智能领域国际顶会/期刊中提取出“卷积神经网络”相关关键词,筛选推荐了100 篇经典必读论文,内容包含CNN在检测/识别/分类/分割/跟踪等领域的理论与实践,并按被引用量进行了排序整理。
这 100 篇论文大多发表于 2015 年至 2019 年间,主要发表在 CVPR、ICCV、ICML、NeuIPS 等计算机视觉顶级学术会议上。在该领域发表论文最多的学者中,“神经网络之父”、“深度学习鼻祖”Hinton 与 Bengio 双双上榜,为深度学习研究持续贡献了力量。
下文将对这100篇论文进行**按被引用量的排序,**并对部分作简单评述(文末附打包下载):
*1. Fully Convolutional Networks for Semantic Segmentation |CVPR2015|引用量:13136作者信息:UC Berkeley|Jonathan Long,Evan Shelhamer,Trevor Darrell
本篇论文是神经网络大神 Jonathan Long 与他的博士同学 Evan Shelhamer、导师 Trevor Darrell 的代表作,获得了 CVPR 2015 年最佳论文奖。该文的核心贡献,在于提出了全卷积网络(FCN)的概念,它是一种可以接受任意大小图像并输出与输入等大的图像的全卷积神经网络,针对语义分割训练一个端到端,点对点的网络,达到了 state-of-the-art。这是第一次训练端到端的 FCN,用于像素级的预测;也是第一次用监督预训练的方法训练 FCN。
*2. Convolutional Neural Networks for Sentence Classification|EMNLP 2014|引用量:5978
论文信息:纽约大学|Yoon Kim
*3. Large-Scale Video Classification with Convolutional Neural Networks|CVPR2014|引用量:4145
作者信息:谷歌,斯坦福大学|Andrej Karpathy,George Toderici,Sanketh Shetty,Thomas Leung,Rahul Sukthankar,Li Fei-F
该文研究了多种方法来扩展 CNN 在时域上的连通性,以利用局部时空信息,作者提出一个多分辨率、新颖的框架的方式来加快训练(计算效率)。文章的贡献点主要有三个:
1.将 CNN 拓展,用于视频分类;
2.使用两种不同的分辨率的帧分别作为输入,输入到两个 CNN 中,在最后的两个全连接层将两个 CNN 统一起来;两个流分别是低分辨率的内容流和采用每一个帧中间部分的高分辨率流;
3.将从自建数据库学习到的 CNN 结构迁移到 UCF-101 数据集上面。
*4. How transferable are features in deep neural networks? |NIPS 2014|引用量:3414
作者信息:卡耐基梅隆大学,怀俄明大学,蒙特利尔大学|Jason Yosinski,Jeff Clune,Yoshua Bengio,Hod Lipson
本文是 Bengio 团队关于迁移学习(Transfer Learning)的研究,文章实验了深度神经网络中不同层神经元的泛化性能和特异性,研究了模型的迁移能力两个主要影响因素,对于研究深度神经网络特征的可迁移性具有重要意义。
*5. Learning Spatiotemporal Features with 3D Convolutional Networks|ICCV2015|引用量:2711作者信息:Facebook,达特茅斯学院|Du Tran,Lubomir Bourdev,Rob Fergus,Lorenzo Torresani,Manohar Paluri
这篇文章介绍了在大规模有监督的视频数据集下,训练出了一种简单且高效的三维卷积神经网络的方法来学习时空特征。
3D 卷积网络的优势有三点:
1)同2D 卷积网络相比,3D 卷积网络更适合时空特征的学习;
2)3D 卷积网络的每一层的卷积核的结构是齐次的,并且在很多结构中都适用;
3)将学到的特征成为 C3D,带有一个简单的线性分类器,在 4 个不同的 benchmarks 上测试都实现了最好的性能,并且在另外的 2 个 benchmarks 上与目前的最好的方法相媲美。
*6. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation|引用量:2373
作者信息:剑桥大学|Vijay Badrinarayanan,Alex Kendall,Roberto Cipolla
本文提出了一种用于像素级语义分割的深度全卷积神经网络结构 SegNet。SegNet 的创新点在于译码器对输入的低分辨率特征图的上采样处理方式。具体来讲,解码器利用在 max-pooling 过程中计算的池化 indices,计算对应的编码器的非线性上采样。这个操作就省去了上采样过程的学习。上采样后的 map 是稀疏的,再用可学习的 filter 通过卷积计算稠密的特征图。
*7. XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks|ECCV2016|引用量:1713
作者信息:艾伦人工智能研究所,华盛顿大学|Mohammad Rastegari,Vicente Ordonez,Joseph Redmon,Ali Farhadi
该文针对标准卷积神经网络提出了两种有效的近似网络:二元权重网络和 XNOR 网络。二元权重网络中,卷积核用两个值来近似表示,从而节省 32 倍的存储空间。在 XNOR 网络中,卷积核和卷积层输入都是用两个值(1 和 -1)表示的。XNOR 网络主要使用二元运算进行卷积运算。这使得卷积操作速度提高了 58 倍,节省了 32 倍的内存。
*8. Character-level Convolutional Networks for Text Classification|NIPS2015|引用量:1701
作者信息:纽约大学|Xiang Zhang,Junbo Zhao,Yann LeCun
*9. Towards End-To-End Speech Recognition with Recurrent Neural Networks|ICML2014|引用量:1339
作者信息:DeepMind,多伦多大学|Alex Graves,Navdeep Jaitly
*10. DRAW: A Recurrent Neural Network For Image Generation|ICML 2015|引用量:1186
作者信息:Google DeepMind|Karol Gregor,Ivo Danihelka,Alex Graves,Danilo Jimenez Rezende,Daan Wierstra
本文介绍了一种可应用于图像生成的 Deep Recurrent Attentive Writer(DRAW)神经网络模型,此模型能够生成高质量的自然图像,并提高了在 MNIST 数据集上生成模型表现的最好水平。此外,使用 SVHN 数据集训练的 DRAW 模型生成的图片,裸眼无法分辨其与真实数据的区别。
*11. Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency Maps|ICLR2013|引用量:1170
作者:Karen Simonyan,Andrea Vedaldi,Andrew Zisserman
*12. Neural Collaborative Filtering|引用量:1141
作者:Xiangnan He,Lizi Liao,Hanwang Zhang,Liqiang Nie,Xia Hu,Tat-Seng Chua
*13. Image Style Transfer Using Convolutional Neural Networks|CVPR2016|引用量:1107
作者:Leon A. Gatys,Alexander S. Ecker,Matthias Bethge
*14. Image Super-Resolution Using Deep Convolutional Networks|IEEE2016|引用量:1035
作者:Chao Dong,Chen Change Loy,Kaiming He,Xiaoou Tang
*15. Distilling the Knowledge in a Neural Network|引用量:1021
作者:Geoffrey E. Hinton,Oriol Vinyals,Jeffrey Dean
*16. Recurrent Convolutional Neural Networks for Text Classification」AAAI2015|引用量916
作者:Siwei Lai,Liheng Xu,Kang Liu,Jun Zhao
*17. Squeeze-and-Excitation Networks|CVPR2018|引用量886
作者:Jie Hu,Li Shen,Gang Sun
*18. Convolutional Sequence to Sequence Learning|ICML2017|引用量:777
作者:Jonas Gehring,Michael Auli,David Grangier,Denis Yarats,Yann N. Dauphin
*19. Non-local Neural Networks|CVPR2018|引用量:751
作者:Xiaolong Wang,Ross B. Girshick,Abhinav Gupta,Kaiming He
*20. Residual Attention Network for Image Classification|CVPR2017|引用量:568
作者:Fei Wang,Mengqing Jiang,Chen Qian,Shuo Yang,Cheng Li,Honggang Zhang,Xiaogang Wang,Xiaoou Tang
*21. Image Super-Resolution via Deep Recursive Residual Network|CVPR2017|引用量559
作者:Ying Tai,Jian Yang,Xiaoming Liu
*22. PoseNet: A Convolutional Network for Real-Time 6-DOF Camera Relocalization|ICCV2015|引用量503
作者:Alex Kendall,Matthew Grimes,Roberto Cipolla
*23. Learning to Rank Short Text Pairs with Convolutional Deep Neural Networks|引用量:483
作者:Aliaksei Severyn,Alessandro Moschitti
*24. Deformable Convolutional Networks|ICCV2017|引用量:476
作者:Jifeng Dai,Haozhi Qi,Yuwen Xiong,Yi Li,Guodong Zhang,Han Hu,Yichen Wei
*25. Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting|引用量399
作者:Xingjian Shi,Zhourong Chen,Hao Wang,Dit-Yan Yeung,Wai-Kin Wong,Wang-chun Woo
*26. Fast Training of Convolutional Networks through FFTs|引用量:385
作者:Michaël Mathieu,Mikael Henaff,Yann LeCun
*26. Large Kernel Matters - Improve Semantic Segmentation by Global Convolutional Network|CVPR2017|引用量377
作者:Chao Peng,Xiangyu Zhang,Gang Yu,Guiming Luo,Jian Sun
*27. Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition|AAAI2018|引用量353
作者:Sijie Yan,Yuanjun Xiong,Dahua Lin
*28. The One Hundred Layers Tiramisu: Fully Convolutional DenseNets for Semantic Segmentation|CVPR2017|引用量:333
作者:Simon Jégou,Michal Drozdzal,David Vázquez,Adriana Romero,Yoshua Bengio
*29. Multi-Oriented Text Detection with Fully Convolutional Networks|CVPR2016|引用量:313
作者:Zheng Zhang,Chengquan Zhang,Wei Shen,Cong Yao,Wenyu Liu,Xiang Bai
*30. Learning Efficient Convolutional Networks through Network Slimming|ICCV2017|引用量310
作者:Zhuang Liu,Jianguo Li,Zhiqiang Shen,Gao Huang,Shoumeng Yan,Changshui Zhang
*31. Multi-View 3D Object Detection Network for Autonomous Driving|CVPR2017|引用量:276
作者:Xiaozhi Chen,Huimin Ma,Ji Wan,Bo Li,Tian Xia
*32. Very Deep Convolutional Networks for End-to-End Speech Recognition|ICASSP2017|引用量:242
作者:Yu Zhang,William Chan,Navdeep Jaitly
*33. A Sensitivity Analysis of (and Practitioners’ Guide to) Convolutional Neural Networks for Sentence Classification|引用量:229
作者:Yingjie Zhang,Byron C. Wallace
*34. Event Extraction via Dynamic Multi-Pooling Convolutional Neural Networks|ACL2015|引用量:212
作者:Yubo Chen,Liheng Xu,Kang Liu,Daojian Zeng,Jun Zhao
*35. ThiNet: A Filter Level Pruning Method for Deep Neural Network Compression|ICCV2017|引用量208
作者:Jian-Hao Luo,Jianxin Wu,Weiyao Lin
*36. Relation Extraction: Perspective from Convolutional Neural Networks|引用量173
作者:Thien Huu Nguyen,Ralph Grishman
*37. DCAN: Deep Contour-Aware Networks for Accurate Gland Segmentation|CVPR2016|引用量:166
作者:Hao Chen 0011,Xiaojuan Qi,Lequan Yu,Pheng-Ann Heng
*38. Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition|CVPR2017|引用量:159
作者:Jianlong Fu,Heliang Zheng,Tao Mei
*39. Interpretable Convolutional Neural Networks|CVPR2018|引用量:154
作者:Quanshi Zhang,Ying Nian Wu,Song-Chun Zhu
*40. A systematic study of the class imbalance problem in convolutional neural networks|引用量:148
作者:Mateusz Buda,Atsuto Maki,Maciej A. Mazurowski
……
在极市平台后台回复CNN100,即可获得上述40篇和未列举的60篇CNN必读论文合集下载链接。