计算机视觉深度学习网络架构整理

这是一个深度学习的航海地理大发现时代,每年都有新思想、新技术诞生。这是最好的时代,也是最坏的时代!
论文、开源实现(pytorch,tensorflow等)链接

图像分类 发表日期 作者 简要介绍
LeNet 1998 Yann LeCun 早期卷积神经网络中的代表系统之一,2个卷积层、2个池化层和3个全连接层。用于银行支票上的手写数字识别。
AlexNet 2012 Alex Krizhevsky 架构有5个卷积层和3个全连接层,使用了ReLU激活函数、dropout层、LRN(Local Responce Normalization,实践中发现没多大作用?)、数据增强及CUDA加速等技术。
ZFnet 2013 MD Zeiler alexnet基础上的改动,亮点是通过使用可视化技术揭示了神经网络各层的作用。
NIN 2013 Network In Network, 用1*1卷积代替FC层?
VGGNet 2014 (Visual Geometry Group) 结构非常简洁,反复堆叠3x3的小型卷积核和2x2的最大池化层构建。
GoogLeNet 2014 受NIN启发,引入Inception结构,无需人为决定使用什么样的过滤器。
FCN 2014 Fully Convolutional Networks,可以接受任意大小的输入图像
ResNet 2015 何恺明 深度残差网络,在网络深度上不断加深,但其网络较瘦,控制了参数数量,存在明显层级,特征图个数逐层递进,保证输出特征表达能力,没有使用Dropout,利用BN和全局平均池化进行正则化,加快了训练速度。ResNet有多个模型,常用的有ResNet-50, ResNet-101,ResNet-152等。
DenseNet 2016 任何两层之间都有直接的连接,减轻了vanishing-gradient(梯度消失) ,加强了feature的传递,更有效地利用了feature,并在一定程度上较少了参数数量。密集连接:缓解梯度消失问题,加强特征传播,鼓励特征复用,极大的减少了参数量。
DPN 2017 Dual Path Networks
轻量化网络 发表日期 作者 简要介绍
SqueezeNet 2016.02 伯克利&斯坦福 新的网络架构Fire Module,通过减少参数来进行模型压缩,并对参数空间进行了探索,更适合在FPGA等内存受限的设备上部署。
MobileNet 2016.04 Google 移动端,引入了传统网络中采用的group思想,即限制滤波器的卷积计算只针对特定的group中的输入,从而大大降低了卷积计算量,提升了移动端前向计算的速度,适合在嵌入式设备上部署。
ShuffleNet 2016.06 Face++ 移动端,对移动端低功耗设备提出了一种更为高效的卷积模型结构,在大幅降低模型计算复杂度的同时仍然保持了较高的识别精度。
Xception 2016.10 Google --

*notice 目标检测,NG主要讲YOLO,RCNN则为选修课?

目标检测 发表日期 作者 简要介绍
RCNN 2013 目标检测里程碑之作,利用selective search算法从待检测图像中提取2000个左右的候选框,用CNN提取每个候选框的特征,得到固定长度的特征向量并送入SVM中进行分类得到类别信息,送入全连接网络进行回归得到对应位置的坐标信息。
SPP-Net SPP-Net是在RCNN的基础上提出,该方法还依赖候选框的生成,但将提取候选框特征向量的操作转移到卷积后的特征图上进行,将RCNN中的多次卷积变为一次卷积,大大降低了计算量。
Fast RCNN 2015 Ross Girshick 针对SPP-Net进一步的改进,主要创新是ROI Pooling层,它将不同大小候选框的卷积特征图统一采样成固定大小的特征。另外Fast RCNN针对RCNN和SPP-Net多阶段训练,耗费时间空间的问题进行改进,将深度网络和后面的SVM分类两个阶段融合到一起,使用一个新的网络直接做分类和回归。
Faster RCNN 2015 Shaoqin Ren等 在主干网络增加了RPN网络,通过一定的规则设置不同尺度的锚点在RPN的卷积特征层提取候选框来代替Selective Search等传统的候选框生成方法,实现了网络的端到端训练。
R-FCN 2016 在Faster RCNN的基础上通过引入位置敏感得分图,将ROI-wise subnetwork消灭了,直接在位置敏感得分图上利用ROI Pooling进行信息采样融合分类和位置信息。
YOLO-v1 2015 区别于RCNN系列为代表的两步检测算法,YOLO-v1舍弃了候选框提取分支,直接将特征提取、候选框回归和分类在一个无分支的卷积网络中完成,使得网络结构变得简单,检测速度较Faster RCNN也有近10倍的提升。
YOLO-v2 加入当下热门的批量归一化层以及残差网络结构外,还针对性的训练了一个高分辨率的分类网络。
YOLO-v3 采用多尺度预测及更好的backbone网络,分类损失采用binary cross-entropy损失函数替换softmax损失函数
SSD 2015 Single Shot MultiBox Object Detector,对YOLO-v1进行改进,达到了和两阶段深度学习目标检测算法相当的精度,同时又保持了较快的运行速度,SSD也才采用了网格划分的思想,和Faster RCNN不同的是,它将所有的操作整合在一个卷积网络中完成。
人脸识别 发表日期 作者 简要介绍
siamese network 孪生网络
FaceNet .
DeepFace? .

siamese network 孪生网络 ?

参考:

  1. Andrew NG : 卷积网络实例探究
  2. CNN网络架构演进:从LeNet到DenseNet
  3. 1x1卷积核的作用
  4. 轻量化卷积神经网络
  5. 各种架构的指标对比

Train CIFAR10 with PyTorch

你可能感兴趣的:(计算机视觉深度学习网络架构整理)