论文阅读4-综述文章:深度卷积神经网络在计算机视觉中的应用研究综述

目标检测

传统算法

传统算法Cascade + HOG/DPM + Haar/SVM大概意思就是使用一个固定大小的滑动窗口去截取固定窗口大小的图像,分别再进行特征匹配和分类。

深度学习算法

图像分类

传统是传统图像分类算法

主要使用SIFT,LBP
等算法来手动提取特征,再将提取的特征用于
训练支持向量机(Supportvectormachine,SVM)等 分 类 器 进 行 分 类
取得的最好的错误率是28.2%

R-CNN 模型

AlexNet 16.4%错误率
创新点:该模型采用relu来取代传统的sigmoid 和tanh函数作为神经元的非线性激活函数,并提出了dropout方法来减轻过拟合问题.

Clarify提出使用反卷积网络对每个卷积层进行可视化,以次来分析每一层学习到的特征,据此改进网络,达到11.7%错误率

GoogleNet

创新点:Inception模块
8.2%

SPP-Net

创新点:空间金字塔池化

之前大部分卷积神经网络模型都要求输入图像大小固定, 因此需要对原始图像进行剪切, 这样将导致原始图像信息的丢失; 或者需要对图像的大小和长宽比进行调整, 这样会使图像产生扭曲变形。
因此, 空间金字塔池化的作用是对任意维数的输入均产生固定维数的输出, 从而使网络可以接受任意大小的图像作为输入.

论文阅读4-综述文章:深度卷积神经网络在计算机视觉中的应用研究综述_第1张图片

PRelu-Nets

4.94%
创新点:经网络模型有两点改进, 一是推广了传统的修正线性单元(R e L U) , 提出参数化
修正线性单元(P R e L U) 。该激活函数可以适应性地学习修正单元的参数, 并且能够在额外计算成本可以忽略不计的情况下提高识别的准确率。同时, 该模型通过对修正线性单元(R e L U/P R e L U) 的建模,推导出了一套具有鲁棒性的初始化方法, 能够使得层数较多的模型( 比如含有3 0个带权层的模型) 收敛.

4.82%为 Batch normalization , 将该训练方法运用于GoogleNet
提出的Spatioal transformer 旨在通过提高卷积神经网络对于图像空间不变性的学习能力, 来加强其图像分类的准确率.

ResNet

3.57%残差网络

目标检测

提片中物体定位 + 分类

R-CNN

使用selectiva search 这一非深度学习算法来提出待分类的候选区域, 然后将每个候选区域输入到卷积神经网络中提取特征, 接着将这些特征输入到线性支持向量机中进行分类。
为了使得定位更加准确,R - C NN中还训练了一个线性回归模型来对候选区域坐标进行修正, 该过程被称为Bounding Box Regession。
并且在大数据集上进行训练,小数据集上进行微调。

缺点:在 R - C NN模型中, 对于每张图像大约产生20 0 0个候选区域, 而对于每张图像, 它的所有候选区域都要分别进行特征提取, 这就使得特征提取所消耗的时间成为总的测试时间的瓶颈。微软亚洲研究院的研究团队将 S P P -N e t运用于物体检测中, 并改进了 R - C NN 的这一缺陷。S P P -N e t针对用 S e l e c t i v e s e a r c h算法产生的候选区域, 将这些区域的坐标投射到最高层卷积层所输出的特征映射的对应位置上,然后把每个候选区域所对应的特征输入到空间金字塔池化层, 得到一个固定长度的特征表示。接下来的步骤与R - C NN相似, 都是将这些特征表示输入到全连接层、 将全连接层输出的特征输入到线性支持向量机进行分类以及使用B o u n d i n g  b o x   r e g r e s s i o n修正候选区域坐标。在P A S C A L   V O C上, 该网络取得了与R - C NN相近的准确率, 但是由于时间消耗大的卷积操作对于每张输入图像只进行了一次, 使得总的测试所用时间大大减少。

Fast R-CNN

与R - C NN中的卷积神经网络相比,F a s t   R - C NN对最后一个池化层进行了改进, 提出了R e g i o n   o f   i n t e r e s t(R o I)p o o l i n g层。这个层的作用与S P P -N e t用于物体检测网络中的空间金字塔池
化层相似, 作用都是对于任意大小的输入, 输出固定维数的特征向量, 只是 R o I   p o o l i n g层中只进行了单层次的空间块划分。这一改进使得F a s t   R - C NN与S P P -N e t一样, 可以将整张输入图像以及由S e l e c t i v es e a r c h算法产生的候选区域坐标信息一起输入卷积神经网络中, 在最后一层卷积层输出的特征映射上对每个候选区域所对应的输出特征进行R o I   p o o l i n g, 从而不再需要对每个候选区域都单独进行一次卷积计算操作。除此之外,F a s t   R - C NN将卷积神经网络的最后一个s o f t m a x分类层改为两个并列的全连接层, 其中一层仍为s o f t m a x分类层, 另一层为B o u n d i n g  b o x   r e g r e s s o r, 用于修正候选区域的坐标信息。在训练过程中,F a s t   R - C NN设计了一个多任务损失函数, 来同时训练用于分类和修正候选区域坐标信息的两个全连接层

DeepID-Net

改进了模型预训练方式, 提出了B o u n d i n g  b o x   r e j e c t i o n,C o n t e x t u a l   m o d e l i n g等新的网络训练步骤
设计了新的池化层, 叫作D e f o r m a t i o n   c o n s t r a i n e d   p o o l i n g(D e f - p o o l i n g) 层。这一池化层可以实现对图像局部信息的学习, 并使得模型能够更好地适应于输入图像中某些部件位置发生偏移的情况

Faster R-CNN

提出了候选区域网络,不再使selective search

Mask R-CNN
Detectron
YOLO
SSD

图像分割:
FCN
DeepLab

参考资料:
目标检测全概括网址
目标检测实现Papers with Code(Browse state-of-the-art)—这个里面包含很多深度估计和姿势估计的论文代码,看看
目标检测的github学习路径图-已经download

你可能感兴趣的:(每天一篇论文)