阅读“细粒度图像识别关键技术研究”

细粒度识别的对象是区分同一类别下的不同子类别物体;细粒度图像识别的物体具有相似的形状和纹理,物体间的差异非常细微

1.    研究现状背景概括
细粒度识别中所采用的目标定位可以分为两类:一类是关键点定位,一类是区分性区域定位。
1.1.    关键点定位
关键点定位是在图像中寻找并定位预定义物体关键点,主要应用于人脸关键点检测、人体姿态估计和骨骼关键点定位。原理也就是求解图像I到关键点L的映射φ(就是求这俩个集合之间的函数关系)。在之前的研究中主要提出了基于回归的方法、基于热力图的方法和基于图网络的方法。
1.1.1    基于回归的方法
就是把关键点转化为坐标数值的回归问题,这种方法通常由单阶段或多阶段网络,每阶段通过修改原始卷积神经网络的全连接层实现,最终网络输出为k个关键点的2k个坐标数值。Toshev提出DeepPose,将关键点定位转化为坐标数值问题。Fan提出双流网络的方法(从图像整体和图像块(比如把256*256的图像分为好多个8*8的图像块)俩个尺度)。Pfister采用AlexNet结构网(Alexnet的整个网络结构是由5个卷积层和3个全连接层组成的,深度总共8层。),也就是拆分图像或视频的每一帧然后进行回归。Sun等人基于ResNet50网络(将靠前若干层的某一层数据输出直接跳过多层引入到后面数据层的输入部分。
意味着后面的特征层的内容会有一部分由其前面的某一层线性贡献。)提出一种结构感知方案。Lv等人提出俩阶段关键点回归问题,可以实现高分辨率人脸图像上的精细关键点定位。Valle等人基于循环神经网络,设计了多层级联回归方法,实现了人脸关键点定位。
这种基于回归的关键点定位方法是早先的主流方法,局限性在于:1.神经网络具有平移不变性(不变性意味着即使目标的外观发生了某种变化,但是你依然可以把它识别出来。这对图像分类来说是一种很好的特性,因为我们希望图像中目标无论是被平移,被旋转,还是被缩放,甚至是不同的光照条件、视角,都可以被成功地识别出来),所以对关键点空间位置感知较弱。2.受网络正则化(任何减小模型泛化误差的方法都可视为正则化)的影响,神经网络在回归任务上对小数值相对准确,对长距离的回归精度较差。
1.1.2    基于热力图方法
基于热力图的方法将关键点定位任务转化为每个关键点在图像中概率分布的估计任务,从他的发展现状上来看,基于热力图的方法适合于人体姿态估计特征提取。汤普森等人最先发现了该项应用。
Wei则从该思想上提出了多阶段从粗到细的多阶段热力图估计方法,实现复杂场景和遮挡场景实现精确定位。Toshev等人设计了多层级联中继监督的方案,采用堆叠沙漏结构,每一个沙漏网络预测关键点分布热力图,实现了层层优化的监督方法。Xiao等人采用RestNet50网络结构,设计了轻量简洁的热力图估计方法,有效实现了图像和视频上的人体姿态估计。Sun等人提出HRNet网络,这一网络是在上下采样过程中通过特征聚合,有效地解决了神经网络在采样过程中造成的分辨率降低问题,实现了更加精准的姿态估计。而Yang等人设计一种俩阶段网络,第一阶段进行单独的关键点回归,第二阶段融入人手结构信息以修正。
基于热力图可以有效地学习关键点的局部纹理特征,因此有较好的定位精度,但是对于畸形、遮挡(考虑预测人体姿态行为???)等情况,由于缺失局部关键点信息,其定位精度较低。

1.1.3基于混合方法
回归方法对局部短距离预测更加精准,而热力图方法对大尺度上的关键点定位更加可靠,基于混合的方法就是回归方法和热力图混合。这类方法采用多任务学习,先是在整体图上通过热力图预测关键点大致位置H,得到初步预测后,在局部尺度上预测像素点与关键点的偏移,然后再通过局部区域内像素的投票平均得到关键点的定位结果。
弊端就是很难做到端对端的训练
1.1.4基于图网络方法
物体关键点之间往往具有长距离上的结构依赖关系,相比卷积神经网络,图网络对捕捉这样的非欧关系更加具有优势。一部分研究者因此将图的概念引入关键点定位当中,通过网络学习关键点L、特征图F以及连接关系E之间的图谱关系G。
    Ling等人设计一种分层学习的方法,通过自上而下的节点聚合和自下而上的卷积操作,学习关键点之间的图结构关系。Wang等人提出设计一种两阶段方法,将关键点结构信息通过图网络引入,对关键点位置得到了精细修正。同时该方法也做到了即插即用,对当前主流方法均取得性能提升。Li等人提出一种拓扑自适应的方法,利于图像全局特征和关键点局部特征构造图知识,通过层层迭代修正的方式获得精准关键点定位。
1.2    区域定位
旨在从一幅图像中对预定义的物体进行定位和分类,目标检测主要应用于目标检测、人脸检测、遥感图像检测等。主要有多阶段的检测方法,一阶段的检测方法、基于特征融合的方法、基于无锚点框的方法和最新基于Transform的方法。
1.2.1    多阶段的检测方法
多阶段的检测模型一般建模为两个阶段:第一个阶段将一组预定义的锚点框(anchorbox)分类和回归成为较粗精度的候选框,第二个阶段则根据第一个阶段得到的候选框从原始特征图上获取感兴趣的特征区域,进行进一步的回归与分类,最终得到细化后的候选框和分类结果。
    Girshick等人提出了RCNN方法,利用选择性搜索(selective search)来提取一组候选框,再将对应区域的图片分别送入卷积神经网络来提取特征,最后利用全连接层进行分类和回归。随后又提出了Fast RCNN方法,将整张图片进行特征提取后,再根据候选区域进行分类和回归,由于共享了特征的计算,加快了模型的速度。Ren等人提出了Faster RCNN的方法,采用候选区域网络(Region Proposal Network, RPN)代替选择性搜索来提取特征,大大提升了模型的速度。He等人提出了Mask R-CNN方法,在Faster R-CNN的基础上引入了特征金字塔(Feature Pyramid Networks, FPN)和感兴趣区域对齐(ROI Align),通过特征融合和减少量化误差达到了更高的检测精度。Cai等人提出了CascadeR-CNN方法,在Faster R-CNN的基础上级联多个检测头进行分类和回归,不断迭代和调优定位框。Li等人深入分析了病变检测任务上两阶段检测方法的假阳性问题(图片里没人,你识别「有人」——叫做「假阳性(False postive)」),提出“box-to-map”方法,使用连续的回归图代替回归框,以克服数据不平衡问题和监督信息不足问题。进一步地,该研究者提出尺度自适应的" box-to-map”机制提升定位精度
1.2.2单阶段的检测方法
将整张图片输入并提取特征后,直接进行分类和回归。本质上是一种回归的方法,在图片的每一点上对预设的锚点框直接进行回归和分类。单阶段模型要比多阶段模型快。Redmon等提出YOLO方法,将图品网格化成多个区域,然后在每个区域中预测定位框和分类概率。Liu等人提出SSD方法,在不同网络层次检测不同尺度的物体,提高了对多尺度物体的检测能力。Lin等人提出RetinaNet方法,引入Focal Loss损失函数以解决网络训练中的前景与背景不均衡的问题。Zhang等人提出了ATSS方法,根据候选框和真实框的交并比(它等于两个集合的交集里面所包含的元素个数,除以它们的并集里面所包含的元素个数)的统计特征来分配正负样本。
1.2.3    基于特征融合的方法
早期的特征检测器主要基于作为骨干网络的卷积神经网络提取的某一层特征图进行分类和回归。尽管ssD在多层特征图上进行了检测,但各特征之间彼此独立。当特征金字塔网络为体系的方法问世后,多层特征的融合使得检测器的性能得到提升。Lin等人提出了FPN方法,将上下两层特征图相融合,将高一层的适合于分类的特征和低一层的适合于定位的特征结合。Liu等人提出了PANet方法,其中的PA-FPN在自顶向下融合的基础上,引入了自底向上融合的分支。Ghiasi等人提出了NAS-FPN方法,通过神经结构搜索计算出了结构较为复杂和性能较好的特征金字塔。Tan等人提出了EfficientDet方法,其中的BiFPN在PANet的基础上引入了残差连接,并通过多级连接迭代得到深度融合的特征金字塔。
1.2.4基于无锚点框的方法
有锚点框就是对定位框的回归目标通常为4个值:中心点的坐标以及定位框的长度和宽度。无锚点框就是运用与其不同的方法建模定位框。Tian等人提出FCOS方法,就是对图像中每一个像素点回归4个值,即以该点作为中心到一个正样本的定位框四条边的距离,并引入CornerNet方法,将定位框建模为左上角和右下角俩个坐标点形成的矩形。
1.2.5基于transform的方法
近年来诞生于自然语言处理领域的Transforme:系列方法在计算机视觉领域
也得到了很好的应用,由此也产生了一系列基于Transformer架构的目标检测模
型。Carion等人提出的DETR方法,率先将Transformer架构运用到目标检测任务中,将卷积神经网络提取的特征输入到标准的Transformer编码器与解码器架构中,输出定位与分类结果。Zhu等人提出了Deformable DETR方法,在DETR的基础上引入了多尺度特征图和可变形注意力机制,加快了DETR的收敛速度和提高了对多尺度目标的检测性能。Beal等人[}s1]提出的ViT FRCNN方法,则是以Transformer在图像分类领域的应用ViT作为骨干网络,搭建了类似Faster R-CNN的目标检测框架。该方法抛弃了传统的以CNN作为骨干网络的架构,是完全基于Transformer架构在目标检测领域的一次尝试。
1.3特征提取相关工作
作者说明当前研究者在设计特征提取器都是要求要有更强的性能和泛化性
1.3.1特征提取器
(1)    传统手工特征提取器
主要就是利用一些特征算子,就是基于图像中存在的边缘、角点和纹理等低层次的图像信息,按照固定的范式进行处理。Ojala等人提出二值模式算子(LBP),该算子具有多种变体,但是检测模式单一并且易受光照不均影响的缺陷。为解决该劣势,Dalal等人提出HOG算子,该算子具有较好的几何和光照不变性,但算法速度慢且对噪点敏感。随后,Lowe等人提出关键点检测算子SIFT,该算子通过建立图像拆分金字塔获得多尺度的检测能力,通过基于特征点主方向的角度变换来保证旋转不变性,提取出的特征具有较强的变换不变性,但仍需要较长的处理过程。为实现快速高效,Viola等人提出基于矩形块的Harr-like小波特征,使用积分图保存图像从起点开始的累计像素和,这样通过坐标索引即可快速计算特定区域的特征值。ORB算子结合了FAST中的快速角点检测技术和BRIEF特征描述子,并分别优化了其尺度不变性和旋转不变性
(2)    深度学习特征提取器
人工特征提取器表征能力和泛化性不足的问题引入了基于深度卷积网络的特征提取方法(拥有数据学习和非线性表征能力)。
 Alex等人在特征网络中加入ReLU激活函数和Dropout层来加快收敛和防止过拟合。VGG-Net采用预训练和多阶段继续训练的策略,在AlexNet的基础上加深了可训练的网络参数。GoogleNet提出了由不同感受野卷积核组成的Inception层和特征提取过程的中继监督策略,在增加了网络的深度和宽度的同时减少了所需的参数量。残差网络ResNet解放了网络层的约束,并通过引入残差单元让网络学习输入输出建的残差,避免了深层网络的模型退化问题,使得训练任意复杂度的特征提取网络成为可能,残差网络有从18层网络到152层网络的多种不同版本。在ResNet基础上,DenseNet使用更为密集的层间连接来最大限度地复用已有特征,在减少模型参数量的同时强化了特征信息的。SENet使用特征压缩与激活操作自适应的学习不同特征通道的重要性权重,从通道层面强化有效特征,抑制无用特征。现代深度学习特征提取器具有模型复杂度高、拟合能力强和处理速度快的特性,能充分挖掘图像数据与识别标签间的深层关系,己经成为图像识别任务中最常用的特征提取方式。
1.3.2数据增广策略
数据增广是深度学习模型训练的常用策略之一。它的目的是利用各种平移旋转、翻转、裁剪、添加噪声等方法,从现有数据中人为地扩充训练数据集。通过数据增广,使训练数据变得更加多样化,保证了模型更好的特征提取能力和鲁棒性。根据操作的目标,现有的数据增广可分为两个分支:1)全局图像数据增广,在整个图像上采用了一种通用的策略;2)局部区域数据増广,给局部区域带来随机变化。
1)全局图像数据增广
全局图像数据増广的数据增广方式在整个图像上采用相同的策略,例如高斯模糊,椒盐噪声,随机裁剪等。从图像中提取随机子块(应用于深度学习)
。Cubuk提出数据增广策略,将这些增广策略组合到一个策略空间中,这样可以在训练过程中自动搜索特定的策略。该团队又提出将两幅图片叠加成一幅图片进行学习训练,增加了鲁棒性和准确性。
2)局部区域数据増广
随即屏蔽图像中的某个区域,叫做CutOut。Singh等人提出Hide-and-Seek随机隐藏图像块,然后强迫CNN对物体各个区域进行广泛的关注。他们在弱监督目标检测方面取得了优异的成绩。Zhong等人提出了一种新的数据增强方法,称为随机擦除。它在图像中随机选择一个矩形区域,并用随机值擦除其像素,最终在目标分类、目标检测和重识别方面带来一致的改进。Chen等人改进了CutOut数据增广方法,提出Gridcut方法,在图像上通过格点布局的方式生成个栽剪区域,这类方法对原始方法取得了进一步提升。YUN等人融合CutOut数据增广策略和Mixup数据增广策略,提出CutMix方法,对图像一局部区域叠加其他图像局部区域,并改进了损失函数设计。
 

你可能感兴趣的:(SCI文献阅读笔记,深度学习,计算机视觉,人工智能,图像处理,算法)