由于之后要转方向啦,趁这段时间整理手中硕士研究方向的一些阅读笔记,这是一篇关于计算机视觉的基础知识梳理
首先我们要弄清楚图像分类、目标定位、语义分割、实例分割的区别
a. 图像分类 :给定一张输入图像,图像分类任务旨在判断该图像所属类别;
b. 目标定位 :在图像分类的基础上,我们还想知道图像中的目标具体在图像的什么位置,通常是以包围盒的(bounding box)形式;
c. 语义分割 :语义分割是目标检测更进阶的任务,目标检测只需要框出每个目标的包围盒,语义分割需要进一步判断图像中哪些像素属于哪个目标;
d. 实例分割 :语义分割不区分属于相同类别的不同实例。例如,当图像中有多只猫时,语义分割会将两只猫整体的所有像素预测为“猫”这个类别。
其次,什么是选择性搜索Selective Search(SS)?
在目标检测时,为了定位到目标的具体位置,通常会把图像分成许多子块(sub-regions / patches),然后把子块作为输入,送到目标识别的模型中。分子块的最直接方法叫滑动窗口法(sliding window approach)。滑动窗口的方法就是按照子块的大小在整幅图像上穷举所有子图像块。和滑动窗口法相对的是另外一类基于区域(region proposal)的方法。selective search就是其中之一。至于为什么选SS,是因为相比滑窗法在不同位置和大小的穷举,候选区域算法将像素分配到少数的分割区域中。所以最终候选区域算法产生的数量比滑窗法少的多,从而大大减少运行物体识别算法的次数。同时候选区域算法所选定的范围天然兼顾了不同的大小和长宽比。
具体实现步骤和效果结合上图食用:
1.首先将所有分割区域的外框加到候选区域列表中
2.基于相似度(颜色、纹理、大小和形状交叠)合并一些区域
3.将合并后的分割区域作为一个整体,跳到步骤1
通过不停的迭代,候选区域列表中的区域越来越大,就通过自底向下的方法创建了越来越大的候选区域。
R-CNN的整个过程可以理解为Selective search+CNN+SVMs,详细过程如下:
Step1:候选框提取
训练阶段:给定一张图片,利用SS方法从中提取出2000个候选框。由于候选框大小不一,考虑到后续CNN要求输入的图片大小统一,将2000个候选框全部resize到227227分辨率。
测试阶段:给定一张图片,利用SS方法从中提取出2000个候选框。由于候选框大小不一,考虑到后续CNN要求输入的图片大小统一,将2000个候选框全部resize到227227分辨率。
Step2:特征提取(CNN)
训练阶段:提取特征的CNN模型需要预先训练得到。训练CNN模型时,对训练数据标定要求比较宽松,即SS方法提取的proposal只包含部分目标区域时,我们也将该proposal标定为特定物体类别。
测试阶段:得到统一分辨率227227的proposal后,带入训练得到的CNN模型,最后一个全连接层的输出结果—40961维度向量即用于最终测试的特征。
这样做的主要原因在于,CNN训练需要大规模的数据,如果标定要求极其严格(即只有完全包含目标区域且不属于目标的区域不能超过一个小的阈值),那么用于CNN训练的样本数量会很少。因此,宽松标定条件下训练得到的CNN模型只能用于特征提取
Step3:分类器(SVMs)
训练:对于所有proposal进行严格的标定(当且仅当一个候选框完全包含ground truth区域且不属于ground truth部分不超过候选框区域的5%时认为该候选框标定结果为目标,否则为背景),然后将所有proposal经过CNN处理得到的特征和SVM新标定结果输入到SVMs分类器进行训练得到分类器预测模型。
测试:对于一副测试图像,提取得到的2000个proposal经过CNN特征提取后输入到SVM分类器预测模型中,可以给出特定类别评分结果。
结果生成:
得到SVMs对于所有Proposal的评分结果,将一些分数较低的proposal去掉后,剩下的proposal中会出现候选框相交的情况。采用非极大值抑制技术,对于相交的两个框或若干个框,找到最能代表最终检测结果的候选框。
这里简单说一下非极大值抑制的具体操作:基于前面的网络能为每个框给出一个score,score越大证明框越接近期待值。如图两个目标分别有多个选择框,现在要去掉多余的选择框。分别在局部选出最大框,然后去掉和这个框IOU(交并比)>0.7的框。如图
SPP-NET的特点(相比于R-CNN):
1.传统CNN网络中,卷积层对输入图像大小不作特别要求,但全连接层要求输入图像具有统一尺寸大小。因此,在R-CNN中,对于SS方法提出的不同大小的proposal需要先通过Crop操作或Wrap操作将proposal区域裁剪为统一大小,然后用CNN提取proposal特征。相比之下,SPP-net在最后一个卷积层与其后的全连接层之间添加了一个SPP (spatial pyramid pooling) layer,从而避免了Crop或Warp操作。总而言之,SPP-layer适用于不同尺寸的输入图像,通过SPP-layer对最后一个卷积层特征进行pool操作并产生固定大小feature map,进而匹配后续的全连接层。
crop有时只能得到目标的局部,可以理解为裁剪;但wrap会改变原目标的长宽比,甚至导致图像的扭曲,即将图像裁剪到一定尺寸。根据具体需求选择使用。
2.由于SPP-net支持不同尺寸输入图像,因此SPP-net提取得到的图像特征具有更好的尺度不变性,降低了训练过程中的过拟合可能性。
3.R-CNN在训练和测试时需要对每一个图像中每一个proposal进行一遍CNN前向特征提取。但SPP-net只需要进行一次前向CNN特征提取,即对整图进行CNN特征提取,得到最后一个卷积层的feature map,然后采用SPP-layer根据空间对应关系得到相应proposal的特征。SPP-net速度可以比R-CNN速度快24~102倍,且准确率比R-CNN更高。
上图为spp是如何使不同大小输入图像在经过SPP-Layer后得到相同的特征向量长度
不难看出,SPP的关键实现在于通过conv5输出的feature map宽高和SPP目标输出bin的宽高计算spatial pyramid pooling中不同分辨率Bins对应的pooling window和pool stride尺寸。
首先总结一下前两个网络的缺点:
1.R-CNN和SPP-Net的训练过程类似,分多个阶段进行,实现过程复杂。
2.R-CNN和SPP-Net的时间成本和空间代价较高。SPP-Net在特征提取阶段只需要对整图做一遍前向CNN计算;RCNN在特征提取阶段对每一个proposal均需要做一遍前向CNN计算,因此RCNN特征提取的时间成本很高。R-CNN和SPP-Net用于训练SVMs分类器的特征需要提前保存在磁盘,考虑到2000个proposal的CNN特征总量还是比较大,因此造成空间代价较高。
3.R-CNN检测速度很慢。RCNN在特征提取阶段对每一个proposal均需要做一遍前向CNN计算,如果用VGG进行特征提取,处理一幅图像的所有proposal需要47s。
4.特征提取CNN的训练和SVMs分类器的训练在时间上是先后顺序,两者的训练方式独立,因此SVMs的训练Loss无法更新SPP-Layer之前的卷积层参数,因此即使采用更深的CNN网络进行特征提取,也无法保证SVMs分类器的准确率一定能够提升。
相对于前两个网络,FAST-R-CNN有以下亮点:
1.Fast-R-CNN检测效果优于R-CNN和SPP-Net;
2.训练方式简单,基于多任务Loss,不需要SVM训练分类器;
3.Fast-R-CNN可以更新所有层的网络参数(采用ROI Layer将不再需要使用SVM分类器,从而可以实现整个网络端到端训练);
4.不需要将特征缓存到磁盘。
具体步骤: 输入一幅图像和Selective Search方法生成的一系列Proposals,通过一系列卷积层和Pooling层生成feature map,然后用RoI层处理最后一个卷积层得到的feature map为每一个proposal生成一个定长的特征向量roi_pool5。RoI层的输出roi_pool5接着输入到全连接层产生最终用于多任务学习的特征并用于计算多任务Loss。全连接输出包括两个分支:1.SoftMax Loss:计算K+1类的分类Loss函数;2.Regression Loss:即K+1的分类结果相应的Proposal的Bounding Box四个角点坐标值。最终将所有结果通过非极大抑制处理产生最终的目标检测和识别结果。
这里涉及到两个基础知识点:
1、多任务学习(Multi-Task Learning, MTL)是一种归纳迁移机制,主要目标是利用隐含在多个相关任务的训练信号中的特定领域信息来提高泛化能力,多任务学习通过使用共享表示并行训练多个任务来完成这一目标。一言以蔽之,多任务学习在学习一个问题的同时,可以通过使用共享表示来获得其他相关问题的知识。比如,学习行走时掌握的能力可以帮助学会跑,学习识别椅子的知识可以用到识别桌子的学习,我们可以在相关的学习任务之间迁移通用的知识。如图,归纳迁移是一种专注于将解决一个问题的知识应用到相关的问题的方法,从而提高学习的效率。FAST-R-CNN包括两个同等水平的sub-layer两种Loss的权重比例为1:1。
2、边框回归(Bounding-Box regression)
窗口:用四维向量(x,y,w,h) 来表示, 分别表示窗口的中心点坐标和宽高;
目标:寻找一种关系使得输入原始的窗口 P 经过映射得到一个跟真实窗口 G 更接近的回归窗口G^;
思路: (平移+尺度放缩)如图,绿色的框表示Ground Truth, 红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机,但是由于红色的框定位不准(IoU<0.5), 那么这张图相当于没有正确的检测出飞机。 如果我们能对红色的框进行微调, 使得经过微调后的窗口跟Ground Truth 更接近, 这定位会更准确。Bounding-box regression 就是用来微调这个窗口的。
其实后面还有FASTER-R-CNN、YOLO、SDD网络,但是计算机视觉发展史实在太长,限于字数和时间,这篇计算机视觉梳理先写到这里,有机会再更新…
本人硕士期间主要研究语义分割、注意力机制,了解可能不全面,有理解错误的欢迎大家交流指正~