目录
滑动窗口--Sliding Window
PASXAL VOC
评估标准
mAP
IOU
PASCAL VOC--Pattern Analysisi Stattistical Modelling and Computational Learning, Visual Object Classes。名字真长~!~。它是有一套评估图像分类,检测,分割和人体姿势。跟多的用于检测,它包括4大类,20个所属类。
小型数据集,里面有200种鸟类相关内容。可以用来分类训练。
下面讲的是以cnn为基础的,目标检测--Object Detrection。
目标去检测性能的评估标准,预测的结果是否为目标--mPA(mean Average Precision);预测框与人工标记框的重合率IOU(Intersection Over Union)。
思路:(A)需要一个应景训练好的分类器;(B)把图像那招一定间隔和不同的大小分成若干个窗口;(C)最后在这西窗口上进行执行分类器,得到分类较高的分数,就认为检测到物体;(D)把分类分数排序,做比如非极大值抑制(Non-Maximum Supperssion,NMS),得到物体类别即所在图中区域。
优点:简单
缺点:耗时;对分类器的准确性依赖很严重;对分类器训练的材料要求高,不能有目标物体缺损。
所以用滑动窗口就不太现实,常见的是小型分类网络和滑动窗口法集合应用。下面是一个应用的论文。为了方便下载,我提供了论文的DOI。
Dan C Cireşan, Giusti A , Gambardella L M , et al.
Mitosis Detection in Breast Cancer Histology Images with Deep Neural Networks[C]
// International Conference on Medical Image Computing and Computer-Assisted Intervention.
2013.
DOI:10.1007/978-3-642-40763-5_51
这种算法是在滑动窗口上的升级。滑动窗口在图像上检测目标的时候,会有很大部分为不存在物体的区域,这种算法实在最后可能的区域进行搜索,从而提升准确率。
思路:存在物体的区域都应存在某种相似性或者连通性的区域,超像素(正常像素点间,虚拟出很多点)合并思路。步骤如下(A)分割图片,生成很多的小区域,看作超像素(B)然后根据区域相似性来合并图像,标准主要有颜色,大小,纹理等。不断地叠加合并为大区域的过程,最后整张图会合并成一个区域。其中每个区域都有外切矩形框起来,得到目标框,叫做Region Proposal。
优点:快,有目地性,更加准确。下面是论文,同样提供了DOI。
Uijlings J R R , K. E. A. van de Sande….
Selective Search for Object Recognition[J].
International Journal of Computer Vision, 2013, 104(2):154-171.
DOI:10.1007/s11263-013-0620-5
spp,spatial pyramid pooling空间图像金字塔池。
思路:对整张图执行一次卷积的前向运算,得到最后一层的激活相图;通过某方式把·目标物体所在的区域部分的相应图拿出来,交给分类器。
这个是he kaiming研发的。他比rcnn在速度上得到巨大提升,但是继承了他的缺点,就是分段。
针对SPP这个问题,rcnn作者提出改进的方法,提取ROI特征后,把物体框的回归和分类两个任务的loss融合在一起。把SPP换成ROI池,
r-cnn,Region-based Convolutional Neural Networks。他是通过Selective Search检测,CNN提取特征,然后分类出目标。比较常见的模型,faster r-cnn和mask r-cnn等等都是他的引深。当然Selective Search不一定准确,还要经过回归处理,修正他。
f
Girshick R , Donahue J , Darrell T , et al.
Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]
// 2014 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE Computer Society,
2014.
DOI:10.1109/CVPR.2014.81
yolo,you only look once。他是非基于Region Proposal。他的速度非常快,可以达到实时监测。
思想:把一个图片分成NxN的格子,以每个所在的位置和对应的内容为基础,来预测。
1、物体框。包括格子中心坐标center_x,center_y和框的bound_w,bound_h。每个格子预测B个物体框。
2、每个物体框是否有物体的置信度,如果包含预测物体,则用UoI来表示,如果没有,则用0.
3、每个格子预测出C个类别的概率分数,只与格子有关,与B物体框无关
输出的信息维度Bx(4+1)+C,得到的预测张量为NxNx(5B+C)。这里也就能看出来为什么yolo叫做one-step。他把目标检测转化为cnn,它可以做到实时检测目标。精度上没有rcnn高。
SSD,single shot multdetector。他同时借鉴了faster-rcnn和yolo两种思想。同样可以达到实时的水平和高准确率。
思路,他和yolo有点像一样,在卷积的最后的阶段得到一个NxN的感应区,然后和faster-rcnn一样借鉴anchor box的思想生成默认物体框。他没有Region Proosal+ ROI结合,他也是single shot和yolo一样。
与yolo相比,从一个分辨率大的图开始,逐渐得到一个分辨率小的图(图像金字塔),每个低分辨率都会得到分类树和物体框,也就是的打不通感应区的图像信息。
具体步骤如下:
1、把一个高分辨率的图分割,得到NxN的感应图
2、这组相应图的每个像素产生类似anchor box的k个默认物体框
3、其中每个框的大小和位置的修正量对应4个数值,每个框内物体所属类别对应C个数值。
4、可以用通道为k(C+4)的卷积得到预测框和结果。
发明这个人的作者在论文做了很多工作,进行对比性能。
unet的名是因为他的网络形状,他的形状是个U型。
mAP叫做平均精度均值,其中AP(Average-Precision)的意思为精度P-召回R曲线的面积,AP也是P-R的一个指标。越好的分类器,AP值越高。mAP就是把每个类别的AP单独拿出来,然后计算他们的和平均值,这个值就代表检测目标的综合评价。
用来衡量预测框与人工标记框的重合率,计算的公式:
Ap预测的图像框,Am人为框选的图像框。
在使用的时候,会预先设置阈值,当结果大于这个阈值,就是有效的目标。这种方法虽然简单,有时候并不合理,我们可以考虑一些极端的结果,比如说分辨率极高图。