【视觉CV】目标检测与分割面试题

  1. 从R-CNN到Faster R-CNN谈谈物体检测 难度:☆
  • R-CNN网络,是深度学习在目标检测的开山之作,参考了大量传统目标检测算法,使用当时最好的图像识别Alexnet模型。最大的特点就是使用了选择性搜索SS,替代了传统网络的滑动窗口,并提出了bbox的回归优化算法。使用了两步走,将目标检测和图像识别分离计算,先进行目标检测,再进行图像识别的方法。

  • FAST R-CNN比SPPNet优化了很多,通过ROI pooling和多任务损失,基本实现了End-to-End模型。ROI pooling就是SPP的简化版,主要能实现回归和分类的特征一致化,以便联合训练,并很大程度上减少计算量。

  • FASTER R-CNN通过RPN代替了SS网络,极大提升了运算时间,并实现了端到端。其他结构直接使用FAST R-CNN。RPN网络使用了k个anchor,输出2k分类得分和4k个位置坐标。使用RPN损失,在RPN网络中训练。

  1. 目标检测two-stage模型有哪些 难度:☆

R-CNN、SPP-NET、FAST RCNN、Faster RCNN

  1. 说一下NMS 难度:☆

NMS是非极大值抑制的意思。顾名思义就是抑制不是极大值的元素,搜索局部的极大值。通过IOU交并比的衡量指标,选择效果最好的目标区域预测框,也是一种贪心算法。

  1. Soft nms为什么可以提升模型效果 难度:☆☆

传统NMS的方法是,确定最大IOU的框,然后删除与这个框重叠度大于阈值的其他框。NMS算法的一个主要问题是当两个ground truth的目标的确重叠度很高时,NMS会将具有较低置信度的框去掉(置信度改成0),会将两个目标判定为一个目标。

  1. 口述一下IOU 难度:☆

IOU及交并比,两个区域相交部分的面积与相并区域的面积之比,用来反映两个区域的重合程度,IOU越大说明两个区域重合度越高,当IOU=1的时候,说明两个区域大小和位置完全重合。

  1. roi pooling 实现怎样的映射 难度:☆☆☆

roi pooling 是首次在FAST R-CNN中被提出,ROI Pooling时,将输入的h * w大小的feature map分割成H * W大小的子窗口(每个子窗口的大小约为h/H,w/W,其中H、W为超参数,如设定为最终输出为:7 x 7),对每个子窗口进行max-pooling操作,得到固定输出大小的feature map。由于h/H需要取整,会导致部分图片边缘信息丢失。
整是因为这个问题,所以给后续的RoI Align提供了改进的控件,利用双线性差值法解决了信息丢失问题,是在MASK R-CNN中由何凯明大佬提出。

  1. SPP具体是指什么 难度:☆☆☆

空间金字塔池化( spatial pyramid pooling,SPP),在卷积后提取三种尺度的池化结果,拼接结果后输出。
特点:

  1. 不管输入尺寸是怎样,SPP 可以产生固定大小的输出
  2. 使用多个窗口(pooling window)
  3. SPP 可以使用同一图像不同尺寸(scale)作为输入, 得到同样长度的池化特征。

SPPnet,通过此次改进,先卷积后提取特征图的方式,极大提高的模型的计算速度,给FAST R-CNN提供了改进思路。

  1. 说一下RPN的作用 难度:☆☆☆

RPN(RegionProposal Network)区域生成网络,Faster-RCNN的核心。用来生成感兴趣区域即目标框。此结构需要单独进行回归训练,训练完成后可以介入网络,使得网络可以实现端到端的训练,速度得到极大的提升

区域提议网络(RPN)以任意大小的图像作为输入,输出一组矩形的目标提议,每个提议都有一个目标得分。

过程:
在最后一个共享的卷积层输出的卷积特征映射上滑动小网络,这个网络全连接到输入卷积特征映射的nxn的滑动空间窗口上,每个滑动窗口映射到一个低维向量上(论文中两种:对于ZF是256-d,对于VGG是512-d),还会得到每个滑窗位置考虑k种(在论文设计中k=9)可能的参考窗口(论文中称为anchors)。这个向量输出给两个同级的全连接的层:回归层(reg)和分类层(cls)。
1、在每一个滑动窗口的位置,我们同时预测k个区域建议,所以reg层有4k个输出,即k个box的坐标编码。
2、cls层输出2k个得分,即对每个建议框是目标/非目标的估计概率(为简单起见,是用二类的softmax层实现的cls层,还可以用logistic回归来生成k个得分)

  1. 说一下faster rcnn的损失函数 难度:☆☆

损失函数分别对分类和回归进行计算,其中分类损失是二分类,回归损失使用的是smooth L1损失
【视觉CV】目标检测与分割面试题_第1张图片

  1. Faster rcnn怎么筛选正负anchor 难度:☆☆☆

在RPN网络中,会有4k个坐标编码输出和2k个分类得分输出。其中2k个分类就是对k个anchor框进行的前景和背景的得分估计。通过此得分来评判正负anchor

  1. 为什么使用focal loss 难度:☆☆☆

Focal Loss 就是一个解决分类问题中类别不平衡、分类难度差异的一个 loss。又是何凯明大佬的力作。这个损失函数是在标准交叉熵损失基础上修改得到的。这个函数可以通过减少易分类样本的权重,使得模型在训练时更专注于难分类的样本。
通过调节γ和α来修正简单样本带来的影响。
在这里插入图片描述

  1. 目标检测one-stage模型有哪些 难度:☆

YOLO,SSD,RetinaNet

  1. SSD如何生成目标框 难度:☆☆☆

default boxes(priorobx/先验框)类似于RPN当中的滑动窗口生成的候选框,SSD中也是对特征图中的每一个像素生成若干个框。根据输入的不同aspect ratio 和 scale 以及 num_prior来返回特定的default box,以feature map上每个点的中点为中心,生成一些列同心的prior box
【视觉CV】目标检测与分割面试题_第2张图片

  1. Yolo v1如何生成目标框 难度:☆☆

系统将输入图像分成7×7的网格,每个格子预测两bbox,包含位置和两个置信度。
每个边界框包含两个目标预测,每个目标包括5个预测值:x,y,w,h和置信度
每个单元格预测两个(默认)bbox位置,两个bbox置信度(confidence) : 7 x 7 x 2=98个bbox
30=(4+1+4+1+20), 4个坐标信息,1个置信度(confidence)代表一个bbox的结果, 20代表 20类的预测概率结果

由于划分区域较大,对小目标和一个框多个目标的识别效果较差。

  1. 说几个语义分割模型 难度:☆

FCN、U-net、SegNet、Deeplab

  1. 说一下DeepLab v1 v2 v3的区别 难度:☆☆☆

v1:进行了空洞卷积与CRF应用
v2:采用ASPP
v3:ASPP+

  1. 介绍一下Unet 难度:☆☆

U-Net 用于生物医学图像分割的卷积网络(冠军),图像语义较为简单、结构较为固定。U-Net结构在不同的生物医学分割应用中都取得了非常好的性能。由于弹性形变的数据增强,它只需要很少的标签图像,并且有一个非常合理的训练时间。
【视觉CV】目标检测与分割面试题_第3张图片

你可能感兴趣的:(计算机视觉CV)