对SSD的理解

1、SSD提供了一种用于目标检测的方法,仅仅使用了一个深度神经网络。

--这是相对于RCNN的训练来说的,因为对于Faster Rcnn,需要训练RPN网络以及fast rcnn网络。

2、SSD的特别之处:

--就像摘要里说的那样,它把最终要输出的bounding box预先固定在默认设置好的特征图上,意思是你给网络输入一个图片,它肯定会产生很多特征图,而我就在特征图上预先声明好很多box,你最后要得到的bounding box就是从已经声明好的box里挑出来的,当然不是直接拿来就用,而是把挑到的box进行调整。

--还强调了一点,这些预先设定的box形态各异,因为图片上的物体有各种形状,为了使得能更快的更精确的调整box使其能与图片上的物体的形状更吻合,所以先设定长宽比例不同的box。

3、SSD的预测:

--在预测阶段呢,操刀的地方就是预设的那些box,对这些box覆盖的区域进行分类,比如21类,分类的话肯定会产生每一类的得分是多少

--除了预测分类任务,还要调整这些box的大小及形状,就得到了物体的位置,也就是我们看到的框框。

4、对于大小不一的物体怎么统一检测呢?

--SSD说,它采用了从不同“”分辨率“”的特征图上设置预设box的方法,我直觉上感觉它说的道理行得通。

5、SSD的自我总结:

--我跟YOLO一样简单都是a single-shot detector for multiple categories,但是我比它快,比它精确,还有,我承认Faster Rcnn很精确,但是我比它快。

--我的核心科技在于我是对那些预设的固定数目的box进行分类评分和预测其新位置的,请注意,这些box分布在不同尺寸的特征图上,还有,这些box也是形态各异的。

--叽里咕噜叽里咕噜

--通过比赛,证明了我自己。

6、SSD网络的结构:

--分为两个部分,前面的是标准的高质量图片分类,但是去掉了分类层,在SSD中叫它base network,但是base network满足不了SSD, 所以:add auxiliary structure to the network to produce detections with the following key features

7、6中提到的 auxiliary structure都是啥?

--Multi-scale feature maps for detection,就是在base net后边加上卷积特征层,这些层的尺寸依次减小,这就相当于实现了在multiple scales feature上detection。

--Convolutional predictors for detection ,前面提到的base net及multiple scales feature maps for detection能产生固定数目的detection predictions,而要进行predictors for detection的话用的是3x3xp的small kernel,用于对分类评分及对default box计算应该进行的偏移量。

你可能感兴趣的:(深度学习-实践)