FRCNN的一些基本概念

1)卷积的操作也就是用于提取不同的种类的特征,同一map,用多少个卷积核去提取,也就是相当于采了多少种map的特征,最终也就得到了多少个map

2) 使用rpn的好处就是利用了公共卷积层,避免了从最初的图像经过大量的滑窗计算生成框,rpn的输出的框的个数一般是300个到500个,

rpn并不检测物体的具体种类,不管是猫脸狗脸自行车,只要他怀疑,都会出一个框,因此会出来大量的框,而后,对这个框进行排序,选出高位的前多少个框。

3)roi pooling主要是用来做pooling的,目的是为了将尺寸缩放到统一的尺寸,方便后面的全连层进行处理,因为全连层要求输出的数据具有相同的长宽。

roi主要的作用就是从图中抓点,pooling,当然这里也涉及到从原图坐标映射到feature map中坐标的运算

4)最后一步就是frout,目前的理解就是这仍然是一步rpn操作,进行分类,打分,最终的框要通过nms进行合并,减少框的数量。


疑惑:

1)最后一步的rpn与全连层的具体连接关系是什么样子的?

2)第二次rpn时输出的框的个数减少了吗?


今天重新理解了一下,应当是全连接层是作为一个分类器存在的。之前误以为softmax是作为分类器的,实际上softmax只是起到比较数字的作用,全连接层可以将输入的维度转化为softmax的输入维度。

而softmax的输入的维度是多少呢?比如想要分成10类,那么softmax就是输入10维的向量,同样输出10维的向量。

你可能感兴趣的:(深度学习)