[日常杂言]关于目标检测的思考

日常杂言主要是一些非正式的思考,仅记录。

今天去face++面试,面试官一开始问我,faster rcnn中的rpn,为什么要设置多个尺寸的anchor?

我说,是根据边框回归的原理,只有当Proposal和Ground Truth比较接近时(线性问题),我们才能将其作为训练样本训练我们的线性回归模型,否则会导致训练的回归模型不work(当Proposal跟GT离得较远,就是复杂的非线性问题了,此时用线性回归建模显然不合理)。使用多个尺寸的anchor,以便和gt隔得比较近。

面试官说,那如果不考虑优化呢,那么是否只需要考虑一个尺寸的anchor就可以呢?

Emmm,这样说看上去没错,但是肯定是有必要的。毕竟实验已经证明了anchor大小和尺寸设置合理的必要性。

===========================================================================================

于是,面试官又问了两个问题:

1.目标检测与分类有什么不同?

答:目标检测中目标的个数是不确定的,而分类的目标个数是确定的,是一个。

2.既然目标检测中目标的个数是不确定的,那么相当于输入一张图片,通过一个函数(也可以理解为神经网络),输出检测框的集合。其中,这个集合的数目是不确定的。那么,这个函数应当如何设计,才能输出这种不确定的数目的集合呢?

说实话,一开始没有明白面试官的意思,一直在思考神经网络最后一层矩阵的变换。后来,听了面试官的解释,才明白。

目前这样的函数是很难设计的,只能去近似获取。

anchor的设计,就是相当于对集合中不确定的元素进行枚举。

===========================================================================================

后来,面试官又提到说,rnn也是用于输出变长集合的一种方式。那么,rnn的缺点在于什么呢?

可能由于自己在做场景文字识别的时候,输入图片均是已裁剪好的字符串,未想到对齐问题。其实,rnn的缺点在于它的不稳定性。如果起始点没有对齐,那么输出也可能有误(大意这样,具体还要进一步理解)。

收获颇丰:)

你可能感兴趣的:(日常杂言)