FCN和RPN两种特征提取框架的区别

场景文本检测的难点主要在于目标的方向、形状、尺度变化显著,且自然场景背景复杂。现有的基于深度学习的场景文本检测框架大致分为两类:
一类基于FCN框架提取文本显著图,但此类方法引入大量噪声干扰结果准确性(因为最后要上采样匹配),需对显著图进行后处理(如:反卷积),无法实现端到端;
一类基于RPN框架提取proposal进行分类,但文本目标形状、方向、尺度的变化将proposal的搜索空间极大增大,使计算量庞大并造成结构冗余。
卷积神经网络在进行卷积的时候,会使图像大小缩小,尤其是步长不为1的时候,特征提取后的图片大幅度减小,因此在输入图像四周填充 0 边界可以解决这个问题。但是也相当于引入了噪声。
FCN,也就是Fully Convolutional Network,是一个不包含全连接层的网络。这里面所谓的不包含全连接层,实际上并不是标榜自己没有全连接层,而是为了保证计算过程中每一层数字的相对位置。在我们通常的印象中,全连接层需要把本来立体的图像拍平,这样原本存在的空间特性将被抹掉。为了确保我们识别出来的类别能和原来每一个像素点的位置对上,我们不能粗暴地把中间数据拍平,这也是网络中不使用全连接层的原因。

我们可以利用常规的分类CNN网络得到一个接近最终结果的中间层,这样层的数据往往已经可以代表了一些具有特定含义的特征,而不再像原始的像素亮度那样含义晦涩。因此我们可以从这样的信息出发得到一些分类信息,然后把这些分类信息重新映射到原始图片大小的区域上。

由于中间层的维度比原始图像小,那么恢复到原始大小必然意味着一些插值的工作。一旦使用了插值的算法(比方说bilinear),那么恢复的图像的精度一定会出现问题。反卷积可以让维度由小变大,而且我们还可以通过学习其中的参数让这个变化的过程变得不那么简单粗暴。但是小维度毕竟是小维度,谁也没法回避这个问题。就算采用反卷积的方式把维度扩大,精度损失的问题依旧无法避免(因为不会刚好反卷积成目标大小,还要裁剪)。所以我们还需要其他的办法。

这个办法就是融合。我们不仅仅使用较深层的特征信息,还使用一些较浅的特征信息。我们知道较浅层的特征容易保留一些细节信息,比方说边缘信息,较深的特征容易保留一些类别信息,那么如果我们把这两部分信息融合起来,我们既可以保证找到的类别信息是准确的,同时我们也可以保证一些边缘的位置信息能够找准。

IoU。它的全称是Intersection of Union。我们有模型预测的边界和Ground Truth的边界。我们计算两个边界相交和它们相并的比例,也可以判断最终的分割效果。如果以IOU作为评价标准,那么只要主体部分能够分割正确,那么我们就可以拿到比较高的分数。所以添加过多浅层的信息可能不会对最终结果造成很大的准确率提升。

https://zhuanlan.zhihu.com/p/22464571

你可能感兴趣的:(语义分割)