HED 笔记

HED 论文:Holistically-Nested Edge Detection

HED(Holistically-Nested Edge Detection)是一个端到端的边缘检测网络,特点是提取不同尺度的特征,和多输出的多监督及融合。 HED 在产业上应用比较广泛。

Holistic:指该方法的预测和训练都是端到端的;Neted:指通过多层级的输出,渐进地优化最终结果。作者的命名逻辑...

HED 笔记_第1张图片
HED 的各层输出,和与 Canny 方法的对比

看这篇边缘检测的论文主要是想知道边缘检测的损失函数应该怎么设计。我本来的想法是直接像语义分割一样,用 IoU ,后来想想不对,如果一个边缘检测结果是 GT 平移了几个像素,那它仍可称得上好,但它的 IoU 却会骤降至和随机结果差不了多少。如果对边缘检测问题用 IoU 做优化对象,恐怕在优化时根本找不到可以下降的梯度方向。


出发点

边缘检测的任务是提取图像内每个对象的边界,而排除对象的纹理。HED 被设计以解决两个问题:(1)对图像整体的训练和预测,End-to-end;(2)多尺度的特征提取。


End-to-end

端到端很容易实现,因为边缘检测任务的输入和输出都是一张图片,只是通道数不同,很明显可以应用一个全卷积的网络来实现。HED 的骨干网络采用 VGG,并将 VGG 后面的全连接层结构全部移除,只保留卷积层。

HED 笔记_第2张图片
VGG


多尺度特征

一些曾被应用过或正在被应用的多尺度特征提取方法。

(a) 多通路并行网络,通过不同的网络深度得到不同的感受野,输出聚合在一起;

(b) 跳线连接,将来自不同卷积层的输出通过跳线连接在一起,作为特征提取结果(实际上跳线连接也可以在各个卷积层之间连接,而不仅限于到输出层,比如 U-Net 结构);

(c) 同一个网络,采用不同尺寸的输入;

(d) 不同深度的网络完全分立(这个方法感觉最拉跨,各个尺度上的特征没有相关性,也没听说过有人这么搞);

(e) HED 提出的结构,在卷积网络的不同深度引出“侧输出”,将这些侧输出聚合成最终输出(和 (b) 的不同在于每个侧输出都能被监督并进行反向传播,这里应用了中继监督的思想,也是一个很泛用的做法)。

HED 笔记_第3张图片
多尺度特征提取方法(原文图片有误,把右边 Input Data 写成了 Output Data,我佛了)


中继监督

这篇文章也用了中继监督,之前看的 Stacked Hourglass 也是。不过 Stacked Hourglass 的侧输出是还要被输入到下个特征提取网络里继续 refine 的,旨在迭代地优化输出结果。

HED 的侧输出和 GoogLnet 等一些常见的侧输出比较像,前面也说了,浅层的特征保留了更多的信息,但是相对而言感受野更小,那么 HED 就取多个不同深度的特征,分别在这些位点设置输出层。具体地,HED 在每个 VGG 内尺寸的特征图上引出一个卷积层作为侧输出层。


损失函数

侧输出

HED 将边缘检测任务归纳为对每个像素点的二分类任务——“边缘”和“非边缘”。对于 HED 的单个输出而言,其损失函数为所有像素点的二分类损失函数的和,另外,由于边缘占的像素总数一般都会少于非边缘,所以实际是边缘的像素提供的二分类损失函数会乘以一个更大的权重,以进行正负样本平衡。HED 整体的损失函数就是它所有输出的损失函数的加权和。

转化成数学语言就是:

\begin{aligned} \ell_{\text {side }}^{(m)}\left(\mathbf{W}, \mathbf{w}^{(m)}\right) &=-\beta \sum_{j \in Y_{+}} \log \operatorname{Pr}\left(y_{j}=1 | X ; \mathbf{W}, \mathbf{w}^{(m)}\right) \\ &-(1-\beta) \sum_{j \in Y_{-}} \log \operatorname{Pr}\left(y_{j}=0 | X ; \mathbf{W}, \mathbf{w}^{(m)}\right) \end{aligned}\\

其中指特征提取网络(VGG)的权重,指 HED 第层输出的输出层权重,为平衡每层输出为最终损失贡献的系数,为平衡正负样本的系数,和分别指代边缘像素和非边缘像素,为像素输出的置信度。

融合输出

上面的损失函数是针对每个侧输出进行优化,HED 的最终输出是每个侧输出按照一定的权重加总得到的融合输出,这些权重是通过训练学习到的,而非人为设定的。

融合输出的损失函数如下:

其中融合输出,是每个侧输出在融合时的权重,计算输出和 GT 之间的距离,这里采用交叉熵函数。

整个模型在训练时的优化目标权重为:

可以看到,最终的损失函数中存在一定的冗余,由于融合输出是由侧输出得到的,侧输出似乎被不止一次地惩罚了。不过,先不论这种冗余是不是必要的,据作者言,只对融合输出进行惩罚得到的效果是不够好的,因为模型总会区域学习更大尺度上的特征。

对损失函数的想法

HED 的损失函数是一种很直接的思路,不过任然有这样的问题:当一个被预测为“边缘”的像素点实际上是“非边缘”时,不管它和 GT 离得有多近,体现在损失函数上,都和一个差 GT 十万八千里的像素点没有区别。这种设计——就我个人的理解——会让损失函数的梯度出现大面积的平坦区域,梯度下降难以工作。但目前的工作似乎都是在用交叉熵作为损失函数,虽然今年也提出了 G-IoU、D-IoU 等将 IoU 调整后作为损失函数的方法,但是限于数学表达上的困难,目前只能应用于矩形边界框,而不能应用于像素集分割。

你可能感兴趣的:(HED 笔记)