HED边缘检测:Holistically-nested Edge Detection 解读

Holistically-nested Edge Detection (以下简称HED)

HED通过深度学习网络实现边缘检测,网络主要有以下两个特点

Holistically:指端到端(end-to-end 或者image-to-image)的学习方式,也就是说,网络的输入为原图,输出为边缘检测得到的二值化图像。

Nested:意思是嵌套的。在论文中指,在每层卷积层后输出该层的结果(responses produced at hidden layers ),这个结果在论文中称为side outputs。不同隐藏层的Side output尺度不同,而且,HED不止要求最后输出的边缘图像好,也要求各side output的结果要好,即学习对象是最终的输出和各Side outputs(参考后面损失函数部分)。因此,论文中称HED学习网络是multi-scale and multi-level。可参考HED的网络结构理解,如下图。

 

  • 网络结构:

        HED边缘检测:Holistically-nested Edge Detection 解读_第1张图片   HED边缘检测:Holistically-nested Edge Detection 解读_第2张图片

                                图1 HED网络结构                                图2 网络结构简单图示(方框是Input Data,论文写错了)

如上面图中所示,HED是在VGG网络基础上改造的,卷积层后添加side output。网络层次越深,卷积核越大,side output越小,最终的输出是对多个side output特征的融合。图1中粗虚线路径被称为Deep supervision(或者说hidden layer supervision)。细虚线路径称为weight-fusion supervision。下图3为VGG16网络结构。图3中每个颜色是一个Stage,HED去掉了最后一个池化层及后面的FC层(即论文中所说的FCN--fully convolutional neural networks),保留了前面5个stage,每个stage的最后一个conv后添加一个side output。Side output层的卷积核大小为1*1,通道数与每阶段最后一层conv的通道数相同。也就是说每个side output的输出通道数为1。至于说不同大小的Side output怎么融合为输出—答案是会进行反卷积或者说进行双线性插值(反卷积理论上可拟合任何插值函数,Bilinear interpolate 可理解为反卷积的一种,论文中采用bilinear)。

HED边缘检测:Holistically-nested Edge Detection 解读_第3张图片  图3 VGG16网络结构

图片中有提到感受野(receptive field size),是指每层的一个神经元对原始图像映射区域的大小,其值与Padding和stride有关。不在展开描述。

 

  • 目标函数:

Side output损失函数:

Weight-fusion损失函数:

HED总的目标函数:

公式参数说明:M--Side output层数  W—相应vggnet卷积核参数  w—每层side output卷积核的参数

                         h—fusion 融合层参数,维数为M   Y—矩阵,groud truth图像值,各像素取值0或1

                         Yhat—HED网络预测值  Dist—distance between Y and Yhat,采用cross-entropy

 

  • 精度分析:

HED精度的实现主要来源于Deep supervision。如下两图展示deep supervision对精度的贡献。去掉deep supervision即图1中去掉粗线所示的训练路径。图4表格中分别列出了有无Deep supervision的精度,网络中加入Deep supervision的精度更好。图5是一个直观显示。

HED边缘检测:Holistically-nested Edge Detection 解读_第4张图片      图4 (指标说明参考附录)

                                                                               

HED边缘检测:Holistically-nested Edge Detection 解读_第5张图片 图5

 

图5每行图片从上到下是网络层次从低到高hidden layer 的side output。左右两列分别是有/无deep supervision的结果。从图片可以看出,添加deep supervision后各层的输出是逐渐递进的,side output逐渐更粗化,更全局化;没有deep supervision各层的输出不是逐渐递进的,比如第二层检测出的边缘比第一层要细化,而且学习过程会丢失一部分边缘特征的信息(比如第三层开始北极熊腿部的edge的部分信息丢失)。

    

HED边缘检测:Holistically-nested Edge Detection 解读_第6张图片   图6 HED和其他边缘检测方法精度比较

    

HED边缘检测:Holistically-nested Edge Detection 解读_第7张图片     图7 HED和canny比较

图6中可以看到HED的精度高于Canny不少。Canny的精度主要依赖于阈值的设置,通过人为的阈值设置可以检测到细粒度的边缘,很依赖图片像素值。但是相比于神经网络,Canny缺失语义方面的理解,神经网络对边缘的理解是更多层次的。HED属于深度学习网络的一种,而且加入了Deep supervision,每个Side output继承上一层的特征,最后对多层特征融合,进一步取得了精度的提升。

 

  • 附录:

1.边缘检测评价指标9

ODS:固定轮廓阈值(optimal dataset scale)选取一个固定的P(置信度),使整个数据集上F-score最大

OIS:单图像最佳阈值(optimal image scale)在每一张图片上选区不同的P使F-score最大

AP:平均精度(average precision )

F-score=2*Precision·Recall / (Precision + Recall) 是评价机器学习结果的一项指标

 

2.VGG16结构图:

 

HED边缘检测:Holistically-nested Edge Detection 解读_第8张图片

HED边缘检测:Holistically-nested Edge Detection 解读_第9张图片

 

特别说明:禁止转载。任何错误欢迎指出,一起交流学习。

你可能感兴趣的:(边缘检测)