Holistically-Nested Edge Detection

自然图像的边缘检测

  • 11月30日

Holistically-Nested Edge Detection

整体嵌套边缘检测

Abstract

我们开发了一种新的边缘检测算法,解决了这个长期存在的视觉问题中的两个重要问题:(1)整体图像训练和预测; (2)多尺度,多层次的特征学习。我们提出的方法,整体嵌套边缘检测(HED),通过深度学习模型执行图像到图像预测,该模型利用完全卷积神经网络和深度监督的网络。HED自动学习丰富的层次表示(在侧面响应的深层监督的指导下),这对于解决边缘和对象边界检测中的挑战性模糊性是重要的。 我们在BSDS500数据集(ODS F-score为0.790)和纽约大学深度数据集(ODS F-score为0.746)方面取得了显着进步,并且提高了速度(每张图像0.4秒) 这比在HED之前开发的一些基于CNN的边缘检测算法快几个数量级。我们还观察到其他边界检测基准数据集(例如Multicue和PASCAL-Context)的令人鼓舞的结果。

1.介绍

这个问题对于各种计算机视觉领域都具有根本性和重要性,这些领域包括视觉显着性,分割,物体检测/识别,跟踪和运动分析,医学成像,结构从运动和3D重建等传统任务,再到现代应用。 如自动驾驶,移动计算和图像 - 文本分析。人们早就明白,精确定位自然图像中的边缘涉及各种“层次”的视觉感知。相对全面的数据收集和认知研究(Martin等人,2004)表明,尽管不同的人类受试者在边缘和边界的位置上确实有一些不同的偏好,但是在受试者之间仍然具有令人印象深刻的一致性,例如, 在一致性研究中达到F-分数0.80(Martin等人,2004)。

这些以补丁为中心的方法属于“滑动窗口”方法,通过考虑图像的密集,重叠窗口来执行预测,通常以每个像素为中心; 这在训练和测试中都造成了很大的瓶颈; 例如,对于这些方法,在一个静态图像中检测边缘的时间范围从几秒(Ganin和Lempitsky 2014)到几个小时(Bertasius等人2015)(即使使用现代GPU)。

我们开发了端到端边缘检测系统,全息边缘检测(HED),自动学习丰富的分层特征类型,如果我们要接近人类解决自然图像边缘和对象边界检测中的模糊性的能力,这是至关重要的。我们使用术语“整体”,因为尽管没有明确地对结构化输出进行建模,但HED旨在以图像到图像的方式训练和预测边缘。对于“嵌套”,我们强调作为侧输出产生的继承和逐步细化的边缘图:我们打算显示每个预测的路径对于每个边缘图是共同的,连续的边缘图更简洁。这种对分层特征的综合学习与以前的多尺度方法(Witkin 1984; Yuille和Poggio 1986; Ren 2008)其中,尺度空间边缘字段既不自动学习也不是分层连接。我们发现这些基础技术的有利特征在HED中表现出准确且计算效率。

图1给出了一个示例图像以及人类主体地面实况注释的图示,以及所提出的HED边缘检测器的结果(包括各个层的侧面响应),以及Canny边缘检测器的结果(Canny 1986) 具有不同的比例参数。 不仅不同尺度的Canny边缘不直接连接,它们也表现出空间偏移和不一致性。
Holistically-Nested Edge Detection_第1张图片

Methods after HED

2.Significance and RelatedWork

所提出的整体嵌套边缘检测器(HED)解决了两个关键问题:(1)整体图像训练和预测,受完全卷积神经网络的启发(Long et al.2015),用于图像到图像分类(系统采用 图像作为输入,并直接产生边缘图图像作为输出); (2)嵌套式多尺度特征学习,受深度监督网(Lee et al.2015)的启发,进行深层监督以“指导”早期分类结果。我们在下面讨论所提出的HED算法在两个方向上与现有算法相比的重要性:(1)边缘和物体边界检测; (2)多尺度学习神经网络。

2.1 Edge and Object Boundary Detection

边缘和对象边界检测的任务本质上具有挑战性。 经过数十年的研究,已经出现了许多关键且可能在成功系统中发挥作用的方法:(1)精心设计和/或学习的特征(Martin等人2004;Dollár等人2006),(2)多尺度反应融合(Witkin 1984; Ruderman和Bialek 1994; Ren 2008),(3)参与 不同层次的视觉感知(Hubel和Wiesel,1962; Marr和Hildreth,1980; Essen和Gallant,1994; Hou等,2013),如中层格式塔法信息(Elder和Goldberg,2002),(4)结合结构信息(内在的) 输入数据和输出解决方案中携带的相关性(Dollár和Zitnick 2015)和上下文(短期和长期交互)(Tu 2008),(5)进行整体图像预测(指通过拍摄图像内容进行预测的方法) (全球和直接)(Liu et al.2011),(6)利用3D几何(Hoiem等人,2008),以及(7)解决遮挡边界。

结构化边缘(SE)(Dollár和Zitnick 2015)主要关注以下三个方面:使用大量手动设计的特征(属性1),融合多尺度响应(属性2)和结合结构信息(属性4)。最近使用CNN进行基于补丁的边缘预测的工作浪潮(Ganin和Lempitsky 2014; Shen等人2015; Bertasius等人2015; Hwang和Liu 2015)包含一个备选的共同主题,侧重于三个方面:自动特征学习 (属性1),多尺度响应融合(属性2),以及不同级别的视觉感知(属性3)的可能参与。然而,由于缺乏深层次的监督(我们在方法中包括),在(Bertasius等人2015; Hwang和Liu 2015)隐藏层产生的多尺度响应在语义上意义不大,因为反馈必须是 通过中间层反向传播。更重要的是,他们的补丁到像素或补丁到补丁策略会导致训练和预测效率显着降低。
Holistically-Nested Edge Detection_第2张图片

通过“整体嵌套”,我们打算强调我们正在制作端到端边缘检测系统,这是一种受完全卷积神经网络启发的策略(Long et al.2015),但在修剪之上还有其他深层监督VGG网(Simonyan和Zisserman 2015)(如图3所示)。在缺乏深度监督和侧面输出的情况下,完全卷积网络(Long et al.2015)(FCN)产生的结果不如HED(例如,BSDS500的F值为0.745),因为边缘检测需要高度精确的边缘像素定位。有一点需要考虑的是,我们的图像到图像训练和预测策略仍然没有明确地使用上下文信息,因为在HED中不直接强制对相邻像素标签的约束。除了基于贴片的CNN边缘检测方法的速度增益之外,性能增益主要归功于三个方面:(1)类似FCN的图像到图像训练允许我们同时训练大量的样本(见表5); (2)我们模型中的深度监督指导学习更透明的特征(见表2); (3)在endtoend学习中插入侧输出,鼓励每层的连贯贡献(见表4)。

2.2 Multi-Scale Learning in Neural Networks

神经网络中的多尺度学习
接下来,我们继续将多尺度深度学习的可能配置分为四类,即多流学习,跳过网学习,在多个输入上运行的单个模型,以及独立网络的培训。
Multi-stream learning:2a,
Skip-layer network learning :跳过网络架构的拓扑不是训练多个并行流,而是以主流为中心。添加链接以合并来自主要网络流的不同级别的特征响应,然后将这些响应组合在共享输出层中。
以上两种方法都只有一个结果的损失函数和一个预测结果,然而,在边缘检测中,获得多个预测以将边缘图组合在一起通常是有利的(并且实际上是普遍的)。
Single model on multiple inputs 该策略可以在训练阶段(作为数据增加)和在测试阶段(作为“集合测试”)发生。一个值得注意的例子是绑重金字塔网络(Farabet et al.2013)。这种方法在非基于深度学习的方法中也很常见(Dollár和Zitnick 2015)。请注意,集合测试会削弱学习系统的预测效率,尤其是对于更深层次的模型(Bertasius等人2015; Ganin和Lempitsky 2014)。
Training independent networks 训练多个网络

Holistically-nested networks 在表示和计算复杂性方面,现有方法通常存在显着的冗余。我们提出的整体嵌套网络是一个相对简单的变体,能够从多个尺度产生预测。该架构可以被解释为图2d中“独立网络”方法的“整体嵌套”版本,激励我们选择名称。我们的架构包括具有多个侧输出的单流深度网络。这种架构类似于之前的几个作品,特别是深度监督网(Lee et al.2015),其中作者表明隐藏层监督可以改善图像分类任务的优化和泛化。如果需要统一输出,多侧输出还可以灵活地添加额外的融合层。

3 Our Approach and Formulation

3.1 Formulation

在本节中,我们给出了HED的表述,并详细讨论了训练和测试程序,以及HED的网络结构。我们的目标是建立一个能够学习特征的网络,从中可以生成接近真实情况的边缘图。为简单起见,我们将所有标准网络层参数的集合表示为W.假设在网络中我们有M个sideoutput层。每个侧输出层还与分类器相关联,其中相应的权重表示为w =(w(1),…,w(M))。我们考虑目标函数:
Holistically-Nested Edge Detection_第3张图片

对于典型的自然图像,边缘/非边缘像素的分布严重偏差:90%的地面实况是非边缘的。Hwang和Liu(2015)提出了成本敏感的损失函数,并为偏差采样引入了额外的权衡参数。我们使用更简单的策略来自动平衡正/负类之间的损失。我们在每个像素的基础上引入一个类平衡权重β。索引j在图像X的图像空间维度上。然后我们使用这个类平衡权重作为抵消边缘和非边缘之间的这种不平衡的简单方法。具体来说,我们定义了以下等式中使用的类平衡交叉熵损失函数。
Holistically-Nested Edge Detection_第4张图片

为了直接利用侧输出预测,我们在网络中添加“加权融合”层,并且(同时)在训练期间学习融合权重。我们在融合层Lfuse的损失函数变为

测试:
在测试期间,给定图像X,我们从侧输出层和加权融合层获得边缘图预测:其中CNN(·)表示由我们的网络产生的边缘地图。可以通过进一步聚合这些生成的边缘图来获得最终的统一输出。细节将在Sec4中讨论。

3.2

3.2.1 Trimmed Network for Edge Detection
我们框架的层次结构选择值得一些思考。我们需要架构(1)更深入,以便有效地生成感知上的多级特征; (2)具有不同步幅的多个阶段,以捕获边缘图的固有尺度。我们还必须牢记从头开始训练这种具有多个阶段的深度神经网络的潜在困难。最近,VGGNet(Simonyan和Zisserman 2015)被认为在ImageNet挑战中实现了最先进的性能,具有很大的深度(16个卷积层),高密度(stride-1卷积内核)和多个阶段(五个2步下采样层)。最近的工作(Bertasius等人,2015)也证明了在一般图像分类任务上预先训练的微调深度神经网络对于低级边缘检测任务是有用的。因此,我们采用VGGNet架构,但做出以下修改:(a)我们将侧输出层连接到每个级中的最后一个卷积层,分别为conv1_2,conv2_2,conv3_3,conv4_3,conv5_3。这些卷积层中的每一个的感受场大小与相应的侧输出层相同; (b)我们切断了VGGNet的最后一个阶段,包括第五个汇集层和所有完全连接的层。“修剪”VGGNet的原因是双重的。首先,因为我们期望具有不同尺度的有意义的侧输出,所以具有步幅32的层产生太小的输出平面,结果是插值的预测图将太模糊而无法使用。其次,完全连接的层(即使重铸为卷积)是计算密集型的,因此从pool5开始修剪层可以显着降低训练和测试期间的主题/时间成本。

“修剪”VGGNet的原因是双重的。首先,因为我们期望具有不同尺度的有意义的侧输出,所以具有步幅32的层产生太小的输出平面,结果是插值的预测图将太模糊而无法使用。其次,完全连接的层(即使重铸为卷积)是计算密集型的,因此从pool5开始修剪层可以显着降低训练和测试期间的主题/时间成本。我们的最终HED网络架构有5个阶段,分别有1,2,4,8和16步,并且具有不同的感受域大小,全部嵌套在VGGNet中。有关接受字段和步幅的配置摘要,请参阅表1。
Holistically-Nested Edge Detection_第5张图片

3.2.2 Architecture Alternatives
下面我们讨论架构设计中的一些可能的替代方案,特别是HED深度监督对边缘检测任务的作用。

FCN and skip-layer architecture
FCN模型中使用的拓扑结构在几个方面与我们的HED模型中的拓扑结构不同。正如我们所讨论的,虽然FCN重新解释了每像素预测的分类网络,但它只有一个输出损失函数。因此,在FCN中,尽管跳过网结构是将粗略的高层信息与精细的低层信息组合在一起的DAG,但它没有明确地产生多尺度输出预测。我们将探讨如何在与HED模型相同的实验设置下将此体系结构用于边缘检测任务。我们首先尝试通过将损失函数替换为用于边缘检测的交叉熵损失来直接应用FCN-8s模型。
The role of deep supervision
由于我们采用了连接每个侧输出层的加权融合输出层,因此需要采用深度监督:现在整个网络都是路径连接并且输出层参数可以通过加权融合层误差传播路径的反向传播来更新(根据等式3)。在这里,我们表明深度监督对于获得所需的边缘图非常重要。我们提出的网络的关键特征是每个网络层应该扮演一个单一的网络角色,负责产生一定比例的边缘图。以下是基于上述两种变体的定性结果:(1)加权融合监督和深度监督训练,(2)加权融合监督训练。
Holistically-Nested Edge Detection_第6张图片

在本节中,我们将讨论我们的详细实现并报告我们提出的算法的性能。我们在四个基准数据集上实验HED,包括BSDS500(Arbelaez等人2011),NYUD(Silberman等人2012),Multicue-edge/boundary(Mély)等人,2015)和PASCALContext(Everingham等,2014)。一些定性结果如图7所示。

使用三种标准测量方法评估边缘检测精度:固定轮廓阈值(ODS),周期最佳阈值(OIS)和平均精度(AP)。我们将标准的非最大抑制技术应用于边缘图,以获得用于评估的细化边缘。

你可能感兴趣的:(深度学习)