arXiv:2210.07140v1 [cs.CV] 13 Oct 2022
深度卷积神经网络,如U-Net[57, 87]、DeepLab[4, 5]、HRNet[63, 67],它们遵循FCN[48]的设计,在密集预测任务中取得了令人兴奋的结果。特别是高分辨率网络(HRNet)[63, 67]在密集预测任务中取得了最先进的成果,如语义分割、人体姿势估计等。HRNet能够学习高分辨率的表征,同时确保低分辨率特征图和高分辨率特征图之间的语义信息传输。然而,我们观察到,HRNet仍有很大的改进空间。我们经常可以看到,大面积的分类是不正确的。例如,在图1中,第二行显示了HRNet的结果。在图1(a)和(b)中,整个实例被错误分类,而在(c)中,一个大面积实例内的一些区块被错误分类。这表明HRNet实现的语义表示仍然不够好。我们认为这可能是由于HRNet的宏观结构造成的,这可以概括为以下两个方面。
(i) HRNet的最低分辨率分支的最终块具有最强的语义表示,它被直接输出,而没有被完全传播到更高的分辨率分支。
(ii) HRNet的低分辨率分支不够深入,使得网络的语义能力受到限制。而在HRNet的后两个阶段增加模块的数量以获得更深的网络显然是不可取的,因为计算成本会大大增加。U-Net[57]在一定程度上缓解了上述两个问题。然而,在U-Net中,每个阶段只保留一个分辨率,除了与残余链接合并外,不同尺度之间没有融合。我们认为,能够并行地保持多个尺度并随时进行多尺度融合是HRNet的最大优势。
语义分割是一项像素级的分类任务,但它也需要对整个场景的语义有深入的了解,以便为每个像素分配正确的标签。自从Long等人[48]提出完全卷积网络(FCN),其中只包括卷积层,并且可以将任意大小的图像作为输入,各种深度卷积神经网络(DCNN)一直主导着语义分割的任务。为了整合更多的场景级语义背景,一些方法[4, 42, 61]将概率图解模型纳入了DCNNs。例如,Chen等人[4]提出将DCNN与全连接条件随机场相结合。其他一些工作,如RefineNet[41]、ExFuse[82]和CCL[11],都被提出来从多尺度聚合的角度来捕捉丰富的上下文信息。
与其使用其他计算机视觉任务中常用的传统DCNN骨干网络[24, 26, 31, 62, 64],不如开发一个更适合分割的骨干网络,可以获得更好的语义分割性能。用于图像分割的一个流行的DCNN系列是基于卷积编码器-解码器架构的[52]。U-Net[57]和V-Net[51]是两个著名的此类架构。它们都需要经过多个下采样的卷积块,并使用多个上采样的解卷积块来恢复原始分辨率。PSPNet[83]和Deeplabv3系列[5,6]通过不同大小的池化核或不同稀释率的稀释卷积来保留多个空间分辨率。HRNet[63, 67]是在人类姿势估计任务上首次提出的。它也非常适用于语义分割任务,并能取得最先进的结果。HRNet以并行的方式保持高低分辨率的卷积流,并重复交换不同分辨率的信息。我们的方法U-HRNet是基于HRNet建立的。它继承了HRNet的优点,保持多个分辨率流并重复进行跨分辨率的信息传输。同时,我们将高分辨率特征图上不必要的计算量分配给更有意义的部分,以改善整体的语义呈现。我们的方法与U-Net有一定的相似性,因为它们都是U型网络。但与U-Net不同的是,U-Net在每个阶段只保持一个分辨率,而U-HRNet的每个阶段将继承前一个阶段的一个分辨率流,这更有助于不同分辨率之间的融合。
此外,还有很多基于自我注意的方法[66]来改善语义表示。例如,OCNet[77]通过应用自我注意模块来计算每个像素与其他所有像素的相似性,从而聚合物体的上下文。DANet[17]和Relational Context-aware Network[53]在空间和通道两个维度上探索上下文依赖关系。HCNet[8]提出了一种方法来捕捉每个同质区域内像素之间的依赖关系,并继续对不同区域之间的相关性进行建模。由于我们的工作主要集中在改进骨干结构,我们没有把这些模块添加到我们的模型中进行纯粹的比较。事实上,这些与骨干结构无关的改进大多可以直接应用于UHRNet,以达到更好的效果。
深度估计是一个像素级的回归任务,这也需要对整个场景的全局理解。早期的工作[59]依赖于手工制作的特征来解决这个问题。自从使用深度学习来预测深度图后,性能得到了显著提升[1,2,12-14,16,25,32,35,36,44,45,70,71]。如同在语义分割中,各种骨干[5, 57, 67]也被用于深度估计。在本文中,我们也表明UHRNet可以在深度估计任务中取得更好的结果。
(i) 1/32分辨率分支的最后一个区块具有最强的语义表征,它被直接输出而没有得到充分利用。
(ii) 高、低分辨率分支之间的计算分配没有得到优化,具有强语义表示的低分辨率分支应该得到更多的关注。
继HRNet之后,我们将图像输入到一个干块中,将分辨率降低到1/4,而主体则输出与1/4相同分辨率的特征图。图2 c显示了U-HRNet的主体。与图2 b所示的U-Net一样,主体在宏观范围内似乎是一个U型网络,而在微观范围内,它是由[63,67]中提出的几个hr-模块组成的。然而,每个hr-模块是由不超过两个决议分支组成的。这种设计方式是为了解决第3.1节中提到的HRNet的缺点。重组的细节将在下面阐述。首先,我们删除了HRNet最后两个阶段的高分辨率分支(阶段3和阶段4的1/4分辨率分支,阶段4的1/8分辨率分支),这使得大量的计算被释放。然后,为了改善高分辨率输出的语义表示,我们在最低分辨率阶段之后增加了几个阶段。这些阶段逐渐对特征图进行上采样,并与之前阶段的特征合并。这使得最低分辨率阶段输出的具有最强语义表示的特征可以更早地与低级别的高分辨率特征合并,因此成功的阶段能够通过充分分析最强的表示来推断空间细节。最后,我们重新安排不同阶段的hr-模块。我们在低分辨率阶段增加模块,而在高分辨率阶段减少模块,从而在更大程度上改善语义表征。此外,我们增加了一个具有1/32和1/64分辨率分支的阶段,以产生更丰富的语义表示,而不需要增加额外的高分辨率分支。与UNet类似,我们在网络的深度方向上设置了几条捷径,分别连接阶段2和阶段8、阶段3和阶段7、阶段4和阶段6。这些捷径使网络既能利用高层次的特征,又能利用低层次的特征,同时,使梯度能够直接传播到前面的阶段。
U-HRNet的主体包含9个阶段,5个分辨率流。分辨率为1/4、1/8、1/16、1/32、1/64。第一阶段包含1个由4个瓶颈残差块组成的单分支hr模块,每个块的宽度为64,然后是一个3×3卷积,将特征图的宽度改为 C C C,表示为1/4分辨率流的宽度。第二至第八阶段分别包含1、5、2、2、1、1、1hr-modules,。所有这些模块都由两个分支组成,这些模块中的每个分支由4个基本剩余块组成。和第一阶段一样,最后一个阶段也包含1个单分支的hr模块,而这个模块由4个基本残差块组成。最后,五个解析流的卷积宽度分别为 C 、 2 C 、 4 C 、 8 C C、2C、4C、8C C、2C、4C、8C和1 6 C 6C 6C。图2(c)描述了U-HRNet的布局。此外,U-HRNet-small与U-HRNet相比有两点不同,即(i)第三阶段由2个hr模块组成,而其他阶段与U-HRNet相同;(ii)U-HRNet-small的hr模块的所有分支都包含2个瓶颈块或基本块。剩余
LIP. LIP数据集[22]包含50,462张精心标注的人类图像,其中30,462张图像用于训练,10,000张图像用于测试。这个数据集包含20个类别(19个人体部位标签和1个背景标签)。mIoU是这个数据集的主要指标,同时还报告了像素精度(acc.)和平均精度(avg.)。
对于训练和测试设置,我们遵循 [67, 77] 在Cityscapes, ADE20K和LIP上进行的U-HRNet和U-HRNet+OCR的实验。而在Synapse多器官CT上,我们遵循[3]。
我们使用HRNetV2-W18-small-v2作为基线结构,对U-HRNet的几种不同结构配置进行消融研究。而且所有的实验都是从头开始训练。为方便起见,我们用一串数字对网络结构进行编码。序列中的每个数字代表一个阶段,数字本身等于这个阶段的hr-modules的数量。例如,"1↘1↘2↘5↗1↗1↗1 "表示一个网络有7个阶段,每个阶段的hr模块数量分别为1、1、2、5、2、1、1。此外,在该序列中,↘表示在两个相邻的阶段之间进行下采样,而上采样为↗。特别是,在没有额外要求的情况下,序列的第一阶段和最后一个阶段是由单分支的hr模块组成的,而其他阶段则是双分支的模块。否则,如果一个序列以=结束,那么这个序列的最后一个阶段就由两分支的hr模块组成。更多细节见补充材料。
structure | GFLOPs | mIoU | |
HRNetV2-W18-small-v2 | - | 71.6 | 70.1 |
U-HRNet-W18-small-va | 1↘1↘3↘2= | 58.6 | 71.4 |
U-HRNet-W18-small-vb | 1↘1↘3↘5= | 67.7 | 72.8 |
U-HRNet-W18-small-vc | 1↘1↘3↘7= | 73.8 | 73.3 |
U-HRNet-W18-small-vd | 1↘1↘2↘5↗1= | 67.7 | 73.5 |
U-HRNet-W18-small-ve | 1↘1↘2↘5↗1↗1↗1 | 72.2 | 74.7 |
U-HRNet-W18-small-vf | 1↘1↘4↘1↘1↗1↗1↗1↗1 | 73.1 | 73.0 |
U-HRNet-W18-small-vg | 1↘1↘2↘1↘1↗1↗2↗2↗1 | 73.1 | 73.3 |
U-HRNet-W18-small-vh | 1↘1↘2↘2↘2↗1↗1↗1↗1 | 73.1 | 73.9 |
U-HRNet-W18-small | 1↘1↘2↘2↘2↗1↗1↗1↗1 | 73.1 ** | 75.1** |
表1显示了HRNetV2-W18-small-v2、UHRNet-W18-small及其几种变化的计算成本(GFLOPs)和性能(mIoU)。从U-HRNet-W18-small-va和HRNetV2-W18-small-v2的比较中,我们发现HRNet中最后两个阶段的高分辨率分支不是很有必要。而将小规模的分支做得更深,并在网络的后面放置几个上采样的hr模块作为解码器,都能极大地提高性能,从U-HRNet-W18-small-va到U-HRNet-W18small-ve都是如此。以此类推,我们在U-HRNet-W18-small-ve的基础上,用两个分辨率较低的1/32的模块取代了两个分辨率较低的1/64的模块,进一步提高了网络的性能。最后,我们在Cityscapes val上实现了75.1 mIoU,比HRNetV2-W18-small-v2基线高出5%。此外,我们还研究了hr-模块在所有阶段的不同分布和不同的融合模块。U-HRNetW18-small-vf和U-HRNet-W18-small-vg是两个变体结构,前面和后面的阶段分别被放大了。U-HRNet-W18-small-vh使用融合A而不是融合B作为融合模块。表1中的结果显示,所有这些变体都不如UHRNet-W18-small有竞争力。
backbone | GFLOPs | mIoU | |
MD(Enhanced) [73] | MobileNetV1 | 240.2 | 67.3 |
ResNet18(1.0) | ResNet18 | 477.6 | 69.1 |
MobileNetV2Plus [46] | MobileNetV2 | 320.9 | 70.1 |
HRNetV2 [67] | HRNetV2-W18-small-v1 | 31.1 | 70.3 |
HRNetV2 [67] | HRNetV2-W18-small-v2 | 71.6 | 76.3 |
U-HRNet | U-HRNet-W18-small | 73.1 | 78.5 |
U-Net++ [87] | ResNet-101 | 748.5 | 75.5 |
D-ResNet [24] | D-ResNet-101 | 1661.6 | 75.7 |
DeepLabv3 [5] | D-ResNet-101 | 1778.7 | 78.5 |
DeepLabv3+ [6] | D-Xception-71 | 1444.6 | 79.6 |
PSPNet [83] | D-ResNet-101 | 2017.6 | 79.7 |
HRNetV2 [67] | HRNetV2-W48 | 696.2 | 81.1 |
U-HRNet | U-HRNet-W48 | 698.6 | 81.9 |
HRNetV2+OCR [77] | HRNetV2-W48 | 1206.3 | 81.6 |
U-HRNet+OCR | U-HRNet-W48 | 1222.3 | 82.3 |
城市景观的结果。我们在表2中报告了UHRNet和其他最先进的方法在Cityscapes数据集上的GFLOPs和mIoU结果:(i)U-HRNetW18-small的GFLOPs与HRNetV2-W18small相似,达到78.5 mIoU,比HRNetV2-W18-small-v2高出2.2分,并且以较大的幅度超过其他小型模型,计算量也较小。(ii) U-HRNet-W48的GFLOPs与HRNetV2-W48相似,实现了81.9 mIoU,比HRNetV2-W48提高了0.8个百分点,并且以较大的幅度超过了其他主流的大型模型,计算成本也低得多。
值得一提的是,U-HRNet-W48只用了57.9%(698.6/1206.3)的GFLOPs就实现了与HRNetV2-W48+OCR在价值和测试集上相当的mIoU。此外,通过添加OCR模块,它可以在测试集上进一步达到82.9 mIoU,创造了新的最先进的水平。
backbone | mIoU | |
PSPNet [83] | D-ResNet-101 | 43.29 |
PSANet [84] | D-ResNet-101 | 43.77 |
EncNet [78] | D-ResNet-101 | 44.65 |
SFNet [38] | D-ResNet-101 | 44.67 |
CFNet [79] | D-ResNet-101 | 44.89 |
CCNet [27] | D-ResNet-101 | 45.22 |
DANet [18] | D-ResNet-101 + multi-grid | 45.22 |
ANNet [88] | D-ResNet-101 | 45.24 |
APCNet [23] | D-ResNet-101 | 45.38 |
ACNet [19] | D-ResNet-101 + multi-grid 4 | 5.90 |
HRNet [67] | HRNetV2-W48 | 44.20 |
U-HRNet | U-HRNet-W48 | 46.38 |
HRNet+OCR [77] | HRNetV2-W48 | 45.66 |
U-HRNet+OCR | U-HRNet-W48 | 47.75 |
ADE20K上的结果。表4显示了我们提出的方法与最先进的方法在ADE20K值集上的比较。U-HRNet-W48比HRNetV2W48高出2.18分,并且比其他先进的方法表现得更好。此外,U-HRNet-W48+OCR取得了47.75 mIoU的成绩,大大推动了最先进的方法的发展。
backbone | extra. | pixe acc. | avg. acc. | mIoU | |
Attention+SSL [22] | VGG16 | Pose | 84.36 | 54.94 | 44.73 |
DeepLabV3+ [6] | D-ResNet-101 | - | 84.09 | 55.62 | 44.80 |
MMAN [49] | D-ResNet-101 | - | - | - | 46.81 |
SS-NAN [85] | ResNet-101 | Pose | 87.59 | 56.03 | 47.92 |
MuLA [54] | Hourglass | Pose | 88.50 | 60.50 | 49.30 |
JPPNet [39] | D-ResNet-101 | Pose | 86.39 | 62.32 | 51.37 |
CE2P [58] | D-ResNet-101 | Edge | 87.37 | 63.20 | 53.10 |
HRNetV2 [67] | HRNetV2-W48 | N | 88.21 | 67.43 | 55.90 |
U-HRNet | U-HRNetV2-W48 | N | 88.34 | 67.65 | 56.66 |
HRNetV2+OCR [77] | HRNetV2-W48 | N | 88.24 | 67.84 | 56.48 |
U-HRNet+OCR | U-HRNetV2-W48 | N | 88.34 | 68.29 | 56.99 |
LIP的结果。表5显示了UHRNet与最先进的方法在LIP值集上的比较。UHRNet-W48在计算成本相似的情况下,比HRNetV2-W48在mIoU上获得了0.76分,而且在不使用姿势和边缘等额外信息的情况下,也比其他方法表现更好。而U-HRNet-W48+OCR达到了56.99 mIoU,这也是一个新的先进水平。
backbone | GFLOPs | average DSC ↑ | average HD ↓ | |
V -Net [50] | V -Net | - | 68.81 | − |
DARR [20] | V -Net | - | 69.77 | − |
U-Net [57] | ResNet-50 | - | 74.68 | 36.87 |
AttnUNet [60] | ResNet-50 | - | 75.57 | 36.97 |
TransUNet [3] | ResNet-50-ViT | 14.02 | 77.48 | 31.69 |
U-HRNet | U-HRNetV2-W48 | 17.01 | 77.49 | 29.64 |
Synapse多器官CT的结果。如表6所示,U-HRNet-W48明显优于U-Net系列网络。特别是,与最近的基于变压器的TransUNet相比,U-HRNet-W48仅在增加几个GFLOPs的情况下就获得了2.05毫米的改进。此外,U-HRNet是完全卷积的,没有张量之间的外积操作,这比基于 transformer的网络对计算更友好。
NYUD-V2。NYU深度V2(NYUD-V2)数据集包含120K RGB-深度对,尺寸为480×640,由微软Kinect从464个不同的室内场景获取。除了整个数据集之外,还有官方注释的1449张室内图像(NYUD-Small),其中795张图像被拆开用于训练。按照以前的工作[33, 71],我们使用其他654张图像作为测试集,在整个深度估计和特征裁剪的实验中进行。为了验证我们方法的可扩展性,我们还使用了一个大型数据集,在本文中命名为NYUD-Large,用于训练。该数据集包含由[33]发布的24231个RGB深度对。
按照以前的方法[1,71],我们使用六个常用的指标来定量评估单眼深度估计的性能:平均绝对相对误差(absrel),平均对数误差(log10),均方根误差(rms),以及阈值(δi < 1.25i,i = 1, 2, 3)下的准确性。
