【论文阅读笔记】Branch Aggregation Attention Network for Robotic Surgical Instrument Segmentation

1. 论文介绍

2023年发表在 IEEE TMI 上的文章,名字为《Branch Aggregation Attention Network for
Robotic Surgical Instrument Segmentation》(用于机器人手术器械分割的分支聚合注意力网络),link,code在code(其实还没上传)。

2. 摘要

手术器械分割对机器人辅助手术具有重要意义,但手术过程中反射、水雾、运动模糊等噪声以及手术器械的不同形态会大大增加精确分割的难度。提出了一种新的基于分支聚合注意力网络(BAANet)的特征定位方法,该方法采用轻量级编码器,并设计了分支平衡聚合模块(BBA)和块注意力融合模块(BAF),实现了有效的特征定位和去噪。通过引入独特的BBA模块,通过加法和乘法的组合来平衡和优化来自多个分支的特征,以补充优势并有效抑制噪声。此外,为了充分整合上下文信息并捕获感兴趣区域,在解码器中提出了BAF模块,该模块接收来自BBA模块的相邻特征图,并利用双分支注意机制从全局和局部角度定位手术器械。根据实验结果,所提出的方法具有轻量级的优势,同时在三个具有挑战性的手术器械数据集上的mIoU分数上分别比第二好的方法高出4.03%,1.53%和1.34%,与现有的最先进的方法相比。代码可在https://github.com/SWT-1014/BAANet上获得。

keywords: 手术器械分割,分支平衡聚合,块注意力融合,轻量级编码器

3. Introduction

手术器械分割是智能手术机器人的关键技术之一,其目的是将手术器械从背景中区分出来,使医生能够准确识别手术器械的类型和位置。分割结果可进一步用于姿势估计和手术导航。此外,还可以根据结果生成手术器械的工作路径,作为手术报告的重要参考,便于外科医生优化手术过程。
噪声影响:(a)由于手术照明,仪器反射光。(b)当超声刀切割组织时,组织液会蒸发并形成水雾。©手术器械运动模糊不清
前期研究很少关注手术过程可能引入器械分割任务的噪声,并且没有充分考虑手术器械的各种姿态,这可能导致在某些情况下器械分割性能较差。

MobileNetV2被采用作为骨干,以保持分段效果,同时具有少量参数。设计的分支平衡聚合模块(BBA),以有效地融合来自不同层次的特征图和块注意力融合模块(BAF),以提高对各种形式的仪器的注意力。BBA模块在抑制噪声的同时实现多尺度特征融合,而BAF模块捕获全局和局部信息以进行精确的目标定位。

4. 模型结构详解

【论文阅读笔记】Branch Aggregation Attention Network for Robotic Surgical Instrument Segmentation_第1张图片
它是编码器解码器结构,编码器采用MobileNetV2轻量级编码器,以提高预测速度,它输出四张不同尺度的特征图;设计了分支平衡聚合模块(BBA)以融合不同尺度特征图和抑制低级特征图中的噪声;解码器中包含的块注意力融合模块(BAF)使网络能够从各种角度关注分割目标,同时充分结合上下文信息。第三列(底部)中显示的颜色标签是从原始灰度标签生成的,以便于视觉解释。在网络的训练过程中使用原始灰度标签。

BBA 分支平衡聚合模块

【论文阅读笔记】Branch Aggregation Attention Network for Robotic Surgical Instrument Segmentation_第2张图片
在编码器提取的特征图输入到每个分支之前,对高级特征图进行上采样并执行逐元素加法。然后将相加的结果乘以该分支的特征图以获得特征融合输出,其可以表示如下:
F m B B A = X m ⋅ ∑ i = 1 m − 1 g ( X i ) , 2 < = m < = 4 F_{m}^{BBA} = X_m · \sum_{i=1}^{m-1}g(X_i),2<=m<=4 FmBBA=Xmi=1m1g(Xi),2<=m<=4
其中, F m F_m Fm表示每个分支的输出, X m X_m Xm表示不同尺度的特征图, g ( ⋅ ) g(·) g()表示利用各种倍数对高级特征图进行上采样并调整通道的数量。即上图中model-d。

上图中a-d依次可表示为:
【论文阅读笔记】Branch Aggregation Attention Network for Robotic Surgical Instrument Segmentation_第3张图片
(a)中,更高级的特征图先执行法运算,然后再与本级特征图进行法运算,最后将各级处理后的结果进行逐层法后再输出;(当然加法运算前要上采样以统一分辨率)
(b)中,更高级的特征图先执行法运算,再与本级特征图进行法运算,最后将各级处理后的结果逐层法后再输出;
(c)中,更低级的特征图执行下采样后与高级特征图执行法运算,再与本级的特征图执行法运算,最后将各级处理后的结果逐层相再输出;
(d)中,更高级的特征图先执行法运算,再与本级特征图进行法运算,最后将各级处理后的结果逐层法后再输出。

为何d最有效:
当神经网络执行反向传播以计算梯度时,(a)中所示的每个分支的梯度是恒定的并且与其他分支不相关,这意味着分支之间没有相互影响,并且网络不能有效地优化分割结果。(b)中所示的乘法用于特征融合时,不同分支之间的梯度如 F m a d d = ∑ i = 1 m g ( X i ) , 2 < = m < = 4 F_{m}^{add} = \sum_{i=1}^{m}g(X_i),2<=m<=4 Fmadd=i=1mg(Xi),2<=m<=4 相关,这意味着各分支之间存在相互影响。当数据集中的噪声导致一个分支的特征表示性能下降时,其他分支也会由于它们之间的相互作用而受到影响,造成网络的较大误差。在这种情况下,只有当每个分支都具有良好的特征表示时,网络才会收敛到一个良好的结果。因此,乘法融合策略可以帮助网络在噪声环境中表现良好。但是,X1对每个分支的影响是不同的。X1作为一个高级特征,缺乏细节信息,对分割精度有很大影响。(c)是(d)的逆,该方法虽然均衡了各分支的影响,但在对低层特征进行下采样时会丢失大量细节信息,大大降低了特征融合的效果。为了证明上述结论,在第四节中给出了每种特征融合方法的实验结果。
根据下式,当网络进行反向传播时,(d)中的BBA模块将分支相互关联,它们之间的影响是平衡的,这意味着可以同时有效地优化每个分支。
【论文阅读笔记】Branch Aggregation Attention Network for Robotic Surgical Instrument Segmentation_第4张图片

BAF 块注意力融合模块

【论文阅读笔记】Branch Aggregation Attention Network for Robotic Surgical Instrument Segmentation_第5张图片
注意力模块它被放置在解码器中,并接收两个相邻的特征图作为输入。每个特征图都通过一个双分支注意机制,该机制允许将特征作为一个整体和分块提取。最后,对上述结果进行逐元素加法。

BAF模块基于卷积块注意力模块(CBAM)设计,考虑到手术器械的不同形状,构建双分支注意力机制将特征图作为整体和分块传递给CBAM,这有助于网络从全局和局部角度更准确地定位分割目标。

BAF模块接收来自低级特征图的输入XLow和来自上采样的高级特征图的输入XHigh。首先将双分支注意机制应用于输入特征图。分支-1将特征图作为一个整体,并将其通过CBAM以产生Fs(Fc(XL 1))和Fs(Fc(XH 1))。以这种方式,分支-1可以获取特征图的整体注意力特征,其从全局视场定位手术器械。分支-2将特征图沿着H、W方向划分为四个块,并执行与分支-1相同的操作以获得Fs(Fc(XL 2))和Fs(Fc(XH 2)),其可以从块中提取注意力特征,允许网络聚焦于手术器械出现在局部视野中的区域。最后,对上述结果进行逐元素加法,得到Fout(X),它代表了更全面的特征表示。上述过程可以表示如下:
【论文阅读笔记】Branch Aggregation Attention Network for Robotic Surgical Instrument Segmentation_第6张图片

其中Fc(·)表示通道注意机制,Fs(·)表示空间注意机制,δ表示sigmoid函数,MLP(·)是多层感知器的缩写,f7×7表示滤波器大小为7×7的卷积运算,XH1和XH2表示XHigh整体和块的形式,XL1和XL2表示XLow整体和块的形式。

5. 实验

它的实验使用Endovis 2017数据集、Endovis 2018数据集和Lapavis数据集,采用xxxxx方法对数据集进行划分。(前两者是视频,后者是图像数据)

基于pytorch实现的,图像大小被调整成原始尺寸的一半。为了增加数据的特征多样性,对调整大小的图像进行数据增强,包括模糊,亮度调整,剪切和几何变换。交叉熵损失用于指导网络进行权值更新。初始学习率固定为0.0001,并通过指数衰减策略进行更新。Adam优化器用于训练,每个实验的批量大小为32和200个epoch。为了公平比较,每个网络都使用相同的训练策略进行训练。所有培训和测试步骤都在同一工作站上进行:NVIDIA Quadro RTX A6000 GPU和Intel Xeon Gold 6226 R处理器。

结果

【论文阅读笔记】Branch Aggregation Attention Network for Robotic Surgical Instrument Segmentation_第7张图片
【论文阅读笔记】Branch Aggregation Attention Network for Robotic Surgical Instrument Segmentation_第8张图片

你可能感兴趣的:(论文阅读,笔记)