文章序号、所属单元及链接:1206-Computer Vision for Medical Robots
一作所属单位:Imperial College London
读后体会:论文创新点:时间一致性、光流法。
准确的实时导管分割是机器人辅助血管内介入治疗的重要先决条件。由于真实注释的困难,大多数现有的基于学习的导管分割和跟踪方法仅在小规模数据集或合成数据上进行训练。此外,术中成像序列的时间连续性没有得到充分利用。在本文中,我们介绍了FW-Net,这是一种用于血管内介入的端到端实时深度学习框架。提出的FW-Net具有三个模块:具有编码器-解码器体系结构的分割网络,用于提取光流信息的流网络,以及用于学习帧到帧时间连续性的新颖的流引导弯曲功能。我们表明,通过有效地学习时间连续性,网络可以仅使用原始地面实况进行训练就可以成功地实时分割和跟踪导管。详细的验证结果证实,我们的FW-Net在实现实时性能的同时,优于最新技术。
与传统的开放式外科手术方法相比,在心血管外科手术中,血管内介入治疗具有许多优势,包括切口更小,患者的创伤更少,局部麻醉而不是全身麻醉,稳定性,更重要的是,降低了合并症患者的风险 。血管内干预涉及操纵导管和导丝以到达脉管系统中的目标区域以进行治疗(例如,支架植入,消融或药物输送)。此类任务需要高水平的技术技能,以免损坏血管壁,否则可能导致穿孔和出血,解剖或器官衰竭,所有这些可能都是致命的。尽管它们具有相对优势,但血管内手术仍存在一些局限性,例如有限的感官反馈,视觉运动轴(visuo-motor axes)的未对齐以及操作者的高度灵活性。机器人技术和计算机辅助已被集成到临床工作流程中,以提高技巧和精度来增强外科技能。
作为机器人辅助干预的先决条件,导管分割的任务可以为外科医生提供基本的视觉或触觉反馈。例如,在中,基于基于视觉的力感知的方法被用于导管和脉管尖端位置检测。然而,在常规实践中,不仅通过导管末端与血管壁的接触,而且整个导管与内皮壁之间的接触,对血管造成损害。因此,整个导管的描绘和跟踪是必不可少的。然而,出于两个主要原因,自主导管分割并不是一件容易的事。首先,在X射线图像中,导管由于对比度低而容易与其他类似的线性结构(如血管)混淆。其次,在临床试验期间,导管和导线可能会突然发生大变形运动。这导致了一个事实,即基于导管外观原始特征的传统方法的通用性有限,无法在实时和动态手术环境中对导管进行分割。
最近,机器学习,尤其是深度学习已被广 泛用作医学图像分割的一种新方法。深度学习的有效性来自于处理大量多模式输入数据的能力。但是,此优势成为导管分割中的潜在问题,因为创建带有像素标记的大规模数据集并不容易。这是因为注释任务需要一定数量的医学专业知识,而手动标记非常繁琐,尤其是对于具有细长结构的对象(例如导管和导线)而言。由于这些挑战,用于导管分割的深度学习方法主要是在非常小的数据集上训练,使用合成数据或基于对像素灰度的特定观察来创建真值。这些假设从技术上限制了深度学习的力量和方法的通用性。
在本文中,我们提出了流引导弯曲网(FW-Net),这是一种用于二维X射线荧光透视序列中的导管分割的新的端到端框架(图1)。我们的假设是,可以使用原始的真值来训练深度网络,而可以通过有效地从X射线序列中学习时间连续性来提高整体精度。特别是,我们首先使用基于视觉的方法来创建原始真相,然后设计具有以下三个模块的FW-Net:i)分割网络,ii)流网络,和iii)新颖的流引导变形功能。我们在原始真实数据上训练FW-Net,并使用流引导的弯曲函数来学习连续X射线帧之间的时间连续性。这将鼓励网络基于原始真值和顺序信息进行预测,从而潜在地提高准确性。
最近,在从X射线图像中分割导管和导丝方面进行了越来越多的努力。这些方法可以分为两大类:基于视觉的方法和基于学习的方法。
传统的导管分割方法主要使用原始图像水平提示,例如像素强度,纹理或直方图。有人介绍了一种基于霍夫变换的方法,用于检测成人胸部X射线中支撑装置的位置。同样,Kao等提出了一种使用局部特征和多个阈值检测小儿胸部X射线图像上的气管导管的系统。凯勒等介绍了一种半自动的方法,用于使用来自用户输入的先验信息进行导管检测和跟踪。Mercan等提出使用局部和整体曲率特征以及可控的平滑度进行导丝分割。最近,有人使用多尺度血管增强滤波器和自适应二值化技术实时检测导管和导丝。所有基于阈值技术的方法的主要缺点是它们不能很好地泛化并且对特定的输入X射线数据非常敏感。
机器学习技术也广泛用于导管分割和跟踪。随着深度学习的兴起,基于卷积神经网络(CNN)的方法已适用于导管分割。早期工作使用了简单的神经网络以检测胸管,然后使用曲线拟合技术对结果进行后处理以连接不连续的片段。引入了最新的U-Net和V-Net体系结构来进行数据驱动的医学图像分割。Ambrosini等提出了一种适应性的U-Net架构,用于在X 射线序列中进行导管分割。Vlontzos Mikolajczyk将X线血管造影视频中的导管进行了细分,并具有深层网络,并通过手动阈值创建了真值。Unberath等提出了一个框架,用于从CT扫描中模拟X射线图像,然后使用深层网络检测解剖标志。在多头X线透视图像中使用CNN和多头进行支架分割。最近,有人使用尺度递归网络来检测合成X射线数据中的导管。
尽管基于深度学习的方法可以从输入数据中学习有意义的特征,但是由于缺乏真实的X射线数据以及手动标记真值的缺乏,将深度学习应用于导管分割问题并非易事。在这项工作中,我们建议从原始的真实数据中学习,并对相邻X射线帧之间的时间一致性进行编码。这将帮助网络更多地依赖于时间信息来按X射线序列分割导管。
在这项工作中,我们使用CathBot机器人在介入过程中收集X射线数据序列。CathBot包括一个通用的主从设置和导航框架。
将正常成人主动脉弓的维管软硅胶模型(Elastrat,瑞士日内瓦)置于X射线成像系统下方,以模拟躺在血管造影台上的患者进行血管内手术。该体模连接到脉动泵上,以模拟正常人的血流并优化工具-组织相互作用的真实程度。一位专业的外科医生被要求通过操纵金属丝和导管来插入三个动脉。即,左锁骨下(LSA),左颈总动脉(LCCA)和右颈总动脉(RCCA)。在两种情况下执行插管: 手动和机器人辅助。在每次操作过程中,操作员使用踏板激活荧光检查。
使用图像采集卡(DVI2USB3,Epiphan Video,加拿大渥太华)从血管成像系统获取手术场景的实时视频流-在本研究中,我们已使用荧光镜系统进行介入放射学检查(Innova 4100 IQ GE Healthcare )。视频流是在工作站( Windows 7 ,Intel i7-6700、3.4GHz,16GB RAM)上采集的,并被数字化为图像序列以进行图像处理。
我们的特定分段任务是针对视频的每个X射线帧计算一个将前景(即导管和导丝)与背景分离开的二进制掩码。受到深度神经网络在图像分割中的有效性的启发,我们基于编码器-解码器体系结构建立了分割分支。为了提高网络的实时性能,我们使用步幅较大的大卷积核从输入X射线帧中提取特征。由于卷积运算与X射线图像一样具有少量通道,因此使用大内核不会显着增加计算成本。此外,我们将大步跨与跳过连接结合在一起,如U-Net架构一样,以在解码过程中保持低级特征。
与传统的图像分割问题不同,在导管分割中,前景区域和背景区域之间的不平衡非常明显,因为前景仅占据一小部分像素。为了解决这个问题,我们采用加权版本的像素方向交叉熵损失函数。
提取光流是视频分析的基本任务。解决这个问题的传统方法是主要采用变分方法来解决小位移问题。最近,深度学习已被用于学习光流。在这工作中,我们采用FlowNet 的简单版本,即最先进的基于深度神经网络的架构作为我们的基本网络。为了降低计算复杂度,我们将FlowNet每一层中的卷积内核数减少了一半,因此将整体复杂度降低到四分之一。
在实践中,我们将两个相邻的X射线图像堆叠在一起,并通过深层网络馈送它们以提取流动运动。注意,帧也是分割网络的输入帧。由于计算出的光流与分割输出对应,因此它们的共享特征图信息可以稍后自然组合,以生成的分割图。具体来说,我们的流网络具有6个卷积层序列,可以从连续的视频帧中估计流运动。所有卷积层的步幅均为2。与分割网络相比,流网络更简单参数更少。
与传统的图像分割问题不同,在传统的图像分割问题中,时间信息不可用,在视频分割中,跨帧的时间一致性是成功的关键。我们的观察结果是连续的X射线帧非常相似。在深度特征图中,这种相似性甚至更强,因为它们对这些帧中的高级语义概念进行了编码。我们通过将分割网络的深层特征与流网络的流运动进行弯曲来利用相似性。
直观上,弯曲函数将分割网络的特征图与参考帧相同区域中流网络的输出进行组合,然后在相邻帧中生成该区域的分割。这种变形过程在有效利用流中的时间信息的同时,在同一图像区域上提供了更多样化的信息,例如变形和照明变化。我们还注意到,流网络本身无法生成语义分割,因为它只能通过光流预测位移。因此,我们需要使用弯曲函数将流网络与分割网络结合起来,以生成相邻帧的分割图。(与配准的相似性。不同:光流的两大假设:亮度恒定不变,时间连续或运动是“小运动”)
Tensorflow 20000帧数据集 NVIDIA GTX 2080 GPU 训练两天
我们提出FW-Net,这是一种用于2D X射线荧光透视序列中的导管和导丝分割的端到端实时实时学习框架。我们的FW-Net由三个组成部分组成,可有效地学习时间信息:分割网络,流网络和新颖的流引导变形。我们表明,通过学习时间连续性,即使使用原始的真实数据进行训练,分割结果也可以得到改善。实验结果表明,我们的FW-Net不仅达到了最新的结果,而且还具有实时性能。因此,可以将所提出的方法集成到机器人控制框架中,或者考虑将其部署到各种血管内应用中以产生触觉反馈。
由于我们使用基于视觉的方法仅使用二进制分割蒙版自动生成真值,因此我们的FW-Net目前已通过二进制分割问题进行了测试。将来,我们想探索FW-Net在X射线多类分割问题中的能力。我们可以在其中找到更多类别,例如导管,导丝,血管。这将使FW-Net在临床场景中变得更加有用。这进一步激发了在机器人平台的闭环控制中的应用便于单独操作导管和导线。所提出的方法将与先进的用户协助相融合,以整合血管内器械和血管结构的整个相互作用,以适应性产生触觉反馈。最后,该贡献具有巨大的潜力,可以集成到基于图像的血管内手术技术评估框架中。