利用来自CNN特征的详细高分辨率空间信息和transformer编码的全局上下文。然后对由Transformers编码的自我关注功能进行上采样,以与从编码路径跳过的不同高分辨率CNN功能相结合,从而实现精确的定位。
图1: 框架概述。(a) 变压器层示意图; (b) 拟议的tranunet的架构。
两个好处:1) 利用解码路径中的中间高分辨率CNN特征图; 2) 发现混合CNN变压器编码器比简单地使用纯transformer作为编码器性能更好。
数据集1:Synapse multi-organ segmentation dataset。
评价指标:报告了8个腹部器官 (主动脉,胆囊,脾脏,左肾,右肾,肝脏,胰腺,脾脏,胃随机分为18个训练病例 (2212个轴向切片) 和12个病例进行验证。
数据集2:Automated cardiac diagnosis challenge
评价指标:每次患者扫描均手动注释左心室 (LV),右心室 (RV) 和心肌 (MYO) 的基本事实。报告了平均DSC,随机分为70个训练案例 (1930个轴向切片),10个案例进行验证,20个案例进行测试。
表1: 突触多器官CT数据集的比较 (平均dice得分 % 和平均hausdorff距离单位mm,以及每个器官的dice得分 %)
图2: TransUNet中跳跃连接数量的消融研究
表2: 消融对输入分辨率影响的研究
序列长度与贴片大小的平方成反比 (例如,贴片大小16对应于196的序列长度,而贴片大小32具有49的较短序列长度)
表3: 对patch大小和序列长度的消融研究。
对于 “基础” 模型,隐藏大小D、层数、MLP大小和头的数量分别被设置为12、768、3072和12,而对于 “大” 模型的那些超参数是24、1024、4096和16。
表4: 模型尺度上的消融研究
图3: 通过可视化对不同方法进行定性比较。从左到右 a) 地面真相,(b) TransUNet,© R50-ViT-CUP,(d) R50AttnUNet,(e) R50-U-Net。我们的方法预测的误报较少,并保留更精细的信息。
表5: DSC中ACDC数据集的比较 (%)。