DSB2017第一名论文理解: 3D Deep Leaky Noisy-or Network(二)

ps:主要是看了之后过几天就是不是特别清晰了,故大概能看懂的感兴趣的地方记录下。

代码论文等基础信息在上一篇。

三.数据和预处理

A.数据

训练本模型用了两个肺扫描数据集:肺结节分析数据集简称LUNA,数据科学碗2017训练集简称DSB。LUNA:这个数据集上有888个病人,1186个标记的肺结节。 DSB:这个数据集上1397个病人作为训练,198个病人作为验证,506个病人作为测试。其中值得我们注意的是DSB只是告诉你这个病人通过这次扫描是否被诊断为患有肺癌。作者人工标记了训练集中的754个结节和验证集中的78个结节(不标记训练时候帮不上忙啊)。

两个数据集存在很大的不同。首先luna16标注了很多直径很小的结节,这些结节一般是无关与癌症。根据医生的经验,直径小于6mm的结节是不危险的。而DSB数据集中有许多非常大的结节(超过40mm)。DSB的平均结节直径在13.68mm,而luna16的平均直径在8.31mm。另外DSB中有很多结节与主支气管相连,这是LUNA16中很少见的。因此如果直接只利用LUNA16作为训练数据,在DSB上的检测效果会不好。大结节的缺失会造成不正确的癌症预测,因为存在大的肺结节是癌症病人的一大特点。为此,作者去掉了LUNA中所有6mm以下的人工标记注释,同时手动标记了在DSB数据集上。

由于作者没有肺结节诊断的专业知识,所以之前结节的选择和手动标注可能会提高相当大的噪声(误差)。所以在模型的下一步(癌症分类诊断)设计用于对错误检测进行稳健,这可以减轻了对高度可靠的结节标签的需求。

B.预处理

所有预处理的步骤过程如图3所示。所有数据先转换成HU值,HU是用来描述放射强度的一个标准定量分数。每个组织都有它特定的HU值范围,如同不同的人种一样。

1) Mask extraction(掩码提取):一张CT图像不仅拥有肺,同时还拥有其他组织。这些组织中有一些是很像结节的球形的组织。为了排除这些干扰项,最方便的方法是提取肺部的掩码同时忽视其它组织在检测阶段。对于每个切片(一个ct中的一张图像),2d图像先用高斯滤波器(标准差为1)滤波,同时把-600作为阈值二值化图像。所有连通区域小于30mm^2的区域以及曲率超过0.99的区域(对应于一些高亮度径向成像噪声?)舍去。这样把所有2d图像遍历操作一遍遍可以计算获得3d二值矩阵,接着仅保留那些整个肺不接触矩阵边角的同时体积在0.68 L 到7.5 L之间的。

完成上面这步之后通常只会留下一个整肺(二值化后一个整肺组织),但有时候还有其它组织剩下来。对比其它组织这个肺部组织一般占据着图像的中心。我们计算在所有切片上该组织距离图像中心的最小距离(MinDist))和它的面积。接着保留组织面积大于6000mm^2的切片,计算这些切片的平均MinDist。如果这个平均MinDist值大于62mm ,则这个组件被移除。剩下的组件合并便组成了肺部掩码。

在一些情况下,肺在顶部切片上连接到外部世界,这使得上述过程不能将肺与外部世界空间分开。 因此,需要首先移除这些切片以使上述处理工作。

2) Convex hull & dilation(凸包&扩张):有些结节会连接到肺的外壁上面,它们没有在上一步得到的掩码包含。为了能让肺部掩码中包含它们,一个方便的方法就是计算之前得到掩码的凸包。然而直接计算面罩的凸包将包括太多不相关的组织(比如心脏和脊柱),所以这个肺的掩码首先分离成两个部分(大致对应于左肺和右肺),接着如下方法计算各自的凸包。

掩模被迭代侵蚀,直到它被分成两个组件(它们的体积相似),从左右两个肺的中心开始。然后将这两个组件扩张回原始尺寸。如图3(d)左右肺分离后画出的掩码图。对于每个掩模,大多数2D切片用其凸包替换以包括上面提到的那些结节如图3(e)。得到的掩码外扩10个像素点。联合两肺掩码便得到了最终的掩码(如图3f)。

当然,一些2D低层切片中的肺呈现新月形状如图4.,它们的凸包包含的不是我们想要的肺部组织。如果凸包后的该组织掩码面积是凸包前的1.5倍及以上的话,仅保留原始掩码如图4e。

3) Intensity normalization(强度归一化):为了把数据送入深度网路,我们图像的HU值转为UNIT8.从原始数据中裁剪出[-1200,600],然后线性转化到[0,255].然后将其乘以上面获得的完整掩模,并且掩模外的所有东西都填充170,这是普通组织的亮度。另外,对于前一次扩张所产生的空间步骤,所有大于210的值也替换为170(第二次扩充了10个像素点)。因为周围区域包含一些骨骼(高亮度组织),它们很容易错误分类为钙化结节(也是高亮度组织)。我们选择用170填充骨骼,使它们看起来像正常组织(图3g)。 在所有3个维度中裁剪图像,使每边的边距为10像素(图3h)。

 

我翻译的速度好慢啊。吐槽下,加油。下面是更加细节的东西。

你可能感兴趣的:(深度学习)