Detecting Cancer Metastases on Gigapixel Pathology Images

Yun Liu1?, Krishna Gadepalli1, Mohammad Norouzi1, George E. Dahl1, Timo Kohlberger1, Aleksey Boyko1, Subhashini Venugopalan2??, Aleksei Timofeev2, Philip Q. Nelson2, Greg S. Corrado1, Jason D. Hipp3, Lily Peng1, and Martin C. Stumpe1


摘要。每年,美国超过23万名乳腺癌患者的治疗决定取决于癌症是否转移到了乳腺以外。转移检测目前是由病理学家进行的,他们审查了大量的生物组织。这个过程是劳动密集型的,容易出错。我们提出了一个框架来自动检测和定位肿瘤小到100×100像素的千兆像素显微镜图像大小100000×100000像素。我们的方法利用了卷积神经网络(CNN)结构,并在具有挑战性的病变水平肿瘤检测任务中获得了camelyon16数据集的最新结果。在每幅图像中有8个假阳性,我们检测到92.4%的肿瘤,而以前最好的自动化方法检测到的是82.7%。相比之下,人类病理学家试图进行详尽的研究,获得了73.2%的敏感性。我们在camelyon16测试集和110张幻灯片的独立集上获得了高于97%的图像级AUC分数。此外,我们发现在Camelyon16训练集中的两张幻灯片被错误地标记为“正常”。我们的方法可以大大降低转移检测的假阴性率。

1 Introduction

乳腺癌的治疗和管理取决于疾病的阶段。乳腺癌分期的一个重要组成部分是对邻近乳腺的淋巴结进行显微镜检查,以寻找癌已经扩散或转移的证据[3]。这一过程需要高度熟练的病理学家,而且相当耗时且容易出错,特别是对于没有或小肿瘤的淋巴结。计算机辅助检测淋巴结转移可提高转移检测的灵敏度、速度和一致性[16]。

近年来,深度CNN在图像识别[14,11,19]、目标检测[8]和语义分割[17]等广泛的计算机视觉任务上显著提高了精度。同样,深度CNN也被有效地应用于改善医疗保健(如[9])。本文提出了一个CNN框架来帮助检测乳腺癌淋巴结转移。我们在[23]的基础上,利用了一个更新的初始体系结构[20],仔细的图像补丁采样和数据扩充。尽管使用步幅128(而不是4)进行推理,我们还是将错误率减半,每张幻灯片有8个误报(fps),设置了一个新的最新状态。我们还发现,有几种方法没有产生任何好处:(1)多尺度方法模拟病理学家对生物组织的检查的人类认知,(2)在ImageNet图像识别上对模型进行预训练,以及(3)颜色归一化。最后,我们省去了[23]中使用的随机森林分类器和特征工程,发现最大函数是一个有效的整体滑动分类过程。

相关工作:几项有希望的研究将深度学习应用于组织病理学。camelyon16挑战获得者[1]在每张幻灯片8fp时的敏感度为75%,幻灯片级别分类AUC为92.5%[23]。作者在一组预先取样的图像补丁上训练了一个初始(v1,googlenet)[20]模型,并在28个手工设计的特征上训练了一个随机森林分类器来预测幻灯片标签。第二个初始模型是在较难的例子上训练的,并且预测点是使用两个模型预测的平均值生成的。随后,该团队使用颜色标准化[4]、额外的数据扩充和将推断步幅从64降低到4,分别将这些指标提高到82.7%和99.4%。Camelyon的组织者也在更小的数据集上培训CNN,以检测淋巴结和前列腺癌活检中的乳腺癌[16]。[12]应用CNN对细胞核、上皮、小管、淋巴细胞、有丝分裂、浸润性导管癌和淋巴瘤进行分割或检测。[7]证实CNNS在检测浸润性导管癌中具有较高的F1评分和平衡的准确性。CNN还用于检测有丝分裂,赢得了ICPR12[6]和AMIDA13[22]有丝分裂检测竞赛。利用机器学习预测癌症病理学的其他努力包括预测非小细胞肺癌的预后[25]。

2 Methods

给定一个千兆像素的病理图像(幻灯片1),目标是对图像中是否含有肿瘤进行分类,并对肿瘤进行定位,以供病理学家审查。这个用例和像素精确注释的困难(图2)使得检测和定位比像素级分割更重要。由于幻灯片的大小和幻灯片的数量有限(270),我们使用从幻灯片中提取的较小图像补丁(图1)。类似地,我们在滑动窗口中对玻片进行推理,生成肿瘤概率热图。对于每一张载玻片,我们报告热图中的最大值作为载玻片水平的肿瘤预测。

我们利用Inception(v3)体系结构[20],输入大小为299×299(默认值),评估从另一个领域预先培训的现有模型初始化的价值。对于每个输入补丁,我们预测中心128×128区域的标签。一个128像素的区域可以跨越几个肿瘤细胞,也被用于[16]。如果中心区域中的至少一个像素标注为肿瘤,我们将一个补丁标记为肿瘤。我们通过减少每层过滤器的数量,同时保持层的数量不变(例如,在TensorFlow中,深度乘数=0.1),探讨了参数数量的影响。我们表示这些模型“小”。我们还尝试了多尺度的方法,即利用位于同一区域的多个放大倍数的斑块(图3)。因为初步实验没有显示出使用最多四个放大镜的好处,所以我们只给出了最多两个放大镜的结果。

由于大量的补片和肿瘤分级失衡,对我们的模型进行培训和评估具有挑战性。每张幻灯片包含10000到400000个补丁(中位数90000)。然而,每个肿瘤载玻片包含20到15万个肿瘤斑块(中位数2000),相当于肿瘤斑块百分比从0.01%到70%(中位数2%)。为了避免对含有更多斑块(正常斑块和肿瘤斑块)的载玻片产生偏见,需要仔细取样。首先,我们选择概率相等的“正常”或“肿瘤”。接下来,我们选择一张随机均匀包含该类补丁的幻灯片,并从该幻灯片中对补丁进行采样。相比之下,一些现有的方法对每张幻灯片中的一组补丁进行预采样[23],这限制了培训期间看到的补丁的宽度。

为了克服肿瘤补片的罕见性,我们应用了一些数据增强。首先,我们将输入补丁旋转4倍于90◦,应用左右翻转并重复旋转。所有8个方向都有效,因为病理切片没有标准方向。接下来,我们使用TensorFlow的图像库(TensorFlow.Image.Randomb X)来干扰颜色:亮度最大增量为64/255,饱和度最大增量为0.25,色调最大增量为0.04,对比度最大增量为0.75。最后,我们将抖动添加到面片提取过程中,这样每个面片的X、Y偏移量就可以达到8个像素。使用我们的验证集对颜色扰动和抖动的大小进行微调。像素值被剪裁为[0,1]并缩放为[-1,1]。我们在一个滑动窗口中对幻灯片进行推理,步幅为128,以匹配中心区域的大小。对于每个补丁,我们应用旋转和左右翻转来获得8个方向的预测,并平均8个预测。

实现细节我们在TensorFlow[2]中训练了随机梯度下降的网络,每个网络有8个副本运行在Nvidia Pascal GPU上,异步梯度更新,每个副本的批量大小为32。我们使用了动量为0.9,衰减为0.9的rmsprop[21]和?=1.0。初始学习率为0.05,每200万例衰减0.5。为了改进在ImageNet上预训练的模型,我们使用了0.002的初始学习率。

3 Evaluation and Datasets

我们使用两个camelyon16评估指标[1]。第一个指标,接收器工作特性下的面积(ROC下的面积,AUC)[10]评估滑动等级分类。该指标具有挑战性,因为当每张幻灯片获得105个补丁级别预测时,FPS的潜力很大。我们使用引导方法获得了95%的置信区间2。第二个指标,froc[5],评估肿瘤的检测和定位。我们首先从每个热图生成一个坐标列表和相应的预测。在所有位于每个有注释的肿瘤区域内的坐标中,保留了最高的预测。位于肿瘤区域外的坐标是fps。我们使用这些值来计算ROC。froc被定义为每个肿瘤阴性玻片0.25,0.5,1,2,4,8平均fps的敏感性[16]。

这5个指标具有挑战性,因为每个FP区域报告多个分数可能会很快降低分数。我们将重点放在FROC而不是AUC上,因为肿瘤的数量大约是载玻片的两倍,这提高了评估指标的可靠性。与AUC类似,我们通过计算2000多个预测点的自举样本的froc来报告95%的置信区间。此外,我们报告每张幻灯片8 fp(“@8fp”)的敏感性,以评估假阴性率。

为了生成用于froc计算的点,camelyon winners[23,1]对heatmap进行了阈值处理,生成了一个位掩码,并报告了位掩码中每个连接组件的单个预测。相比之下,我们使用类似于[6]的非最大值抑制方法,重复两个步骤,直到热图中的值没有保持在阈值t以上:(1)报告最大值和对应坐标,以及(2)将半径r内的所有值设置为最大值0。因为我们将此过程应用于heatmap,r的单位是128像素。t控制报告的点数,除非曲线在8 fp之前达到平稳,否则对froc没有影响。为了避免错误地降低肿瘤预测,我们使用保守阈值t=0.5。

数据集我们的工作使用了camelyon16数据集[1],其中包含400张幻灯片:270张带有像素级注释的幻灯片,以及130张未标记的幻灯片作为测试集。3我们将270张幻灯片拆分为训练集和验证集(附录),用于超参数调整。通常只有一小部分载玻片包含感兴趣的生物组织,背景和脂肪包含剩余部分(例如,图2)。为了减少计算量,我们移除了背景斑块(灰度值>0.8[12]),并目视验证了淋巴结组织没有被丢弃。附加评价:我们将从20名患者(86个生物组织阻滞4)中提取的H&E染色淋巴结的110张载玻片(含肿瘤57张)作为附加评价集进行数字化。这些幻灯片带有患者或块级标签。为了确定幻灯片标签,一位获得认证的病理学家对预测视而不见,对任何差异作出裁决,并简要回顾了所有110张幻灯片。

4 Experiments & Results

要执行幻灯片级别分类,当前最先进的方法将随机森林应用于从热图预测中提取的特征[1]。不幸的是,由于100%验证集AUC(表1)导致无法对改进进行内部评估,因此我们无法培训幻灯片级别分类器。尽管如此,使用每张幻灯片的最大热图值获得的AUC大于97%,与当前的最佳结果在统计上是不可区分的。

对于肿瘤级别的分类,我们发现,当froc适度(<80%)时,通过屏蔽fp区域,连接成分法[23]在froc中提供1-5%的增益。但是,这种方法对阈值(很敏感到10-20%的方差),并且可以通过将多个邻近肿瘤分组为一个来混淆模型改进的评估。相比之下,我们的非极大值抑制方法对4到6之间的r相对不敏感,尽管较不精确的模型受益于使用验证集(如8)调整r。最后,我们在大肿瘤(大转移)上获得100%的FROC,表明大多数假阴性由小肿瘤组成。

以前的工作(如[24,9])表明,在不同领域进行预培训可以提高绩效。然而,我们发现,尽管预训练显著提高了收敛速度,但并没有改善FROC(见表1:40x与40x预训练)。这可能是由于病理图像和ImageNet中的自然场景之间存在很大的领域差异,导致传输能力有限。此外,我们的大数据集大小(107个补丁)和数据扩充可能使得无需预先培训就可以对精确模型进行培训。

接下来,我们研究了模型大小的影响。虽然我们最初是受改进的实验周转时间的激励,但我们意外地发现,只有3%参数的精简初始架构实现了与完整版本相似的性能(表1:40x与40x小)。因此,我们使用这个较小的模型执行了剩余的实验。我们还尝试了一种多尺度的方法,这种方法的灵感来自病理学家的工作流程,即在多个放大倍数下检查一张幻灯片,以获取上下文。然而,我们发现在低放大率下,将40x与附加输入结合起来没有性能上的好处(图3)。然而,这些组合输出更平滑的热图(图4),可能是由于CNN的平移不变性和相邻斑块的重叠。这些视觉上的改善是有欺骗性的:40X模型中的一些斑点显示了被肿瘤包围的小的非肿瘤区域。

图1和图3突出显示了图像的可变性。虽然目前的主要方法报告了颜色标准化的改进,但我们的实验没有发现任何好处(附录)。这可以通过我们的大量数据扩充来解释,这些扩充使我们的模型学习颜色不变的特性。

最后,我们用两种方法对集成模型进行了实验。首先,对8次旋转/翻转的平均预测在指标上提高了百分之几。第二,跨独立训练模型的集成产生了额外但较小的改进,并且在3个模型之后产生了递减的回报。

另外,我们还在另外110张幻灯片上测试了我们的模型,这些幻灯片在不同的扫描仪上数字化,来自不同的患者,并用不同的组织准备方案进行治疗。令人鼓舞的是,我们获得了97.6(93.6,100)的AUC,与我们的camelyon16测试集性能相当。

定性评估 我们在两张“正常”幻灯片中发现肿瘤:086和144。幸运的是,挑战组织者证实这两个都是数据处理错误,患者没有受到影响。值得注意的是,这两张幻灯片都在我们的培训集中,这表明我们的模型对标签噪音有相对的弹性。此外,我们还发现了另外7张肿瘤切片,注释不完整:5张在序列中,2张在验证中(附录)。我们的预测样本和相应的补丁见附录。

局限性:我们的错误与病灶外组织(巨噬细胞、生发中心、基质)和组织准备伪影有关。这些错误可以通过更好的扫描质量、组织准备和针对不同组织类型的更全面的标签来减少。此外,由于验证集上的FROC和AUC近乎完美,我们无法彻底调整超参数。我们计划在更大的数据集上进一步发展我们的工作。

5 Conclusion

我们的方法对在千兆像素病理切片中检测小肿瘤的挑战性任务具有最先进的敏感性,将假阴性率降低到病理学家的四分之一,并且不到之前最佳结果的一半。我们进一步在两个独立的测试集中实现病理学家级别的幻灯片级别的AUC。我们的方法可以提高乳腺癌病例评估的准确性和一致性,并有可能改善患者的预后。未来的工作将集中在利用更大数据集的改进上。

A Appendix

A.1  Dataset Details


A.2 Soft Labels

我们的实验使用了二进制标签:如果中心128 x128区域中的至少一个像素被注释为肿瘤,那么补丁就是阳性的。在初步实验中,我们还探索了一种替代的“软标签”方法,将中心区域的肿瘤像素部分指定为标签。然而,我们发现阈值标签产生了实质上更好的性能。因为froc同样奖励检测所有大小的肿瘤,这可能反映了被训练为将较低值分配给较小肿瘤的模型(平均而言,每个补丁的较小部分包含肿瘤细胞)。

A.3 Image Color Normalization

如图1和图3所示,(H&E)染色组织的颜色差异很大。这些变化源于潜在生物组织、载玻片的物理和化学制备以及扫描仪调整的差异。由于减少这些变化改善了其他自动检测系统的性能[4,13],我们尝试了类似的颜色规范化方法。但是,我们没有发现这种规范化可以提高性能,因此我们详细介绍了我们的方法,仅供参考。这种改进的缺乏可能源于我们广泛的颜色扰动,鼓励我们的模型学习颜色不敏感的特性,因此颜色规范化是不必要的。

首先,我们通过将原始RGB值映射到色调饱和密度(hsd)空间[15]来分离颜色和强度信息,然后分别对每个组件进行规格化。这将每个颜色通道(i r,i g,i b)∈[0255]3映射到相应的光密度值:dν=−ln((iν+1)/257),ν∈r,g,b},然后应用一个公共色调饱和强度颜色空间转换,其中d=dr+db+dg)/3是强度值,cx=drd−1和cy=(dg−db)/(√3·d)表示笛卡尔坐标它跨越了二维色调饱和平面。我们选择hsd映射而不是rgb值的直接hsi映射[15],因为它与图像采集物理更兼容,并且通常产生更紧凑的分布。接下来,我们将一个高斯拟合到所有含有斑块的组织中的像素的颜色坐标(cx,cy),即计算它们的经验平均值μ=(μx,μy)t和协方差∑r2×2,然后确定协方差∑到参考协方差矩阵∑的变换t∈r2×2,使用中提出的Mongekantovitch方法。【18】:t=是∑−1/2?∑1/2∑R∑1/2?∑1/2。随后,我们通过应用映射规范化颜色值:

强度值di以同样的方式进行归一化,即通过应用方程式1的一维版本,将所有斑块强度的经验平均值和方差转换为参考强度平均值和方差。作为颜色和强度分量的参考平均值和方差,分别是(即,μr

v,∑r for color),我们在所有训练幻灯片的相应统计时刻上选择了分量方向的中间值。最后,我们将归一化的(c0 x,c0 y,d0)值映射回r g

b空间,首先应用逆HSI变换[15],然后反转非线性映射,即,将iν=exp(−dν)·257−1应用到每个分量ν{r,g,b}。我们以两种方式应用了这种规范化。首先,我们只在推理中应用这个方法,在颜色标准化的幻灯片上测试一个模型(表1中的“40x小”)。不幸的是,这导致了FROC下降了百分之几。接下来,我们在彩色标准化幻灯片上训练了两个模型,不管是否有彩色干扰。然后我们在彩色标准化幻灯片上测试了这些模型。两种方法都不能提高性能。

A.4 Sample Results

肿瘤载玻片一开始有不完整的注释,11张肿瘤载玻片已知具有非详尽的像素级注释:015、018、020、029、033、044、046、051、054、055、079、092和095。因此,我们没有使用这些幻灯片中的非肿瘤补丁作为正常补丁的训练示例。在我们的实验过程中,我们发现了更多这样的病例,我们与病理学家进行了验证:010、025、034、056、067、085、110。

左:一张H&E染色的幻灯片上的补丁。较暗的区域是肿瘤,而不是较浅的粉红色区域。右图:对应的预测热图,精确识别肿瘤细胞,同时对非肿瘤区域分配较低的概率。
左:一张H&E染色的幻灯片的补丁,“正常”086。顶部附近较大的粉红色细胞是肿瘤,而底部较小的粉红色细胞是巨噬细胞,一种正常细胞。对:对应的预测热图,能准确识别肿瘤细胞而忽略巨噬细胞。
一张H&E染色幻灯片的补丁,“正常”144。右下象限中较大的暗紫色细胞团是肿瘤,而较小的暗紫色细胞是淋巴细胞。粉红色区域是结缔组织,有散布的肿瘤细胞。对:对应的预测热图,能准确识别肿瘤细胞,而忽略结缔组织和淋巴细胞。


References

1. Camelyon 2016. https://camelyon16.grand-challenge.org/, accessed: 2017-01-17

2. Abadi, M., et al.: TensorFlow (2015)

3. Apple, S.K.: Sentinel lymph node in breast cancer: Review article from a patholo-

gists point of view. J. of Pathol. and Transl. Medicine 50(2), 83 (2016)

4. Bejnordi, B.E., et al.: Stain specific standardization of whole-slide histopathological

images. IEEE Trans. on Medical Imaging 35(2), 404–415 (2016)

5. Bunch, P.C., et al.: A free response approach to the measurement and character-

ization of radiographic observer performance. Appl. of Opt. Instrum. in Medicine

VI pp. 124–135 (1977)

6. Cire¸ san, D.C., et al.: Mitosis detection in breast cancer histology images with deep

neural networks. Int. Conf. on Medical Image Comput. and Comput. Interv. (2013)

7. Cruz-Roa, A., et al.: Automatic detection of invasive ductal carcinoma in whole

slide images with convolutional neural networks. SPIE medical imaging (2014)

8. Girshick, R., et al.: Rich feature hierarchies for accurate object detection and se-

mantic segmentation. In: Comput. Vis. and Pattern Recognit. (2014)

9. Gulshan, V., et al.: Development and validation of a deep learning algorithm for

detection of diabetic retinopathy in retinal fundus photographs. J. of the Am.

Medical Soc. 316(22), 2402–2410 (2016)

10. Hanley, J.A., McNeil, B.J.: The meaning and use of the area under a receiver

operating characteristic (roc) curve. Radiology 143(1), 29–36 (1982)

11. Ioffe, S., Szegedy, C.: Batch normalization: Accelerating deep network training by

reducing internal covariate shift. Int. Conf. on Machine Learning (2015)

12. Janowczyk, A., Madabhushi, A.: Deep learning for digital pathology image analysis:

A comprehensive tutorial with selected use cases. J. of Pathol. Informatics 7 (2016)

13. Kothari, S., et al.: Pathology imaging informatics for quantitative analysis of whole-

slide images. J. of the Am. Medical Informatics Assoc. 20(6), 1099–1108 (2013)

14. Krizhevsky, A., et al.: Imagenet classification with deep convolutional neural net-

works. Adv. in Neural Inf. Process. Syst. pp. 1097–1105 (2012)

15. van der Laak, J.A., et al.: Hue-saturation-density model for stain recognition in

digital images from transmitted light microscopy. Cytometry 39(4), 275–284 (2000)

16. Litjens, G., et al.: Deep learning as a tool for increased accuracy and efficiency of

histopathological diagnosis. Sci. Reports 6 (2016)

17. Long, J., et al.: Fully convolutional networks for semantic segmentation (2015)

18. Piti´ e, F., Kokaram, A.: The linear monge-kantorovitch linear colour mapping for

example-based colour transfer (2007)

19. Russakovsky, O., et al.: Imagenet large scale visual recognition challenge. Int. J.

of Comput. Vis. 115(3), 211–252 (2015)

20. Szegedy, C., et al.: Going deeper with convolutions. Comput. Vis. and Pattern

Recognit. (2015)

21. Tieleman, T., Hinton, G.: Lecture 6.5-rmsprop: Divide the gradient by a running

average of its recent magnitude (2012)

22. Veta, M., et al.: Assessment of algorithms for mitosis detection in breast cancer

histopathology images. Medical image analysis 20(1), 237–248 (2015)

23. Wang, D., et al.: Deep learning for identifying metastatic breast cancer. arXiv

preprint arXiv:1606.05718 (2016)

24. Yosinski, J., et al.: How transferable are features in deep neural networks? Adv. in

Neural Inf. Process. Syst. (2014)

25. Yu, K.H., et al.: Predicting non-small cell lung cancer prognosis by fully automated

microscopic pathology image features. Nat. Commun. 7 (2016)

你可能感兴趣的:(Detecting Cancer Metastases on Gigapixel Pathology Images)