全视野数字切片(幻灯片/WSIs)图像的数据高效和弱监督的计算病理学
一.WSIs图像介绍
主要存在的特点:
小结
计算病理学的深度学习方法需要人工标注10亿像素全幻灯片图像(WSIs)或带有幻灯片级标签的大型WSIs数据集,而且通常存在较差的域适应性和可解释性。在这里,我们提出了一种可解释的弱监督深度学习方法,用于数据高效的WSI处理和学习,只需要幻灯片级标签。该方法采用基于注意力的学习方法识别诊断有价值高的子区域,对整个wsi进行准确分支,并在识别出的代表性区域上进行实例级聚类,对特征弓箭进行约束和细化,并在3个数据集的测试中,它可以用于定位的形态学特征,而不需要空间标签,并优于标准的弱监督分支算法,并且具有一定的适用性。
三.WSIs图像现存的任务和挑战
1基于完全监督学习的方法,标注难度大,需要大量的WSIs图像的标签,这是非常复杂且繁琐的一个过程。
2只采样WSI中的一个组织区域子集,在ROI或patch级进行训练,则该模型可能在测试时不能很好地泛化或提供有用的幻灯片级可解释性。
为了实现临床和研究环境中计算病理学的更广泛的适应,不需要人工ROI提取、像素/补丁级标记或采样的方法,这些方法仍然是数据高效、可解释、适应性强的,一般适用于二进制分类和多类分型问题
CLAM主要为了解决以上的问题,在三个独立的分析(肾细胞癌(RCC)和非小细胞肺癌(NSCLC)亚型和淋巴结转移检测)使用公开的数据集以及独立的测试队列,表现出的效果是高效的,可以实现不同任务的高性能,同时系统的减少训练标签的数量。并且经过试验表明经过训练的模型可以直接用于活检WSIs。并有一定的适应性。
CLAM主要是一个计算病理学的框架,可以推广为多类分类的问题上。
主要的作用及原理:将基于注意力的多实例聚合扩展到一般的多类弱监督的wsi分类,而不需要任何像素级注释,roi提取或采样。首先使用具有预测训练参数的cnn编码器,实现降维可以显著提高模型的训练速度。通过使用注意力的学习,CLAM 能够生成可解释性,允许临床医生为每个幻灯片可视化每个组织区域对模型预测相对贡献和重要性。
重点讲述了没有注释的病理切片图像的学习的主要处理过程
1使用基于注意力的池化函数聚合规则
2在训练和推理的过程中,检查WSI组织区域的所有patch并进行排序(这种对注意力分数的解释反映在基于注意力的池化的幻灯片级聚合规则中)
3CLAM旨在解决一般的多类分类问题。一个CLAM模型有N个平行的注意分支,它们一起计算N个唯一的幻灯片级表示
4为了解决现有弱监督学习算法中数据效率低下的方法,利用幻灯片级的真实标签和网络预测的注意力分数来生成高参与patch和弱参与patch的伪标签.
为了模型训练的效率,先是自动分割每个幻灯片的组织区域,并将其分成许多更小的patch(eg:256x256)使用CNN进行特征提取.
总结:这类图像还是适合机器学习的问题,因为图像本身包含足够的诊断措施,如何有效的借鉴自然图像分析的方法,去减少病理图像影像标注的同时保证分析性能。
图一在癌症基因组图谱(TCGA)
在图一中(a)中展示的是组织中分割的图像,从wsi中的组织区域中提取图像patch
(b)中patch被预先训练的cnn编码为描述性特征表示,在训练和推理的过程中,将每个wsi提取的patch作为特征向量传递给CLAM模型。注意力网络给用于patch级信息聚合到幻灯片级表示,用于进行最终的诊断预测。
(c)对于每个,注意力网络对幻灯片中的每个区域进行排名,并根据其对幻灯片级诊断的相对重要性分配注意力评分(左)
在训练过程中,给定真实标签,强参与(红色)和弱参与(蓝色)区域还可以作为代表性样本来监督聚类层,学习不同类别的正负实例之间可分离的丰富的patch级特征空间。
(d)注意力评分可以可视化一个热图,来识别roi和解释用于诊断的重要形态。
+
图二.数据效率和比较分析
a.RCC数据集在×20放大下检测乳头状细胞(PRCC),不染色细胞(CRCC)和透明细胞肾细胞癌(CCRCC)的三类肾细胞癌亚型。
b.对于TCGA和临床蛋白质组学肿瘤分析联盟(CPTAC)NSCLC数据集上肺腺癌(LUAD)和鳞状细胞癌(LUSC)的两类NSCLC亚型,在×20倍放大下
C.在CAMELYON16和CAMELYON17联合用于腋窝淋巴结乳腺癌转移检测的数据集中,该模型在×40倍放大下
我们的方法可以有效地应用于解决传统的阳性-阴性癌症检测二进制分类和各种组织类型的多类癌症分型问题
标记的WSI数据往往很难获得,而且在罕见疾病(例如,CRCC)的背景下收集数千张幻灯片可能是不可行的,因此进训练集数量比例来测试模型的依赖性能,并且验证集不变,使用训练数据的较小采样子集监督CLAM模型时,我们观察到达到令人满意性能所需的幻灯片(AUC>0.9)的数量因分类任务而不同。
推广到独立的测试队列
共收集并扫描了135例肾细胞癌(CRCC,43;CCRCC,46;PRCC,46),131NSCLC(LUAD,63;LUSC,68)和133个淋巴结,于每个任务和训练集的大小,在我们的公共数据集上进行交叉验证期间训练的10个模型直接在完全独立的测试集上进行评估。尽管算法在独立测试集上的性能将不一致,导致在使用不同随机分割训练数据开发的模型之间差异很大。
图三.RCC(a、d、g)、NSCLC(b、e、h)和淋巴结转移(c、f、i)的独立测试队列来评估和分析在公共数据集上训练的CLAM模型的能力,以推广到训练中没有遇到的新数据源。
还建议集成来自多个模型的诊断预测,而不是选择单个模型。
可解释性和全幻灯片的注意力可视化
训练后的弱监督深度学习分类器的人类可读可解释性可以验证模型的预测基础与病理学家使用的众所周知的形态学一致,也可用于分析失败病例。此外,全幻灯片水平的热图可用于人工智能辅助的人在循环中的临床诊断.
细粒度的注意热图可以使用重叠的补丁(例如,95%的重叠)来创建,并平均重叠区域的注意分数.讨论不同程度重叠的热图的视觉质量)。虽然像素水平或从未使用补丁水平注释在训练中明确告知模型每个区域是否是肿瘤组织(如果是,肿瘤的亚型),我们观察到,通过仅使用幻灯片水平标签的弱监督学习,训练CLAM模型通常能够描述肿瘤和正常组织之间的边界.
热图可以增强解释性的手段
图4可解释性和可视化性
适用于智能手机显微镜图像
模型(专门在wsi上训练)直接适应使用智能手机相机(通常称为显微照片)捕获的显微镜图像的能力。专门训练一个基于智能手机显微镜图像的深度学习分类器可能需要费时费力的人工管理大量标记roi的过程,因此一个在wsi上训练的强大模型能够直接适应手机图像(cpi)并提供准确的自动诊断,这对更广泛地采用远程病理学具有巨大的价值,作为我们模型适应性研究的一部分,我们使用消费者级iPhoneX智能手机相机捕获了每个独立测试队列中的幻灯片的4-8个视场(FOV视觉场景),模型共同使用所有FOVroi的补丁来预测幻灯片级标签。从每张幻灯片中选择可变数量的视场,以覆盖与诊断相关的必要组织区域。与wsi测试相比,性能下降。
将经过切除训练的网络适应于活检
在研究中用于培训的公开wsi都是切除的。与切除的组织相比,活检组织的大小通常要小得多。有限的组织含量以及由于挤压伪影造成的细胞扭曲可能会挑战模型的诊断能力。
对于每个WSI,嵌入载玻片中的所有活检标本的组织区域提供给模型作为输入,在WSI水平上进行单一预测评估。在肺活检试验集中,CLAM的平均AUC为0.902±0.016,在肾活检试验集中,平均宏观平均试验AUC为0.951±0.011
因为许多活检切片,特别是在肺活检数据集的情况下,包含低分化的肿瘤,这使得病理学家极其困难或不可能仅根据苏木精和伊红(H&E)染色(没有免疫组化)进行准确诊断。此外,为了评估我们的模型对潜在的全自动计算机辅助诊断的适用性,在活检载玻片上进行测试时,我们没有手动选择包含高肿瘤内容的roi,以避免模型暴露于非肿瘤特征(血管、炎症、坏死区域等)我们也没有执行任何预处理技术,如在我们的测试集上的染色归一化,并在评估期间使用了每张幻玻片的整个组织区域。使用与以前相同的可视化和可解释性技术,我们为每个子类型生成了注意热图。我们继续观察到,训练有素的CLAM模型突出的强关注区域和病理学家注释的肿瘤区域之间的高度相似性,尽管肿瘤通常占据比切除切片更小、更稀疏的组织区域。
论述
总之,我们发现CLAM解决了计算病理学中的几个关键挑战。方法克服了时间昂贵的注释的障碍,同时也更有数据效率;我们表明,它取得了很强的性能,并能够推广到使用合理数量的幻灯片进行训练的独立测试队列、智能手机显微镜和不同的组织内容。
使用CLAM,我们还能够展示高分辨率可解释热图,并且在CLAM中使用基于注意的池为模型提供了选择性地聚合来自多个相关roi的信息以告知幻灯片级诊断的灵活性
局限性:上下文感知特征了解不够
未来改进的方向:低维特征表示的使用使大规模实验成为可能,对不同弱监督学习算法的数据效率进行详细分析,为未来的方法留出了空间,能够灵活地在端到端训练之间取得平衡,寻求最大限度地提高模型的表达性
低维特征表示的使用使大规模实验成为可能,并允许我们使用在各种任务中广泛的10倍交叉验证,对不同弱监督学习算法的数据效率进行详细分析。然而,这为未来的方法留出了空间,能够灵活地在端到端训练之间取得平衡,寻求最大限度地提高模型的表达性
图五 适用于智能手机显微镜图像
图六.活检载玻片的适应性
主要采用的CLAM的方法,带来的效率有助于减少监督薄弱和数据集的数量之间的权衡,CLAM确实能够将患者分为主要的和相对罕见的类别(例如,CCRCC和CRCC),使用CLAM和弱监督训练的模型高度适应于独立数据源、活检玻片、不同扫描硬件和智能手机显微镜图像,而不使用任何形式的领域适应或微调
方法:
CLAM,旨在解决计算病理学中的弱监督分类任务,MIL框架通常将其范围限制在正类和负类的二元分类问题上,是基于如果至少有一个补丁属于正类的假设,然后整个幻灯片应该被归类为正类,而如果所有的补丁都为负类,则一张幻灯片应该被归类为负类。不适合多类分类和没有内在正/负假设的多类分类的二元分类问题。
其中CLAM是建立在MIL框架上的,相比之下,CLAM通常适用于多类分类
实例级聚类的算法
采用的是Smooth SVM loss
所有的模型都被训练epoch50-200
主要的WSI datasets.
独立的BWH淋巴结转移(乳腺癌)WSI数据集。我们的内部乳腺癌淋巴结转移数据集包括来自131例(66张阴性的WSIs66片和67张阳性)。在×40放大倍数下,每张幻灯片提取的平均斑块数为51,426。这些切片于2017年至2019年在BWH期间收集
公共淋巴结WSI数据集。CAMELYON16和CAMELYON17是两个最大的公开的、注释的乳腺癌淋巴结转移检测数据集CAMELYON16包括270张注释的训练幻灯片和另外129张幻灯片,另一方面,CAMELYON17片包括来自荷兰五个不同医疗中心的总共1000张幻灯片。我们只使用了CAMELYON17的训练部分,其中包括100例的500张幻灯片(有相应的幻灯片级诊断)。我们将CAMELYON16和CAMELYON17合并成一个数据集,共收集了499例患者的899张幻灯片(591张阴性,308张阳性)。在×40放大倍数下,每张幻灯片提取的平均斑块数为41,802。
独立的BWHRCCWSI数据集。我们的内部RCC数据集包括133例的135个wsi,其中43张幻灯片为CRCC,46张为CCRCC,46张为PRCC。
公共NSCLCWSI数据集。我们的公共NSCLC数据集由来自TCGA-LUSC和TCGA-LUAD项目下的TCGANSCLC存储库的993个诊断wsi组成
公共RCCWSI数据集。我们的公共RCC数据集包括来自肾发色剂(TCGA-KICH)下的TCGARCC存储库的共884个诊断性WSIs)。
WSI处理
对于每个数字化幻灯片都是从组织区域的自动分割开始,WSI以降采样分辨率读入内存(例如,32×降采样),从RGB转换为HSV颜色空间。
Patching:分割后剪切256x256-使用hdf5分层数据格式存储
特征提取:采用在ImageNet47上预训练的ResNet50模型提取特征-将每个patch转换为1024维的特征向量
可视化和通过注意热图进行迭代模型预测:了解释幻灯片中不同区域的相对重要性到最终幻灯片级预测的模型,我们计算并使用与模型预测类对应的所有补丁的注意力分数。
创建更细粒度的热图,我们使用重叠部分将幻灯片或更小的roi(例如,8000×8000)分成256个×256个patch中,并计算每个补丁的原始注意分数。然后,使用与上面相同的颜色图,将ROI中每个补丁的原始分数转换为RGB颜色。为了确保为重叠产生的补丁计算的标准化注意分数直接可与模型使用的不重叠的补丁相比,我们指的是在计算每个补丁的百分位分数时,未标准化的整个幻灯片的注意分数(没有重叠)。ROI热图覆盖在原始的WSI上,透明度值为0.5,以同时可视化原始的H&E幻灯片中潜在的形态结构。活检和ROI热图的重叠率为95%。为了生成cpi的细粒度热图,我们使用了95%的重叠,并对每个图像的注意力分数进行了归一化。
对于独立测试队列中的每一张幻灯片,我们均匀地随机抽样其2%的组织斑块,并记录它们的聚类概率预测,由每个N个聚类分支以及第一个完全连接层后的512维特征表示。对于分型问题,所有聚类分支预测的正概率小于0.5的补丁(换句话说,每个类的聚类分支都认为它们作为各自类的负证据)被标记为类不可知论者,而其余的补丁被标记为其正概率最高的类。对于腋窝淋巴结的转移检测,使用阳性类别对应的聚类分支将贴片标记为阳性(阳性概率大于或等于0.5)和类别不可知性(阳性概率小于0.5)。使用上面相同的技术来可视化幻灯片级特征空间,我们使用PCA将每个补丁级特征向量简化为二维。