RADIOLOGY:深度学习风险评分与标准钼靶密度评分预测乳腺癌风险的比较

《本文同步发布于“脑之说”微信公众号，欢迎搜索关注~~》

导读:

影像组学的概念最早在2012年由荷兰学者提出，其强调的深层次含义是指高通量地从影像（CT、MRI、PET等）中提取大量影像信息，实现病灶分割、特征提取与模型建立，通过对大量的影像数据信息进行更深层次的挖掘、预测和分析，辅助临床医师做出最准确的诊断。影像组学可直观地理解为将视觉影像信息转化为深层次的特征来进行量化研究。

影像组学作为一种新兴的研究方法，通过从不同模态的影像中提取高通量的影像特征，一定程度上实现了肿瘤异质性的评估和肿瘤的预后评估，早期主要用于评估放疗效果，并逐步在影像领域应用，到目前已经发展成为融合影像、基因、临床等信息的辅助诊断、分析和预测的工具。与活检对比而言，它有明显的优势，不仅可以减少活检带来的痛苦，也在一定程度上提高了工作效率，减轻患者经济上的负担，为将来患者病情复查提供更健康和安全的途径。当然影像组学早已不局限于肿瘤领域，其他疾病也将其应用其中。近年来，影像组学的相关研究呈井喷式发展。

一、研究背景

目前，在大部分发达国家，乳腺癌的筛查仍然是采用一刀切的方法。而对于个体化的肿瘤检测，这并不是最优的方式。以往研究表明，MRI能够提高乳腺癌的早期检出率。然而，MRI的成本非常高，且每发现一个可疑肿瘤病灶，都需要进行一次活检。因此，我们急需一种可靠的乳腺癌风险分层的方法，用以筛选那些真正需要进行MRI或其他筛查方式的患者。以往大多数的乳腺癌风险预测模型都是基于问卷调查和钼靶密度评估。训练深度神经网络，就可以考虑钼靶图像中更深层的信息。

二、目的

该研究旨在开发一个预测未来乳腺癌患病的风险评分的方法，并将其与基于密度的模型进行比较。

三、材料与方法

1．研究对象与图像选择

该研究为一个回顾性研究。所有被试（女性）的年龄均在40-74岁之间。所有被试每隔18-24个月接受一次钼靶检查。每侧乳腺要求进行两次钼靶检查。对于诊断乳腺癌的女性，只有在诊断前完成钼靶检查且间隔超过12个月的情况下，才会被纳入实验。以间隔12个月为标准是为了避免早期肿瘤征象影响预测评分。对于每一个被试，研究人员均选择其在2008~2015年间，可获取的最早的钼靶图像进行分析。

基于处理过的4张乳腺钼靶图像，研究人员对每一张图像分别进行致密区面积（dense area，DA），致密区百分比（percentage density，PD,）以及深度学习（deep learning， DL）风险评分3个特征的计算，然后计算出每个特征的4张图像的均值用于后续分析。

图1

2．深度神经网络

研究人员利用Inception-ResNet-v2 model训练深度神经网络。研究中所用的DL模型为该研究团队在以往研究中以及训练好的模型。训练DL模型的样本和本研究中所涉及的样本完全独立。输入数据包括乳腺钼靶图像、被试的年龄以及以下采集参数：曝光量、管电流、乳腺厚度和压力。输出项则为风险评分。

代码和模型可见https://github.com/irisliuyue/mammoai_risk_prediction.

图2

上图为Inception-ResNet-v2的网络构架。Inception的基本思想：不需要人为决定使用哪个过滤器，或是否需要池化，而是由网络自行确定这些参数，你可以给网络添加这些参数的所有可能值，然后把这些输出连接起来，让网络自己学习它需要什么样的参数，采用哪些过滤器组合。Inception网络中存在softmax分支，其原因为即便是隐藏单元和中间层也参与了特征计算，它们也能预测图片的分类，它在Inception网络中起到一种调整的效果，防止过拟合。Resnet即残差网络，残差网络就是残差块的堆叠，这样可以把网络设计的很深；残差网络和普通网络的差异是，al+2在进行非线性变化前，把al的数据拷贝了一份与zl+2累加后进行了非线性变换；对于普通的卷积网络，用梯度下降等常用的优化算法，随着网络深度的增加，训练误差会呈现出先降低后增加的趋势，而我们期望的理想结果是随着网络深度的增加训练误差逐渐减小，而Resnet随着网络深度的增加训练误差会一直减小。

3.研究方法

本研究使用Spearman相关分析对DL风险评分与DA及PD进行比较分析。研究人员将DA，PD以及DL风险评分作为特征，训练逻辑回归模型，预测未来发生乳腺癌的概率。除此之外，研究人员还对每一个特征（DA，PD以及DL风险评分）的独立模型分别进行了评估。最后，研究人员还计算了基于密度的方法或深度学习风险评分方法的假阴性率并进行分析。

四、研究结果

该实验共纳入了2283名被试，其中278人确诊乳腺癌，2005人未患乳腺癌。

图3

Spearman相关分析结果显示DL风险评分方法与两种基于密度的方法之间的相关性较低（0.25~0.42）。

图4

a，b所示病例DL风险评分预测未来患乳腺癌的可能性低，患者后期未确诊乳腺癌，即真阴性病例。c，d所示病例DL风险评分预测未来患乳腺癌的可能性高，而患者后期确诊乳腺癌，即真阳性病例。

图5

a，b所示病例DL风险评分预测未来患乳腺癌的可能性低，后期患者确诊乳腺癌，即假阴性病例。c，d所示病例DL风险评分预测未来患乳腺癌的可能性高，而患者未发生乳腺癌，即假阳性病例。

结果显示3个特征的OR值：DL风险评分(1.55, 95% CI: 1.48, 1.63)＞DA(1.27, 95% CI: 1.20, 1.33)＞PD(1.13, 95%CI: 1.06, 1.19)，AUC值：DL风险评分(0.65, 95% CI: 0.63, 0.66)＞DA(0.60, 95% CI:0.58, 0.6)＞PD(0.66, 95% CI: 0.64, 0.67)。具体结果如下。

图6

图7

此外，结果显示DL风险评分组的假阴性率(31%;95% CI:29%, 34%)低于校正年龄后的DA组(36%; 95% CI: 33%, 39%; P= .006)以及校正年龄后的PD组(39%; 95%CI: 37%,42%; P＜.001)。当肿瘤特征更具侵袭性时，这种差异更为显著。例如，对于发生淋巴结转移的乳腺癌，DL风险评分以及校准过年龄后的DA的假阴性率分别为31％（95％CI：26％，37％）和42％（95％CI：36％，47％）（P = 0.002）。而无淋巴结转移的乳腺癌的假阴性率分别为31％（95％CI：28％，34％）和35％（95％CI：32％，38％）（P = 0.01）。

图8

五、讨论

现在，临床对于基于乳腺癌风险的筛查策略的需求日益急迫。钼靶密度的加入改善了传统的乳腺癌风险评估模型。本研究旨在于探索DL的方法是否能够从钼靶图像中获取更多关于乳腺癌患病风险的信息。研究结果表明，DL风险评分与乳腺癌的相关性最强，相对于密度相关变量是独立的预测变量。相比于基于密度的模型，深度神经网络可以更准确的预测未来乳腺癌发生的风险，并且肿瘤侵袭性越强，假阴性率越低。研究发现，当肿瘤的侵袭性增高时，基于密度的预测模型性能降低，而DL风险评分模型性能未降低。实验结果显示，相对于PD，DA能更准确的预测未来乳腺癌患病风险，支持用DA代替PD作为预测因子来预测乳腺癌的患病风险，此观点与以往的研究一致。最后实验人员强调，该模型在作为乳腺癌筛查工具应用于临床之前，还应加入多中心的数据进行训练，而且还需与预测致密性乳腺患病风险的模型相结合。

RADIOLOGY:深度学习风险评分与标准钼靶密度评分预测乳腺癌风险的比较

你可能感兴趣的:(RADIOLOGY:深度学习风险评分与标准钼靶密度评分预测乳腺癌风险的比较)