Grand Challenge on Breast Cancer Histology Images

目前该挑战最好的成绩是87%的精度,都使用了卷积神经网络

1.介绍

通常在检测出异常的时候需要进行乳房组织活性检测,采集的组织样本用苏木精和伊红染色(H&E),以便区分细胞核和实质,并通过光学显微镜观察。这些样本也可以在千兆分辨率下扫描,称为整体幻灯片图像(WSI),用于后向数字处理。病理学家通过分析乳腺组织的组织学特性,在组织的微观部分寻找癌症的迹象。由于乳腺样本正常、良性和恶性(原位或侵入性)的判断会导致患者治疗的相关变化,这使得准确诊断变得至关重要。例如,良性病变通常可以在临床上无需手术,但恶性肿瘤几乎总是需要手术加或不加化疗。

乳腺癌WSIS的分析是非常重要的,因为要可视化的数据量很大,任务也很复杂[4]。在这种情况下,计算机辅助诊断(CAD)系统可以通过向病理学家提供补充和客观的评估来减轻手术过程。尽管这些系统在显微镜(5、6、7、8)和全玻片图像(9)的二元分类(健康与恶性)方面具有很高的性能,但以前提到的标准临床分类程序现在才刚刚开始探索。

为了进一步促进和补充乳腺癌影像分析领域的研究,作为ICIAR 2018年会议(第15届图像分析和识别国际会议)的一部分,组织了乳腺癌组织学图像挑战赛(Bach)。Bach是一个生物医学图像挑战,建立在BioImaging2015挑战之上,旨在对H&E染色显微镜和WSI乳腺癌组织图像进行分类。具体来说,Bach的参与者被要求预测这些组织样本的类型:1)正常,2)良性,3)原位癌和4)浸润癌,目的是为病理学家提供一个工具,以减少诊断工作量。

2.Challenge description

A 部分:对H&E染色乳腺组织学显微镜图像进行自动分类,分为四类:1)正常,2)良性,3)原位癌和4)浸润癌。

B部分包括对同四个级别的整个玻片乳腺组织学图像进行像素级标记

提供了两个贴有标签的训练数据集。第一个数据集由来自波尔图大学分子病理学和免疫学研究所(iPatimup)和健康研究与创新研究所(I3s)的两位专家病理学家对显微镜图像进行注释。第二个数据集包含像素级的带批注和无批注的WSI图像。对于WSI,注释由病理学家执行,并由第二位专家修改。

3.挑战

Grand Challenge on Breast Cancer Histology Images_第1张图片

Chennametty等人使用一组ImageNet预先培训的CNN对来自A部分的图像进行分类。具体来说,该算法由一个Resnet-101和两个Densenet-161网络组成,这些网络与来自不同数据规范化方案的图像进行了匹配。使用预先训练的权重初始化模型,可以减少使用有限数量的高质量标记数据训练网络的问题。首先,通过双线性插值将图像尺寸调整为224×224像素,并根据从ImageNet或A部分数据集获得的统计数据,将其归一化为零平均值和单位标准偏差,详情如下。在训练期间,用乳腺组织学数据标准化的图像对resnet-101和densenet-161进行了调整,而其他densenet-161则用Imagenet标准化的图像进行了调整。然后,为了进行推理,集成中的每个模型预测输入图像中的癌症等级,并在后面使用多数投票方案来分配与输入相关的类。

 

Brancati等人提出了一种基于微调策略的深度学习方法,利用Resnet模型集合上的转移学习。Resnet比其他深层网络体系结构更受欢迎,因为它的参数数量较少,并且与其他的牙模型相比,它的复杂性相对较低。作者选择进一步降低问题的复杂度,通过按因子k对图像进行向下采样,并仅使用大小为m×m的中央补丁作为网络的输入。特别是,K被固定为原始图像大小的80%,M被设置为大小调整后图像的宽度和高度之间的最小大小。建议的合奏由3个Resnet配置组成:34、50和101。每个配置都是在A部分的图像上进行训练的,通过计算三个配置提供的最高类概率来获得测试图像的分类。

 

王等提出了直接应用VGG16解决A部分问题,在对模型进行最终调整之前,A部分的所有图像都被调整为256×256,并归一化为零平均值和单位标准偏差。考虑到模型输入的大小,训练是通过在输入图像的随机位置上裁剪224×224像素的补丁来完成的。首先,使用样本配对数据增强方案对模型进行训练。具体地说,一对随机的不同标签图像被适当地增强(翻译、旋转等),然后相互叠加。产生的混合补丁接收一个初始图像的层,然后用于训练分类。然后将学习的权重用作使用初始(即非混合)数据集训练网络的起点。

 

Kone等人提出了一个二元树型结构(一个父节点和两个子节点)中的3个resnext50模型的层次结构,用于A部分的4级分类。CNN顶级分类将图像分为两个高级别组:1.癌,包括原位癌和侵袭性癌;2.非癌,包括正常和良性癌。然后,每个儿童CNN子类在各自的两个类中定义图像。训练分两步进行。首先,在ImageNet上预先训练的父级resnext50与A部分中的图像一起进行配置。然后将学习的过滤器用作子网络的起点。作者还将resnext50层分为三组,并根据训练期间发现的最佳学习率分配不同的学习率。

你可能感兴趣的:(深度学习)