·目录
摘要
1.引言
2.相关工作
3.提出BIRA-NET分级方法
3.1常规ResNet
3.2提出注意力机制
3.3.所提出的双线性模型
3.4 分级损失
4.实验结果
4.1数据集及实现:
4.2 性能标准
4.3 Baseline方法
4.4结果
5.结论
目录
糖尿病性视网膜病变(DR)是一种常见的导致失明的视网膜疾病。为了诊断的目的,DR图像分级旨在提供自动的DR分级分类,这在传统的二元DR图像分类研究方法中是没有解决的。
眼睛图像中的小物体,如病变和微动脉瘤,对医学成像中的糖尿病分级至关重要,但它们很容易受到其他物体的影响。为了解决这些挑战,我们提出了一种新的深度学习架构,称为BiRA-Net,它结合了特征提取的注意力模型和细粒度分类的双线性模型。
此外,在考虑不同DR类别的不同等级之间的距离时,我们提出了一种新的损失函数,称为分级损失,从而提高了该方法的训练收敛性。实验结果表明,该方法具有优越的性能。
作者想解决的问题:解决DR分级中病变和微血管瘤这种极易受到其他物体影响的小物体的分类。
作者解决问题的理论/模型:①提出了一种新型的深度学习架构,称为BiRA-Net ②提出了一种新的损失函数-分级损失
这个方法的优越性在哪?:①BiRA-Net 结合了特征提取的Attention模型和细粒度分类的双线性模型 ②考虑不同DR类别的不同等级之间的距离,该损失函数提高了方法的训练收敛性
DR诊断的主要挑战是,DR是一种没有早期预警信号的无声疾病,这使得及时的诊断是无效的。传统的解决方案是低效的,其中,训练有素的临床医生可以手动检查和评估来自数字Fondus摄影的诊断图像。
这种手段的检测方式根据可见到的医生和病人的人数,需要几天时间。除此之外,这种诊断的结果因医生而异,其准确性在很大程度上依赖于从业者的专业知识。此外,在许多博士领域可能缺乏所需的专业知识和设备。
上述挑战提出了开发自动DR检测系统的必要性。近年来,进行了许多自动检测,重点是特征提取和两类预测。这些作品在某种程度上是有效的,但也有几个缺点。首先,从照片中提取的特征是手工制作的特征,它们对许多条件都很敏感,如噪声、暴露性和伪影。其次,特征定位和分割不能很好地嵌入到整个DR检测框架中。此外,只有通过诊断来确定DR是否存在,而不是诊断其严重程度,并不能很好地解决实际问题,也不能为医生提供有用的信息。
最近,卷积神经网络(CNN)在各种计算机视觉任务中表现出了有吸引力的性能。在本文中,我们采用基于CNN的架构开发了一种五级DR图像分级方法。在所提出的架构中,我们设计了一种更好的特征提取和损失函数,称为分级损失,快速收敛。此外,本文使用双线性策略更好地预测细粒度图像任务。与其他最先进的五类分类研究工作相比,该方法能够获得优越的分类精度性能。本文的贡献总结如下:
①提出了一种新的深度学习架构BiRA-Net来解决DR分级的挑战。它包含了一种为更好的特征学习而设计的注意机制。此外,还采用了双线性训练策略来帮助细粒度视网膜图像的分类。
②提出了一种基于Softmax的新损失函数为了测量细粒度DR分级问题的模型分类精度,并通过实验验证,从而有效地提高了该方法的训练收敛性。
本文的其余部分组织如下。首先,在第2节中提供了对相关工作的简要回顾。然后在第3节中提出了所提出的BiRA-Net,并与第4节中最先进的方法进行了比较。最后,第5节结束了本文。
背景介绍:为什么研究这个课题:传统的检测手段需要大量的知识储备和设备,且耗时过长,对于医生的专业素养要求过高。
研究进行到了哪个阶段:先前的研究有特征提取和两类预测,但是特征提取对于噪声等众多条件敏感,局限性高,两类预测只能判断疾病存在,不能判断严重程度。
使用理论基于哪些假设:①注意力机制,细粒度分类,双线性策略 ②基于softmax的新损失函数。
传统上,大多数糖尿病视网膜病变检测方法都集中在提取人们感兴趣的区域,如黄斑、血管、渗出物,这些方法多年来一直在DR检测领域占据主导地位。近年来,CNN已被用于DR检测,并在DR的二元分类中取得了令人满意的结果。但是二元分类并不够,对于严重程度的分类更为重要。
自从加州医疗保健基金会在Kaggle对现有数据集提出挑战以来,越来越多的研究正在研究糖尿病的多级预测。Bravo等人探讨了不同预处理方法的影响,并使用基于VGG16的架构相结合,在糖尿病视网膜病变分级中取得了良好的表现。
然而,大多数研究利用CNN就像一个缺乏直观解释的黑盒子一样。值得注意的是,提出了一种Zoom In Net 方法来使用Attenttion 机制来模拟临床医生诊断糖尿病时的放大过程,并在二元分类中实现最先进的性能
此段描述了研究之前所进行的阶段,并且提出了之前研究的相关缺陷:缺乏可解释性
本节提出了提出的BiRA-Net用于DR预测。所提议的BiRA-网络架构如图所示
它由三个关键组件组成:(i)恢复网、(ii)注意网和(iii)双线性网。
首先,将处理过的图像进入ResNet进行特征提取;然后应用注意力网集中于可疑区域。对于该任务中的细粒度分类,采用双线性策略,同时训练两个RA-Net以提高分类性能。正因为如此,我们的架构被命名为“BiRA-Net”。
图1 BiRA-Net结构图一栏
ResNet使用快捷连接让一些输入不加区分地跳过图层,从而避免添加新参数并在网络上进行太多的计算,并同时避免了loss信息和退化的问题,ResNet可以显著提高训练速度和效果。因此,在所提出的网络架构中,应用预先训练好的ResNet-50具有50层的深度进行特征提取。
医学图像总是包含许多可能会干扰决策的不相关的信息。在我们的任务中,病变和微血管瘤等显微镜特征对医生分类DR分级至关重要。因此,所提出的BiRA-Net利用了Attention 机制,它模仿了临床医生观察糖尿病预测的关键特征的行为。
图2.BiRA-Net中的Atteion Net结构图
①BiRA网络注意网首先从ResNet获取∈R100×20×20特征图作为输入,随后把他们输入到三个有1X1卷积核的卷积层的Attention-Net CNN网络当中去。
②如图2所示,再Attention-Net进行运算后会生成R100X20X20的Attention Map A,具体来说,通过sigmoid操作它会为每个疾病等级生成20个Attention Map。
③为了创建图像的掩码M,我们会将应用特征图F与注意力图 A进行乘法运算。然后,我们分别对掩码M和注意力图A 进行全局平均池化(GAP)运算,从而减少参数避免过拟合。
④最后,为了获取图像的权重和过滤不相关信息,使用了一个除法。
综上所述,最后的Attention Net输出为
其中Al和Fl分别是注意图和特征图;⊗和分别表示元素乘法和元素除法。
所提出的BiRA-Net利用双线性策略来提高分类的性能。为了加速训练过程和减少参数,同时训练两个相同的RA-Net流。更具体地说,只需要训练一个流。
该网络中使用的双线性网如图1所示。以Attention Net 的输出和ResNet的输出作为输入。
①ReSNet的输出将首先放入Net-B中,它由一个卷积层(100,20×20)和一个ReLU激活层组成,以提取特征并使其与注意网的输出相同。
②然后由M运算符计算(元素平均值)计算为
其中Xl和Yl分别是Attention Net的输出,Net-B的输出,Zl是M运算符的输出,⊕表示元素加法。
接下来,我们使用M运算符项输出为Z的外部积来获得图像描述符,然后得到的双线性向量通过有符号平方根步骤和L2归一化来提高性能。
传统的损失函数仅限于将多类分类简化为多个二进制分类。在这些传统的损失函数中,不考虑不同类之间的距离。为了降低损失精度误差差异并提高收敛性,提出了一种新的损失来增加Softmax的权重,称为“分级损失”。
所提出的分级损失函数是一个具有基于距离的重量函数的加权Softmax函数,公式如下:
其中,y∈[0、C−1]、x=(x0、x1、x2、....,xC−1)、M=
它定义了由预测类x与实类y之间的最大差值计算出的类之间的差距,而C是类的数量。权重通过所除以所有情况的积累M来进行标准化。
数据分布情况:本文使用Kaggle的数据集进行了实验。视网膜图像由由35126张图像组成的眼球图像提供。根据疾病的严重程度,每张图像都被标记为{0、1、2、3、4}。每个类的例子如图所示。3.数据集高度不平衡,具有25810级0级图像(正常)、2443级1级(轻度)、5292级2(中等)、873级3(服务器)和708级4(增殖)。为了更好地泛化和与最新的五类分类方法进行比较,采用了[16]的数据分布,然后我们保留了1560张平衡图像进行验证,其余用作训练数据。
图3 眼底图
预处理:原始图像有一个黑色的矩形背景。它们被裁剪掉,以保持整个视网膜区域在方形区域。然后将图像的大小调整为610×610像素,并通过减除平均值并除以在所有训练图像中的所有像素上计算的标准差进行标准化。直方图均衡被用于对比度增强。为了平衡训练数据,采用了加权随机抽样。在训练过程中,图像随机旋转10度,在数据增强过程中垂直或水平翻转。
超参数:该模型使用Pytorch实现,并在一个GTX1080TiGPU上进行训练,使用动量为0.9的随机梯度下降(SGD)优化器进行训练。对权重衰减因子为5×e−7的权重进行2正则化,初始学习率为0.01。
使用混淆矩阵来计算每个类中分类的图像的数量,并用归一化混淆矩阵的对角线计算分类精度的平均值(ACA)。(一个ACA为0.2是一个随机猜测的分数,因为在实验中有5个类。)
我们将我们的模型与Bravo等人的工作进行了比较。利用基于VGG的分类器与不同图像预处理(圆形RGB、灰度和色中心集)的融合,获得了最好的ACA。
为了探讨所提议的BiRA-Net中不同模块的有效性,实施了消融研究来评估不同部分之间不同组合的性能如下。
表1总结了测试数据集上的所有方法的结果。
BiRA-Net在ACA、MarcoF1和MicroF1中的表现优于所有其他方法。我们还使用交叉熵损失实现了BiRA-Net,并取得了具有竞争力的结果。ACA为0.5424,接近我们提出的BiRA网。然而,利用所提出的损失,我们观察到一个改进的收敛速度。
图4给出了所提出的BiRA-Net的混淆矩阵。在混淆矩阵中,每个类最有可能被预测为正确的类,除了类1,它大多被归类为类0。很明显,1类是最容易区分的,正常类(0类)是最容易检测到的。
图4 BiRA-Net的混淆矩阵,水平为预测,垂直为实际类
本文提出了一种Attention机制驱动的糖尿病视网膜病变分级深度学习架构,其中双线性策略实现于细粒度分级任务。此外,所提出的分级损失函数有助于大大提高该方法的收敛性。消融分析表明,这些成分有效地提高了分类性能。实验结果验证,提出的网络与最先进的方法具有竞争力。