按照老师的要求,读了这篇论文,小结一番,防忘。
详情参看原论文:SIPAKMED: A new dataset for feature and image based classification of normal and pathological cervical cells in Pap smear images. Marina E. Plissiti, P. Dimitrakopoulos, G. Sfikas, Christophoros Nikou, O. Krikoni, A. Charchanti
宫颈细胞分类,由于它的图片数量的限制和宫颈细胞形态学变化的复杂性,在图像分类上一直是一个比较棘手的问题,但同时,宫颈细胞分类对于医学病理学诊断上具有很大的意义,很多学者也提出了很多有效的算法,但是他们的算法往往都是跑在自己的一个非公开的数据集上,对其他研究者来说,由于数据集不同而无法重复这样的实验结果。
这篇论文的目的,就是提供一个公开的数据集,从而协助研究者们在一个统一的数据集上评估自己算法的性能,得到更有说服力的结果。
SIPaKMeD数据集包含4049张带批注的细胞图像。这些细胞由细胞病理学专家基于细胞的特征和形态学知识分成5类。具体来说,正常细胞被分成两个类别(superficial-intermediate & parabasal),异常但是并没到恶性的细胞也被分为两个类别(koilocytes & dyskeratotic),剩下还有一类是良性细胞(metaplastic)。
每张细胞图片中,胞质与细胞核的区域都被手工标记了。在每个感兴趣区域(region of interest, ROI)中,计算出了26个特征,用来描述ROI的强度、纹理和形状的特征。
SIPaKMeD数据集收集了4049张从966个Pap涂片的细胞簇图像中手工切分的孤立细胞图像,这966个细胞簇图像也收录其中。
这些图像是通过适用于光学显微镜(OLYMPUS BX53F)的CCD相机获得的。
详情见下表:
(这一部分贴上非正式的翻译)
SIPaKMeD数据集中的细胞图像被分为5类,分别是superficial-intermediate & parabasal、koilocytes & dyskeratotic、metaplastic。
正常细胞根据它们在上皮层的位置和成熟程度被分为两类:superficial-intermediate & parabasal。
它们是在Pap测试中发现的细胞中最多的,通常呈圆形、椭圆形和多边形(如上图所示)。细胞质染色多为嗜酸性或嗜氰,包含一个中央致密核(central pycnotic nucleus)。它们被很好的定义为:大的多边形胞质和容易辨别的细胞核限制(浅表囊泡和小泡核在中间细胞中)。
这种细胞是不成熟的鳞状细胞,是典型的阴道涂片中可见的最小的上皮细胞。 细胞质通常是嗜蓝的,它们通常包含一个大的囊泡核。 必须注意的是,副基底层细胞具有与被鉴定为化生(metaplastic)细胞的细胞相似的形态特征,因此很难与它们区别开来。
异常细胞的特征是其结构部位的形态学改变,并表明存在病理情况。 人乳头瘤病毒(HPV)是几乎所有宫颈癌病例的病因,通过鳞状细胞的特征性变化表现出来,其中两种是病理性的:小胶质细胞增多症(koilocytosis)和角化异常(dyskeratosis)。
在成熟的鳞状细胞(中层和浅层)中,这种细胞(Koilocytotic cells)最常见,有时也出现化生状态的。 它们最常出现嗜蓝,染色很浅,其特征是核周腔大。 细胞质的外围染色非常浓密。 空泡细胞的核通常是扩大的,偏心的,呈红色的,并显示出核膜轮廓的不规则性。 在许多情况下,存在双核和/或多核细胞。 这种细胞是用于HPV感染的致病原细胞,根据感染的不同阶段以及不同病毒类型的感染,空泡细胞的核通常表现出不同程度的变性。
角化不全细胞(Dyskeratotic cells)是在单个细胞内或更常在三维簇中经历过早的异常角质化的鳞状细胞。 它们表现出鲜艳的嗜橘细胞质。 它们的特征是存在与囊泡性细胞核相同的水泡核(vesicular nuclei)。 它们构成了HPV感染的显着特征,有时甚至在完全不存在koilocytes细胞的情况下,也可以作为病理学证据。 它们通常是厚的三维簇,很难区分细胞核或细胞质边缘。
这些细胞代表转化区,几乎所有子宫颈癌前期和癌性疾病都在此发展。
“化生(metaplasia) 是指一种已分化组织转变为另一种分化组织的过程。并非由已分化的细胞直接转变为另一种细胞,而是由具有分裂能力的未分化细胞向另一方向分化而成,一般只能转变为性质相似的细胞。机体的一种组织由于细胞生活环境改变或理化因素刺激,在形态和机能上变为另一种组织的过程,是机体的一种适应现象。如支气管黏膜的柱状上皮组织长期受刺激变为鳞状上皮组织”。——来自百度百科
我的理解就是一种过度形态的细胞。
化生细胞本质上是具有明显细胞边界的小型或大型旁基底型(parabasal-type)细胞,通常表现出偏心核,有时还包含较大的细胞内液泡。 中心部分的染色通常是浅棕色,通常与边缘部分的染色不同。 而且,本质上存在深色的细胞质,并且与parabasal细胞相比,它们的大小和形状均具有很好的一致性,因为它们的特征是细胞质定义清晰,几乎呈圆形。 它们在Pap检测中的存在与癌前病变(HSIL)的更高检出率相关。
这一节在SIPaKMeD数据集上测试了一些常见的图像分类算法,用于评估在这个数据集上它们的对细胞图像识别率的表现。
这里用到了三种特称集——细胞特征、图像特征和深层特征(Deep feature)。下面将详细讲到这三种特征以及该评估所实现的算法细节。
SIPaKMeD数据集中的每张图像中ROI的边界,胞质和细胞核的区域都经由专家标注出了。
每个ROI(包括胞质和细胞核)中,包含26个特征,有关强度(intensity)的特征有:平均强度(average intensity)和平均对比度(average contrast);有关纹理的特征包括:每个通道上的平滑度(smoothness)、均匀度(uniformity)、第三矩(third moment)和熵(entropy);每个区域的图形特征:面积(area)、长轴和短轴长度(major and minor axis length)、偏心率(eccentricity)、方向(orientation)、当量直径(equivalent diameter)、坚固性(solidity)和范围(extent)。
这些特征被放在5个28列(包含26个特征,图像的数量和与之对应的细胞)表中,每个表对应一个细胞类别。
这些特征被用来训练SVM分类器和MLP分类器,训练细节如下:
在他们的实验中,SVM分类器的核函数为RBF核(也叫高斯核)。用到了5折交叉验证来找到最佳的惩罚常量C和gamma。进一步地,他们分了两组实验,一组用胞质的特征训练,另一组用细胞核的特征训练。又由于SVM原本是二分类器,这里是多分类(五分类)问题,他们使用了OVO(one-versus-one)策略,将五分类问题转化为10对二分类问题。
由于现在SVM在很多库中都已经封装成多分类器了,所以OVO在其他地方见得不多,本身也不算特别难,插在这里说一下:
SVM一开始是作为二分类器使用,为了将其运用到多分类问题当中,有两种大的方法——直接法和间接法。直接法通过修改目标函数,将目标函数映射到多类,最后”一次性“分类完毕,这种方法比较麻烦,效率也不高。间接法就是通过多个二分类器来解决多分类问题,常用的策略有两种——OVO(one versus one)和OVR(one versus rest)。
OVO策略:通过每两类之间构造一个分类器,然后让样例通过所有的分类器,分类器之间投票决定最终结果。例如某个三分类问题(A,B,C),则需要构造三个分类器M(A,B), M(A,C), M(B,C),每个分类器一票,票数最多的类别即为最终结果。这种方法对于N分类问题,理论上需要训练N * (N - 1) / 2个二分类器,在类别过多时,效率不高。Libsvm(sklearn中svm的基类)就是用这种方法实现的。
OVR策略:每个二分类器选择一个类别为正类,其余各类均为负类,即N分类问题需要训练N个二分类器。这种方法虽然二分类器的个数减少了,但是因为训练集几乎是1:M,误差较大,不实用。
MLPs是最简单的神经网络,包含全连接的隐层。他们假定每个隐层的神经元数目的相同的,测试了多种不同的网络结构,并用交叉验证法选择的表现最好的结构。激活函数为双曲正切sigmoid函数,学习率为0.1,训练算法是随机梯度下降算法,损失函数为交叉熵损失函数,最后输出层用softmax映射到五分类。
这里直接用到了AlexNet。层次结构几乎完全相同。
详情可以看我的上一篇博客:论文总结——AlexNet
稍微不同的地方是:初始图片的分辨率,他们设成了80 × 80,还有卷积核的大小为3 × 3,池化选择框的大小为2 × 2。
采用随机梯度下降算法训练CNN,训练过程经过了200,000个迭代。
神经网络也能被看作特征提取机,输入一张图像,取中间的某一层的激活或者预激活来构造特征向量。用这种方法提取出的特征往往被称为深层特征(Deep feature)。这种技术背后的原理是神经网络可以被看作一种自动学习最合适的数据表示。此外,深层特征更加抽象,从而赋予了更多可转让(transferable)的特征。(我的理解就是:深层特征包含着对人来说更加不直观的特征,但是机器没有人的直观感受)在靠近输入的那些层中的特征向量更是如此。
全连接层和卷积层都可以用作提取深层特征。
全连接层中,深层特征是一个M大小的向量,M指该层的神经元的数目。
对于卷积层来说,深层特征的构造需要两步。由于卷积层的激活通常是一个H × W × D的张量,H,W,D分别为当前卷积层的高度,宽度和深度。这个H × W × D的层输出可以被看成一个H × W个大小为D的向量,这些向量可以被汇总成一个向量,简单的和池化(sum-pooling)被看作是一个很有效的汇总方法。
在这篇论文中,他们用到的是上面提到的卷积神经网络中最后一个卷积层(layer conv5)的预激活,经过和池化产生一个512大小的向量。他们也用到了第一个全连接层(layer fc6)的预激活,得到了大小为4096的向量。在两种情况下,最后都用PAC(主成分分析)将这些已提取的特征压缩为256大小的向量。然后投入之前描述过的SVM中进行训练。
这一小节原文引用了很多其他论文,有兴趣可以去深入了解一下深度特征。这里列一个比较重要的,其余引用参见原论文。
A. Babenko and V. Lempitsky, “Aggregating local deep features for image retrieval,” in IEEE International Conference
on Computer Vision (ICCV), December 2015.
从实验结果可以看出,koilocytotic cell是最难分类正确的细胞。还能看出SVM往往比MLP的表现更好,胞质特征相比细胞核特征的泛化能力更强。
就结论来说:
CNN等深度学习算法相比利用人工标记特征算法表现更加优秀。
CNN的表现最好,而利用了深层特征的SVM方法紧随其后。
稍微再提一点,上图的评估方法我们称为混淆矩阵,列表头表示真实结果,行表头表示分类结果,即黑色标注的部分为分类正确率。从混淆矩阵中可以很直观的得出很多结论,方便我们进一步评估算法的优劣。
这里就用论文的最后一句话结束:
Thus, the SIPaKMeD database provides new challenges and it constitutes a solid basis for competitive evaluations for the cell image analysis community.
SIPaKMeD数据库提出了新的挑战,它为细胞图像分析界的竞争性评估奠定了坚实的基础。