基于自适应神经模糊推理系统的乳腺癌分类

前言

第三弹分享,本实验设计了一种自适应神经模糊推理系统,用于乳腺癌分类问题。

引言

乳腺癌是女性死亡率第二高的癌症。尽早发现是战胜这种疾病的关键。可以使用一种叫做细针穿刺的技术在早期检测体内的癌细胞。假设存在一个数据存储库,可以同时代表受害者和非受害者的病例,那么研究界可以使用伪统计方法来分类和确定活检是否包含癌细胞。自适应神经模糊推理系统(ANFIS)是一种能够进行函数逼近的计算工具,可以解决乳腺癌的分类问题。

ANFIS介绍

ANFIS网络是使用纯反向传播梯度下降或者是反向传播和最小二乘法混合作为学习规则的所有前馈神经网络的超集。ANFIS可以使用其学习算法进行学习,生成模糊推理系统的隶属函数。这种机制使ANFIS网络与标准模糊推理系统有所不同。

数据预处理

本文实验使用的数据来自加州大学欧文分校(UCI)的机器学习知识库。威斯康星大学麦迪逊医院的William H.Wolberg博士在四年的时间里收集了一些数据,被称为威斯康星乳腺癌数据集。该数据集由10个属性组成,这些属性有肿块厚度、细胞均匀性等,如表1所示。共699例,良性占65.5%,恶性占34.5%。指定值2为所有良性样本的类标签,值4为所有恶性样本的类标签。

无论对数据使用什么算法,其精度很大一部分都依赖于数据本身。如果数据重叠,或者数据具有其他不需要的特性,都会降低算法的性能。因此,在使用算法之前,最好先对数据进行预处理。使用协方差矩阵对乳腺癌数据进行主成分分析(PCA)以确定哪些维度包含的信息最多。如表1所示,数据的前五个属性包含90.5%的信息。数据集包含一些缺少属性的样本;因此,那些缺少属性的样本被删除,最后数据集减少到有683个样本。图1显示了将维度裁剪为5后的数据分布。最后,选择前五个属性作为自适应神经模糊推理系统的输入。

重要性比重(%) 特征属性
69.0859 肿块厚度
7.1668 细胞大小均匀性
6.0622 细胞形状均匀性
4.4344 边缘粘性
3.8973 单上皮细胞大小
3.4375 裸核
2.5304 乏味染色体
2.2488 正常核
1.1367 有丝分裂

基于自适应神经模糊推理系统的乳腺癌分类_第1张图片

实验结果

在数据集上进行了一系列的5个实验,以接近乳腺癌ANFIS分类的充足条件。

A

使用网格划分生成ANFIS网络。生成的网络有243条规则,5个输入,1个输出,每个输入有3个高斯隶属函数。数据集被划分为3个相互排斥的子集。第一组训练数据包括146例良性细胞和82例恶性细胞。第二组包含ANFIS使用的检查数据。良性细胞147例,恶性细胞73例。最后一组包含了同样由147个良性细胞和82个恶性细胞组成的测试数据集。图2显示了训练前网络生成的隶属函数。

ANFIS采用反向传播学习规则对网络进行分类训练。图3显示了分类结果,表2显示了分类分布。
基于自适应神经模糊推理系统的乳腺癌分类_第2张图片
基于自适应神经模糊推理系统的乳腺癌分类_第3张图片

类别 正确 错误
良性 145 1
恶性 71 12

B

对于第二个实验,使用z-score算法对5维数据集进行规范化处理。对网络重新训练,训练参数与之前相同,即每个输入有3个高斯隶属函数,训练周期为300个epoch。300个epoch后的分类结果令人满意,分类误差为3.46%。该网络还可以继续训练300个epoch,改进后的分类误差为0.87%。图4显示了300个epoch和600个epoch后的分类结果。表3显示了实验的分类分布。
基于自适应神经模糊推理系统的乳腺癌分类_第4张图片

类别 正确 错误
良性 147 1
恶性 76 7
600 epoch后
良性 146 2
恶性 83 1

C

在第三个实验中,由于数据的前3个维度包含82%的有效信息,5维标准化数据集进一步简化为3维。这个实验的目的是为了发现包含最少信息的其他维度是否可以被视为噪声。图5显示了数据集在简化之后的后用规范化数据重新训练ANFIS的结果分布。
基于自适应神经模糊推理系统的乳腺癌分类_第5张图片
使用网格划分生成ANFIS网络。结果网络有27条规则,3个输入,1个输出,每个输入有3个高斯隶属函数。所有其他变量在实验1和实验2中都和之前一样。图6显示了网络的结构。
基于自适应神经模糊推理系统的乳腺癌分类_第6张图片
利用反向传播规则对网络进行600个epoch的训练后,实验结果相比上一组并没有得到改善;但这种方法至少将分类误差降到了3.46%。图7显示了分类分布,表4显示了分类的结果。
基于自适应神经模糊推理系统的乳腺癌分类_第7张图片

类别 正确 错误
良性 141 7
恶性 82 1

D

在第四个实验中,第三个实验的ANFIS网络采用反向传播和最小二乘法相结合的混合学习规则重新训练。实验不但没有降低分类误差,反而降低了分类的质量,将分类误差提高到8.658%。图8显示了调整后的隶属函数,图9显示了分类结果,而表5显示了分布。
基于自适应神经模糊推理系统的乳腺癌分类_第8张图片
基于自适应神经模糊推理系统的乳腺癌分类_第9张图片

类别 正确 错误
良性 146 2
恶性 65 19

结论

本文将自适应神经模糊推理系统应用于一个9属性数据集的乳腺癌分类问题中。表6总结了为寻求解决方案而进行的4项实验的结论。

序号 算法 误差 维度 Epoch
1 BP 6.90% 5 300
2 BP 3.46% 5 300
2 BP 0.87% 5 600
3 BP 3.46% 3 600
4 混合 8.66% 3 10

结论是,基于威斯康星数据集,将数据的维数从9降到5是获取肿瘤细胞分类的理想方法。

此外,应用广义Z-score算法对裁剪后的数据进行规范化处理,能够将5维ANFIS网络的分类误差从6.9%降低到0.9%。

从5维到3维的数据再剪裁降低了网络的性能,从而得出结论:边缘粘连和单上皮细胞大小是人类乳腺癌分类的重要因素。

最后,以下五个属性对于判断乳腺癌的存在与否很重要:肿块厚度、细胞大小的均匀性、细胞形状的均匀性、边缘粘连和单上皮细胞大小。

你可能感兴趣的:(人工智能,机器学习,人工智能,matlab,神经网络)