笔记@基于SVM的肺结节自动识别方法研究

笔记@基于SVM的肺结节自动识别方法研究

原文信息:

张婧. 基于SVM的肺结节自动识别方法研究[D].华南理工大学,2011.

扫盲区

  • 肺癌早期的表征形式为肺结节,因此肺结节的正确检测与智能识别是非常关键的。

  • 真正对肺结节检测与识别有价值的只有肺实质部分。

  • 肺结节:肺癌早期的表征形式一般为肺结节(lung nodule),临床上一般把直径不超过 30mm 的肺部类圆形病灶称为结节,不超过 20mm 的结节称为小结节(small nodule),不超过10mm的结节称为微小结节(micro-nodule)[5]

  • 肺结节计算机辅助诊断(Computer-Aided-Diagnosis,CAD)系统为肺癌早期检测和诊断提供了帮助,一方面减轻了医生的工作量,能有效地帮助医生对潜在的肺癌进行早期检测和特征描述;另一方面使医学影像诊断更客观,提高了诊断的效率和准确率,最大程度上避免了漏诊和误诊。

  • 基于医学影像的计算机辅助诊断仍然只是计算机辅助诊断的手段,最后的诊断意见仍然由医生来做。所以,计算机辅助诊断技术在临床上的应用主要表现在两个方
    [12]

① 在处理大量患者影像数据的基础上,把可疑的病灶尽可能准确地找出来,提供给医生作为进一步诊断的参考;

② 在大量医学影像学处理方法及对某些特殊疾病大量分析的基础上实现建模,把在影像学上容易混淆的正常组织和病灶信息通过模型参数的选择区别开,把真正的病灶甄别出来,提供诊断的准确率。

  • 目前已有的CAD系统仍存在两个主要的问题

①CAD系统对肺结节检测的敏感度不高而特异性过高;

②目前已有的研究主要是针对孤立型肺结节和粘连型肺结节,而缺乏对磨玻璃型(Ground-Glass Opacity,GGO)肺结节和邻近肺壁的微小结节的研究。

  • 目前主要采用的标准的公共数据库有:

① 美国肺影像数据库协会(Lung Image Database Consortium,LIDC)[18]

② 早期肺癌行动计划(Early Lung Cancer Action Program,ELCAP);

③ 公共肺影像数据库[19]

④ 日本放射技术协会肺部影像数据库(Japanese Society of Radiological Technology, JRST)[20]

  • 有许多文献报道肺结节的检测采用的CT图像来自公共数据[15,21-24],也有一些文献采用的是合作医院的私人影像数据库[25-27]

肺结节自动识别流程

目前CAD系统基本步骤[14-17]

  1. 读入源图像;
  2. 图像滤波、增强;
  3. 肺实质的分割;
  4. 感兴趣区域(ROI)的分割;
  5. ROI的特征提取;
  6. 肺结节的识别;

候选ROIs的17个特征

  1. 2 个灰度特征:灰度均值和灰度方差;
  2. 9 个形态特征:面积、周长、直径、扁度、宏观圆形度、紧凑性、凹性率、细长度、矩形度;
  3. 2 个位置特征:ROI 的质心;
  4. 4 个纹理特征:能量ene、对比度con、熵ent和逆差矩idm 分别在四个方向上的平均值。

特征择优方法

  1. 主成分分析(Principle Component Analysis, PCA)

PCA方法的目标是去除输入向量间的互相关联性,以突出原始数据中的隐含特性,属于非监督的学习;

  1. 接收操作特征曲线(Receiver Operating Characteristic, ROC)

ROC曲线主要是区分每一个特征的可分度,可分度大的特征就保留,否则删去;

  1. Fisher线性判别分析[53]

Fisher 线性判别分析方法是在已知样本类别的情况下,在 PCA 方法降维的基础上对特征集进行整体选择的方法,属于有监督的学习。

特征择优步骤

提取候选ROIs的灰度,形态和位置特征,加入具有旋转不变性和抵抗噪声能力的纹理特征,然后用主成分分析(Principle Component Analysis,PCA)的方法对特征优化选择。

① 分析肺结节的临床病理特征和在CT图像上的医学征象;

② 结合国内外学者的研究成果及专家的经验知识,根据相关知识定量地把主要能代表肺结节的灰度、形态、位置和纹理的17个特征以数学的形式表示出来,为肺结节的识别奠定基础;

③ 针对提取的特征之间的互相关联的问题,用PCA的方法对特征集优化选择和降维处理,使得到的新特征集彼此之间无关联,以提高分类器的分类性能和训练效率。

常用的分类器

目前在CAD系统的肺结节识别部分常采用的分类器有:

  1. 基于知识(Knowledge-based)规则的分类[8,25,37,46,55-61,129-133]
  2. 模板匹配(Template Matching, TM)[22,26,38,64-66]
  3. 线性判别分析(Linear Discriminative Analysis, LDA)[28,62,63]
  4. 神经网络(Neural Network, NN)[70-74]
  5. 支持向量机(Support Vector Machine,SVM)[27,75,76,88-90]

三大问题的解决

  1. 针对实际提取的数据集Lung-nodule中肺结节和非结节样本之间数目的不平衡;
  2. 合成少数过采样技术(Synthetic Minority Over-sampling Technique, SMOTE)的不稳定性;
  3. 代价敏感的支持向量机(Cost-sensitive SVM, CSVM)分类器的局部最优问题。

两种解决方法:

①一种是采用集成支持向量机(Ensemble SVM, ESVM)分类器对不平衡数据集进行重采样处理;

②另一种是基于网格搜索的CSVM分类器。分析比较基于规则、结合PCA与SVM方法、结合规则、PCA与SVM方法、ESVM和基于网格搜索的CSVM分类器的分类性能,得出无论是平衡数据集还是不平衡数据集,基于网格搜索的CSVM分类器的分类性能都要优于其它几种分类器。基于网格搜索的CSVM分类器可以在保持高特异性的同时,敏感度也能达到100%,而且对 SVM/CSVM 分类器本身来说,交叉验证的网格搜索寻优 SVM/CSVM 的参数能够使 SVM/CSVM 性能达到全局最优。

你可能感兴趣的:(笔记@基于SVM的肺结节自动识别方法研究)