基于聚类演化随机森林的阿尔兹海默症的多模态数据分析
这几天在看一篇论文,想和大家分享一下。
这里我只是用自己的话简单概括了文章的大致主体意思,由于这篇论文没有代码,所以我没办法复现。
主要还是学习方法和思想,如果想看原文,请移步网站,支持作者的创作成果。本博客全是基于自己的理解创作的,所以有大佬能够指出本博客的错误,在下定当万分感谢。
这篇文章来自Medical Image Analysis.
A novel CERNNE approach for predicting Parkinson’s Disease-associated genes and brain regions based on multimodal imaging genetics data[1]
Xia-an Bi, Xi Hu, Yiming Xie, Hao Wu
PII: S1361-8415(20)30194-8
DOI: https://doi.org/10.1016/j.media.2020.101830
Reference: MEDIMA 101830
T o appear in: Medical Image Analysis
Received date: 26 April 2020
Revised date: 24 July 2020
Accepted date: 1 September 2020
设计了一种实用的多峰特征融合方法,以检测大脑区域和基因之间的序列信息的相关性,并提取出更多可识别的特征。
提出了一种创新的神经网络集成模型CERNNE,以分析样本的融合特征。该方法使用聚类演化策略来优化集成学习者,以获得更好的分类结果。
本文研究提供了检测PD相关基因和大脑区域的综合框架。
本博客可能出现的名词缩写
PD 帕金森症
GERNNE 神经网络集成模型
AAL 解剖自动标记
ROI 感兴趣模块
ANN 人工神经网络
BPNN 反向传播神经网络
PNN 概率神经网络
ElmanNN 艾尔曼神经网络
LVQNN 学习矢量量化中心网络
Competitive NN 竞争性神经网络
FMRI 功能磁共振成像
SNP
PD的多峰数据融合分析框架,该框架实现特征构建,患者识别和病变检测的功能。该框架由以下四个部分组成,包括多模式数据预处理,融合功能构建,样本分类和与PD相关的基因以及大脑区域预测。
接下来请听我娓娓道来
所有功能磁共振成像数据均由DPARSF软件进行预处理。
SNP的预处理由PLINK软件执行
Pearson相关系数
最常用的相关系数,又称积差相关系数,取值-1到1,绝对值越大,说明相关性越强。该系数的计算和检验为参数方法,适用条件如下: (适合做连续变量的相关性分析)
(1)两变量呈直线相关关系,如果是曲线相关可能不准确。
(2)极端值会对结果造成较大的影响
(3)两变量符合双变量联合正态分布。
Wr代表ROI的功能时间序列,Ss是基因序列,l代表每个ROI或者基因的长度
简化版叙述
随机抽30%为测试样本,这其中7:3分为训练,验证
从融合特征中随机选择作为分类器的输入特征
构造单个分类器,Z次,Z个。
对分类器进行聚类学习,相似性的衡量标准DM
假设两个分类器ANN1和ANN2
Z00:两个分类器都识别错误的样本数量
Z01:只有ANN2识别错误的样本数量
Z10:只有ANN1识别错误的样本数量
Z11:ANN1和ANN2都是别正确的样本数量
聚类演化
保留集群中具有最佳性能的基本分类器
在分类器集群中留下最终达到演化时间所设阈值的分类器
ANNensemble表示该W下的所保留的基础分类器的数量
W表示对应的整体学习器峰值性能的演化时间
Z表示初始分类器的数量
cl表示迭代步长,也就是每次W下优化掉的分类器的个数
最终模型的投票决策
也就是如何在最佳分类器集群中得到最终的结果。
这里很简单,平均值,每个分类器享有同等的投票权。
结果集:
等式计算分类结果
最大值的标签
这里x为测试样本,fk(x)表示第k个分类器的分类结果。
I(∗)为指示函数,如果第i个分类器预测测试样本x属于A类,则I(fi(X)=A)的值为1,否则为0。最大值的标签是未分类样本的最终类别
输入特征对分类器的分类影响很大,所以如何提取最佳特征是一件非常重要的事。
在对最佳CERNNE的集成性能进行了多次测试之后,平均分类精度为88.6%
第一阶段,我们计算了最佳CERNNE模型中基本分类器中输入特征的频率,并为下一阶段的特征提取了400个高频特征。分析。通过上述操作,可以将最容易识别的特征的搜索范围缩小到400维。
第二阶段400个高频特征被分为融合特征的几个子集。具体来说,第一个特征子集由前70个高频特征组成。然后,我们按照频率递减的方式逐渐增加子集中特征的数量,步长为5,直到子集中包含所有400个高频特征。
具体而言,将BP NN,Elman NN和LVQ NN的隐藏层数设置为5,将其他网络的参数设置为MATLAB平台的默认参数。此外,所有神经网络基础分类器的迭代训练数量为300。对于任何类型的神经网络集合,我们将其基础分类器的训练样本数量和随机输入特征分别设置为50和64,并将初始集成学习器中的基本分类器设置为500。
局限性
实验数据少
模型性能还有提升空间
结论
本文试图设计一种实用的多峰融合分析框架。主要贡献包括三个部分。通过相关性分析检测基因与大脑区域之间的相互作用,并根据多峰信息互补的优势,构建具有更多识别能力的融合特征。本文提出了一种新的集成学习器来分析融合特征,实现了对PD患者的识别准确率达到88.57%。通过搜索对于分类有意义的特征,可以检测到PD在基因和脑功能图像方面的致病因素
该论文还有一些可视化数据和方法的对比部分我没有写出来,不过总体内容基本上都有。没有数据,没有代码,也算是了解学习一下。
[1]Xia-an Bi, Xi Hu, Yiming Xie, Hao Wu, A novel CERNNE approach for pre-dicting Parkinson’s Disease-associated genes and brain regions based on multimodal imaging genet-ics data, Medical Image Analysis (2020),
doi: https://doi.org/10.1016/j.media.2020.101830