本文主要介绍一下论文《Recognition algorithm of Parkinsons disease based on weighted local discriminant preservation projection embedded ensemble algorithm》中针对帕金森疾病数据提出的 WLDPP(局部判别保留投影法) 方法
目前帕金森病数据的问题是高冗余、高噪声和小样本,降维可以有效地解决这些问题。本文提出了一种加权局部判别保持投影嵌入集成算法,与现有的特征选择和特征提取算法相比,能显著提高帕金森病的诊断准确率。
降维是指利用映射方法将原始高维空间中的数据点映射到低维空间。降维方法可分为特征选择和特征提取,从初始特征空间中提取最优特征子集。根据评价函数,特征选择方法可分为三种类型:
LPP(局部保留投影法)是流形降维的典型代表算法,它最有效地保留了数据集的邻域结构,但LPP算法仍然存在一些缺点:
改进的LPP方法仍然忽略了一些问题:
WLDPP基本思想为在保留LPP局部性的前提下,最小化局部类内散射矩阵的迹,最大化类间散射矩阵。算法流程图如下图所示,主要由3部分组成:
LPP的目标是最优地保持数据的邻域结构,其目标函数使原始数据空间中具有邻域关系的数据点之间的距离最小(即局部保留)。局部保留可被描述为:
L = D − A L=D-A L=D−A 为拉普拉斯矩阵, D i i = ∑ j A i j D_{ii} = \sum_j A_{ij} Dii=∑jAij为对角阵,A为亲和度矩阵,计算公式如下:
提出的WLDPP可被描述为:
S B = ∑ c = 1 C N c ( μ c − μ ) ( μ c − μ ) T S_B=\sum_{c =1}^C N_c (μ_c-μ)(μ_c-μ)^T SB=∑c=1CNc(μc−μ)(μc−μ)T 为类间散射矩阵, S w = ∑ c = 1 C ∑ x ∈ X c ( X ( c ) − μ c ) ( X ( c ) − μ c ) T S_w=\sum_{c=1}^C \sum_{x∈X_c( X^{(c)}-μ_c)(X^{(c)}-μ_c)^T} Sw=∑c=1C∑x∈Xc(X(c)−μc)(X(c)−μc)T 为类内散射矩阵, μ = 1 N ∑ i = 1 N x i μ=\frac{1}{N}\sum_{i=1}^Nx_i μ=N1∑i=1Nxi 为 X X X 的中心, μ c = 1 N ∑ i = 1 N c x i μ_c=\frac{1}{N}\sum_{i=1}^{N_c}x_i μc=N1∑i=1Ncxi 为 X X X 中第 c c c 类的中心, x ( c ) x^{(c)} x(c) 为 X X X 中的第 c c c 类样本,对 U U U 进行求导得到最优解
通过上式,投影矩阵 U U U 可轻易得到,向量 U k = ( u 1 , u 2 , . . . , u k ) U_k=(u_1,u_2,...,u_k) Uk=(u1,u2,...,uk) 为 U U U 的前 k k k 个特征向量,然后,将原始高维数据投影到由 U U U 列构成的低维空间上,实现降维。
利用集成学习构造最终的映射矩阵。局部保持判别投影算法重复 p p p 次,分别输出 U k 1 , U k 2 , . . . , U k p U_k^1,U_k^2,...,U_k^p Uk1,Uk2,...,Ukp,最终映射矩阵 U k f i n a l U_k^{final} Ukfinal 由 U k i , ( i = 1 , 2 , . . . , p ) U_k^{i},(i=1,2,...,p) Uki,(i=1,2,...,p) 加权后获得,即
α α α 是一个由网格搜索发得到的加权因子。