A Multi-Task Learning Formulation for Predicting Disease Progression
Author: Zhou J, Yuan L, Liu J, et al.
临床判断阿尔茨海默症(AD)的两个指标:Mini Mental State Examination(MMSE)和Alzheimer’s Disease Assessment Scale cognitive subscale(ADAS-Cog)。本文基于岭回归提出了一种多任务学习的算法来通过以上两个标准(criteria)预测疾病进展,同时也可以选出有代表性的特征。本名提出一个多任务学习模型。本文认为,对于AD,每一个时间点的预测算作一个独立任务,通过给岭回归加上时间项约束(temporal group LASSO regularizer),将独立任务整合为多任务,从而捕获(capture)不同任务中的内在联系(intrinsic relatedness),前提是认为每个时间点的回归任务近似。时间项约束包括两部分,一个是 ℓ 2 , 1 \ell_{2, 1} ℓ2,1范数惩罚(penalty),目的是保证对于所有时间点只挑选一小部分特征。另一个是时间平滑项,目的是为了在连续(successive)的时间中,前后的两个模型的偏差(deviation)程度要小。大量(extensive)实验证明本文提出的模型相较其他的模型更具有优势,同时挑选的特征也同之前他人研究中的结果一致。作者使用的数据集是ADNI。
目前AD的确诊需要对于脑部进行活检或者解剖,MMSE和ADAS-Cog可以作为评估病人意识状态和诊断潜在AD病人的两个指标。MMSE与潜在(underlying)AD病理学(pathology)特征以及脑功能进一步恶化(progressive deterioration)相关,ADAS-Cog是进行AD药物试验(drug trial)的金标准。作者此时提出两个问题:1)怎样通过意识评分(cognitive score)如MMSE和ADAS-Cog来预测疾病的发展?2)在疾病发展过程中哪些特征是最具有代表性的特征,这些特征的最小集合是什么?这些可以追溯疾病发展的特征包含在脑部MRI成像,脑脊液(CSF)和一些临床诊断评估(baseline clinical assessments)中。
患者的年龄,性别,受教育程度等潜在风险因子与意识评分之间的关系已经被研究过。通过将一些特征(如基于MRI的脑灰质体积、密度,脑血管的形状,海马区)与MMSE关联起来进行研究也已经存在。并且一些研究表明内侧额叶(medial temporal lobe)的密度和大小以及其他风险因素与6个月AD病人的MMSE有关,所以可以使用这些特征来预测未来一段时间的意识水平。Ashford与Schmitt通过使用"time-index"提出时间函数(horologic function)来测定痴呆(dementia)的速度。基于脑萎缩空间模式(spatial patterns of brain atrophy)提出的SPARE-AD的方法也被提出。通过能量函数进行相关研究的也存在。在这些研究中通常都存在“维数灾难(curse of dimensionality)”的问题。所以一些降维的方法也被使用,PCA降维的显著缺点是所有特诊都被聚合,所以降维后的模型不可解释。相关向量回归(relevance vector regression, RVR)方法将特征选择整合到了训练过程中。但是这些方法都只是在单一时间点对于意识评分进行预测,在AD预测中并没有太大用。
我们提出的多任务学习的方法中,每一个任务都只关心单一时间点的预测。多任务学习旨在通过同时学习多重相关任务,提高模型的泛化能力。多任务学习的关键点是发现任务之间的内在联系。对于本文中的疾病,认为一小部分特征具有代表性是合理的。并且,两个连续时间点所对应的意识评分的差距应该小,所以有必要进行时间平滑。所以L2,1范数惩罚用来选一小部分特征,时间平滑项用来减小连续时刻对应的意识评分之间的差距。本文使用ADNI数据集中的三项:MRI影像,CSF和临床诊断评估分数。
在纵向(时间向)AD研究中,本文从多个时间点获取患者意识评分。多任务学习中,在不同任务间的时间平滑信息可以被并入模型中作为先验信息(prior knowledge)。假设在多任务回归问题中,有t个时间点,n个训练样本,每个样本有d个特征。一个简单的线性多任务学习模型可以表示如下:
m i n ( W ) ∣ ∣ X W − Y ∣ ∣ F 2 + θ 1 ∣ ∣ W ∣ ∣ F 2 min_{(W)}||XW-Y||_F^2 + \theta_1||W||_F^2 min(W)∣∣XW−Y∣∣F2+θ1∣∣W∣∣F2
其中X的维度为{n × d} × t,Y的维度为{n × 1} × t, W的维度为d × t。第一项用来衡量训练集上的经验损失(empirical error),第二项用来控制泛化误差。 θ 1 > 0 \theta_1 > 0 θ1>0为正则化参数。 ∣ ∣ . ∣ ∣ F ||.||_F ∣∣.∣∣F是Frobenius范数。上式通常被被称为岭回归(ridge regression)并且具有解析解:
W = ( X T X + θ 1 I ) − 1 X T Y W = (X^TX+\theta_1I)^{-1}X^TY W=(XTX+θ1I)−1XTY
其中I是d × d的单位矩阵。上式的缺点为它将不同时间点认为是相互独立的,所以对于本文所考虑的问题其回归效果并不好(没有考虑时间项约束)。
带有时间平滑项的线性回归模型:
m i n ( W ) ∣ ∣ X W − Y ∣ ∣ F 2 + θ 1 ∣ ∣ W ∣ ∣ F 2 + θ 2 ∑ i = 1 t − 1 ∣ ∣ w i − w i + 1 ∣ ∣ F 2 min_{(W)}||XW-Y||_F^2 + \theta_1||W||_F^2+\theta_2\sum_{i=1}^{t-1}||w^i-w^{i+1}||_F^2 min(W)∣∣XW−Y∣∣F2+θ1∣∣W∣∣F2+θ2i=1∑t−1∣∣wi−wi+1∣∣F2
θ 2 ≥ 0 \theta_2≥0 θ2≥0是用来控制时间平滑的正则化参数。时间平滑项又可以表示为:
∑ i = 1 t − 1 ∣ ∣ w i − w i − 1 ∣ ∣ F 2 = ∣ ∣ W H ∣ ∣ F 2 \sum_{i=1}^{t-1}||w^i-w^{i-1}||_F^2=||WH||_F^2 i=1∑t−1∣∣wi−wi−1∣∣F2=∣∣WH∣∣F2
上式中, H H H的维度为t × t-1,定义如下:
H i j = { 1 i = j − 1 i = j + 1 0 o t h e r w i s e H_{ij}=\left\{ \begin{array}{rcl} 1 & & {i = j}\\ -1 & & {i = j + 1}\\ 0 & & {otherwise}\\ \end{array} \right. Hij=⎩⎨⎧1−10i=ji=j+1otherwise
所以带有时间平滑项的线性回归模型变为:
m i n ( W ) ∣ ∣ X W − Y ∣ ∣ F 2 + θ 1 ∣ ∣ W ∣ ∣ F 2 + θ 2 ∣ ∣ W H ∣ ∣ F 2 min_{(W)}||XW-Y||_F^2 + \theta_1||W||_F^2+\theta_2||WH||_F^2 min(W)∣∣XW−Y∣∣F2+θ1∣∣W∣∣F2+θ2∣∣WH∣∣F2
上式中也存在解析解,首先上式对于W求偏导并令它等于0:
X T X W − X T + θ 1 W + θ 2 W H H T = 0 , ( X T X + θ 1 I d ) W + W ( θ 2 H H T ) = X T Y , \begin{aligned} X^TXW-X^T+\theta_1W+\theta_2WHH^T&=0,\\ (X^TX+\theta_1I_d)W+W(\theta_2HH^T)&=X^TY, \end{aligned} XTXW−XT+θ1W+θ2WHHT(XTX+θ1Id)W+W(θ2HHT)=0,=XTY,
其中 I d I_d Id的维度为d × d。因为 ( X T + θ 1 I d ) (X^T+\theta_1I_d) (XT+θ1Id)和 θ 2 H H T \theta_2HH^T θ2HHT是对称矩阵,所以它们的特征分解为 Q 1 Λ 1 Q 1 T Q_1\Lambda_1Q_1^T Q1Λ1Q1T和 Q 2 Λ 2 Q 2 T Q_2\Lambda_2Q_2^T Q2Λ2Q2T,其中 Λ 1 = d i a g ( λ 1 ( 1 ) , λ 1 ( 2 ) , . . . , λ 1 ( d ) ) \Lambda_1=diag(\lambda_1^{(1)}, \lambda_1^{(2)}, ..., \lambda_1^{(d)}) Λ1=diag(λ1(1),λ1(2),...,λ1(d))和 Λ 2 = d i a g ( λ 2 ( 1 ) , λ 2 ( 2 ) , . . . , λ 2 ( d ) ) \Lambda_2=diag(\lambda_2^{(1)}, \lambda_2^{(2)}, ..., \lambda_2^{(d)}) Λ2=diag(λ2(1),λ2(2),...,λ2(d))是它们的特征值,并且 Q 1 Q_1 Q1和 Q 2 Q_2 Q2是正交的。带入以上两个方程,得到:
Q 1 Λ 1 Q 1 T W + W Q 2 Λ 2 Q 2 T = X T Y , Λ 1 Q 1 T W Q 2 + Q 1 T W Q 2 Λ 2 = Q 1 T X T Y Q 2 , \begin{aligned} Q_1\Lambda_1Q_1^TW+WQ_2\Lambda_2Q_2^T&=X^TY,\\ \Lambda_1Q_1^TWQ_2+Q_1^TWQ_2\Lambda_2&=Q_1^TX^TYQ_2, \end{aligned} Q1Λ1Q1TW+WQ2Λ2Q2TΛ1Q1TWQ2+Q1TWQ2Λ2=XTY,=Q1TXTYQ2,
记 W ^ = Q 1 T W Q 2 \hat W=Q_1^TWQ_2 W^=Q1TWQ2; D = Q 1 T X T Y Q 2 D=Q_1^TX^TYQ_2 D=Q1TXTYQ2。则上式变为 Λ 1 W ^ + W ^ Λ 2 = D \Lambda_1 \hat W+\hat W \Lambda_2=D Λ1W^+W^Λ2=D,所以 W ^ \hat W W^为:
W ^ i j = D i , j λ 1 ( i ) + λ 2 ( j ) \hat W_{ij}=\frac {D_{i, j}} {\lambda_1^{(i)}+\lambda_2^{(j)}} W^ij=λ1(i)+λ2(j)Di,j
所以最优权重矩阵为 W ∗ = Q 1 W ^ Q 2 T W^*=Q_1 \hat W Q_2^T W∗=Q1W^Q2T。
本文尝试将不完整的数据包含进训练数据集中,不完整训练数据指的是部分患者的意识评分在不同时间点可能不完整,此时,带有时间平滑约束的模型不存在解析解。解决这个问题,首先定义一个矩阵 S i , j S_{i,j} Si,j,维度为n × t, i i i为样本序号, j j j为时间点,具体形式为:
S i , j = { 1 v a l u e e x i s t s 0 o t h e r w i s e S_{i,j}=\left\{ \begin{array}{rcl} 1 && {value\ exists}\\ 0 && {otherwise}\\ \end{array} \right. Si,j={10value existsotherwise
则改进后的公式为:
m i n ( W ) ∣ ∣ S ⊙ ( X W − Y ) ∣ ∣ F 2 + θ 1 ∣ ∣ W ∣ ∣ F 2 + θ 2 ∣ ∣ W H ∣ ∣ F 2 min_{(W)}||S \odot (XW-Y)||_F^2 + \theta_1||W||_F^2+\theta_2||WH||_F^2 min(W)∣∣S⊙(XW−Y)∣∣F2+θ1∣∣W∣∣F2+θ2∣∣WH∣∣F2
其中 ⊙ \odot ⊙为矩阵点乘。定义 P r ( . ) P_r(.) Pr(.)为矩阵行数选择。 P r ( A ) P_r(A) Pr(A)只包括 r i ̸ = 0 r_i \not = 0 ri̸=0的 A i A_i Ai,其中 A i A_i Ai是 A A A的第 i i i行。再令 S i S^i Si为 S S S的第 i i i列。则可以得到:
X ( i ) = P S i ( X ) , y ( i ) = P S i ( X i ) \begin{aligned} X_{(i)}&=P_{S^i}(X),\\ y_{(i)}&=P_{S^i}(X^i) \end{aligned} X(i)y(i)=PSi(X),=PSi(Xi)
将改进后的公式对于 w i w^i wi求导并置为0,得到:
A w i − 1 + M i w i + A w i + 1 = T i Aw^{i-1}+M_iw^i+Aw^{i+1}=T_i Awi−1+Miwi+Awi+1=Ti
其中:
A = − θ 2 I d , M i = X ( i ) T X ( i ) + θ 1 I d + 2 θ 2 I d , T i = X ( i ) T y ( i ) \begin{aligned} A &= - \theta_2I_d,\\ M_i &= X_{(i)}^TX_{(i)} + \theta_1I_d + 2 \theta_2I_d,\\ T_i &= X_{(i)}^Ty_{(i)} \end{aligned} AMiTi=−θ2Id,=X(i)TX(i)+θ1Id+2θ2Id,=X(i)Ty(i)
ANDI数据集中包含的数据维度太大,会导致维度灾难。传统降维方法不适合,如PCA会导致模型的不可解释性。传统的特征挑选方法也不适合存在缺失数据的多任务回归。本文提出基于 ℓ 2 , 1 \ell_{2, 1} ℓ2,1范数的惩罚项用于特征选择,目的是希望一小部分具有代表性的特征可以被选择出来。Lasso群正则可以保证所有的回归模型可以共享相同的一部分特征。在之前的公式中加入群正则后,得到:
m i n ( W ) ∣ ∣ S ⊙ ( X W − Y ) ∣ ∣ F 2 + θ 1 ∣ ∣ W ∣ ∣ F 2 + θ 2 ∣ ∣ W H ∣ ∣ F 2 + δ ∣ ∣ W ∣ ∣ 2 , 1 min_{(W)}||S \odot (XW-Y)||_F^2 + \theta_1||W||_F^2+\theta_2||WH||_F^2+\delta||W||_{2,1} min(W)∣∣S⊙(XW−Y)∣∣F2+θ1∣∣W∣∣F2+θ2∣∣WH∣∣F2+δ∣∣W∣∣2,1
此时 ∣ ∣ W ∣ ∣ 2 , 1 = ∑ i = 1 d ∑ j = 1 t W i , j 2 ||W||_{2,1}=\sum_{i=1}^d \sqrt{\sum_{j=1}^tW_{i,j}^2} ∣∣W∣∣2,1=∑i=1d∑j=1tWi,j2。注意这边的2范数并不是矩阵范数(L2谱范数),因为对于 ∣ ∣ W ∣ ∣ 2 , 1 ||W||_{2,1} ∣∣W∣∣2,1是逐行来求,所以这边依旧是向量范数。 δ \delta δ是正则化参数。并且特征先被L2约束,再被L1约束。由于上式同时包含平滑约束和非平滑约束,所以可以用梯度下降进行优化求解。
首先一个需要解决一个问题,选择一定数量的特征用于模型训练。交叉验证可以用于特征选择,但是通常它会需要超过需求数目的特征。本文使用了稳定性选择的方法(Stability Selection)。实验发现所选出的特征对于 θ 1 \theta_1 θ1和 θ 2 \theta_2 θ2不敏感,所以主要精力放在可以控制模型稀疏性的参数 δ \delta δ上。
具体做法如下:首先记 K K K为特征的序号, Δ \Delta Δ为正则化参数 δ \delta δ的集合, γ \gamma γ为迭代次数。首先无放回随机挑选占总体样本数目一半的子样本 B ( j ) B_{(j)} B(j), B ( j ) = { B ( j ) X , B ( j ) Y } B_{(j)}=\{B_{(j)}^X, B_{(j)}^Y \} B(j)={B(j)X,B(j)Y},对于任意给定的 δ > 0 \delta > 0 δ>0,记 W ~ ( j ) \tilde{W}^{(j)} W~(j)为模型在 B ( j ) B_{(j)} B(j)上的最优解。记 U δ ( B ( j ) ) = { k : W ~ ( j ) ̸ = 0 } U^{\delta}(B_{(j)})=\{k:\tilde{W}^{(j)} \not =0 \} Uδ(B(j))={k:W~(j)̸=0}为 W ~ ( j ) \tilde{W}^{(j)} W~(j)挑选的特征。重复 γ \gamma γ次,对于每一个特征都会得到特征稳定性 ∏ ^ k δ \hat{\small \prod}_k^\delta ∏^kδ。
∏ ^ k δ = ∑ j = 1 γ I ( k ∈ U δ ( B ( j ) ) ) γ \hat{\small \prod}_k^\delta=\sum_{j=1}^\gamma \frac {I(k \in U^{\delta}(B_{(j)}))} {\gamma} ∏^kδ=j=1∑γγI(k∈Uδ(B(j)))
其中:
I ( c ) = { 1 c i s t r u e 0 o t h e r w i s e I(c)=\left\{ \begin{array}{rcl} 1 && {c\quad is\quad true}\\ 0 && {otherwise}\\ \end{array} \right. I(c)={10cistrueotherwise
这里 ∏ ^ k δ \hat{\small \prod}_k^\delta ∏^kδ其实计算的是特征k被选中的分数。对于所有的 δ ∈ Δ \delta \in \Delta δ∈Δ,重复以上过程。则对于每一特征都会有一个稳定性分数: S ( k ) = max δ ∈ Δ ( ∏ ^ k δ ) S(k)=\max_{\delta \in \Delta}(\hat{\small \prod}_k^\delta) S(k)=maxδ∈Δ(∏^kδ)。对于稳定特征集合可以定义为: U ^ s t a b l e = { k : S ( k ) 在 K 中 的 前 η 个 } \hat U^{stable}=\{k: S(k)在K中的前\eta个\} U^stable={k:S(k)在K中的前η个},或者可以设定阈值 π t h r \pi_{thr} πthr,则稳定特征集合可以表示为 U ^ s t a b l e = { k : S ( k ) ≥ π t h r } \hat U^{stable}=\{k: S(k) \ge \pi_{thr}\} U^stable={k:S(k)≥πthr}。本文实验证明稳定性分数排前20的特征可以满足本文回归模型的需求。
传统Lasso可能会导致局部最优解。本文提出的算法分为两个阶段。在第一阶段中,使用纵向稳定性特征选择得到 U ^ s t a b l e \hat U^{stable} U^stable。在第二阶段中,基于 U ^ s t a b l e \hat U^{stable} U^stable使用带有时间平滑正则回归。
实验数据集为ADNI,对比算法为岭回归。由于患者数目并不是很多,所以使用留一法。5折交叉验证用于挑选参数( 1 0 − 3 10^{-3} 10−3到 1 0 3 10^{3} 103,本文模型参数为 θ 1 \theta_1 θ1 和 θ 2 \theta_2 θ2),岭回归参数为 θ 1 \theta_1 θ1。P值(correlation significance)和R值(correlation coefficient)作为评价指标。好的模型R值高,P值低。
数据集共计7种,分别为脑脊液特征(CSF,记为C),MRI影像特征(MRI,记为M),患者个人信息及之前意识水平特征(META,记为E)以及它们的集合:CE,EM,CM和CEM。MRI特征主要分为5类:平均皮质厚度(cortical thickness average, CTA),皮质厚度标准差(cortical thickness standard deviation, CTStd),分割后的皮质体积(volume of cortical parcellation, Vol. Cort.),分割后的白质体积(volume of white matter parcellation, Vol. WM.)和表面面积(surface area, Surf. A.),共计313维。
实验结果证明多任务学习效果较好,未来考虑使用非线性模型。