图信号处理学习笔记(3):基于GMRF的图估计

上一篇文章中提及了图信号插值的一种方法,这是基于图已给定的情况。在实际的推荐系统等应用中,不仅要针对未知节点进行预测,还要获得一个良好的,切合训练数据的graph。

Reference:
[1] E. Pavez and A. Ortega, “Generalized Laplacian precision matrix estimation for graph signal processing,” 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, 2016, pp. 6350-6354.
[2] H. E. Egilmez, E. Pavez and A. Ortega, “Graph Learning From Data Under Laplacian and Structural Constraints,” in IEEE Journal of Selected Topics in Signal Processing, vol. 11, no. 6, pp. 825-841, Sept. 2017.
[3] C. Zhang, D. Florencio, and P. A. Chou, “Graph signal processing—A probabilistic framework,” Microsoft Research, WA, USA, Tech. Rep. MSR-TR-2015-31, 2015.

一、优化问题概述

本质上,图学习可以归结为一个矩阵优化求解问题:给定节点集合 V V V和对应的信号集合(训练数据集),估计存在的节点连接 E E E及其权重 w w w,或者换句话说,估计其图描述矩阵 Q Q Q。在文[1]中,以任意的主对角线为正的对称矩阵(例如协方差矩阵 K K K),来输出一个泛化拉普拉斯矩阵(Generalized Laplacian,简称为GL) Q Q QGL矩阵本身只需要满足对称且非对角线的元素为负数或0,对主对角线的元素没有要求。因此,在笔记(1)中提到的拉普拉斯矩阵,标准化拉普拉斯矩阵等,都是GL矩阵的特例

所以,事实上GL矩阵可以由一个满足拉普拉斯矩阵特性的矩阵和一个对角矩阵相加。前者表达了节点与节点之间的关系,后者表达了单个节点自身的隐藏信息。

GL矩阵在这个问题中相比Laplacian和Normalized Laplacian有如下优势:1. 减少约束数量,便于优化。2. 使输出的矩阵更加泛化,能够包含更多节点自身的信息。3. 相比于普通矩阵,GL矩阵依然能满足节点域定理(Nodal Domain Theorem),使得该矩阵能够有实际意义上的频谱分解。节点域定理简单地说,就是能够保证在特征值变大的情况下,特征向量的过零点变多。(也就是实际意义上的高低频的区分)

先来讨论怎样的GL矩阵能够满足要求。以推荐系统为例,我们需要通过图的连接来表述各个用户间的相似程度。两个用户间的连接权值越大,他们的偏好越相似,则他们对特定事物的爱好程度也越相似。由此可见,最后生成的图,要做到在连接权值大的两个节点之间,对数据集达到平滑(Smoothness) 的效果。举例:用户A对物品1的偏好为5,用户B对物品1的偏好为4,用户C的偏好为3,显然A与B之间的相似度要更大,即连接权值要更大,此时可以发现,从偏好5到偏好4没有急剧的变化,这就是达到了平滑的效果。

因此,优化函数的建立,就是要以找到一个使数据集在上面的表现尽可能平滑的图为目标。在笔记(1)中提到,对于单个图信号,要度量其在图上的平滑程度,可以通过瑞利熵(Rayleigh Quotient) 来分析。假定图的Laplacian矩阵为 L \bold L L,则图信号 x i \bold x_i xi L \bold L L中的平滑程度为:
σ i = x i T L x i \sigma_i=\bold x_i^T\bold L\bold x_i σi=xiTLxi

该式的值的范围在 [ λ m i n , λ m a x ] [\lambda_{min},\lambda_{max}] [λmin,λmax]之间,即最小特征值与最大特征值之间。因此,当 σ i \sigma_i σi越小,则图信号 x i \bold x_i xi L \bold L L上越平滑。

那么很明显地,要寻找最优的 L \bold L L在满足GL矩阵的约束的条件下,使得目标函数 f f f最小化。 f f f可定义如下:
f = ∑ i = 1 N σ i = ∑ i = 1 N x i T L x i = t r ( X T L X ) = t r ( L X X T ) = N t r ( L K ) f=\sum_{i=1}^N\sigma_i=\sum_{i=1}^N \bold x_i^T\bold L \bold x_i=tr(\bold X^T\bold L\bold X )=tr(\bold L\bold X\bold X^T)=Ntr(\bold L\bold K) f=i=1Nσi=i=1NxiTLxi=tr(XTLX)=tr(LXXT)=Ntr(LK)

由上式, K = X X T / N \bold K=\bold X\bold X^T/N K=XXT/N即为数据集 X \bold X X在零均值条件下的协方差矩阵。

本文中,整个算法可以归结为一个基于高斯马尔科夫随机场(Gaussian Markov Random Field,GMRF) 的优化问题:一个随机向量 x = ( x 1 , . . . , x n ) T \bold x=(x_1,...,x_n)^T x=(x1,...,xn)T被称为关于图 G = ( V = { 1 , . . . , n } , E ) \mathcal G=(\mathcal V=\{1,...,n\},\mathcal E) G=(V={1,...,n},E)GMRF,假定均值向量为 μ \mu μ,精度矩阵(协方差矩阵 K \bold K K的逆矩阵,满足半正定特性)为 Q \bold Q Q,则随机向量 x \bold x x的概率密度函数为:
p ( x ∣ Q ) = ∣ det ⁡ ( Q ) ∣ 1 / 2 ( 2 π ) N / 2 exp ⁡ ( − 1 2 ( x T − μ ) Q ( x − μ ) ) \bold p(\bold x|\bold Q)=\frac{|\det(\bold Q)|^{1/2}}{(2\pi)^{N/2}}\exp(-\frac12(\bold x^T-\mu)\bold Q(\bold x-\mu))\\ p(xQ)=(2π)N/2det(Q)1/2exp(21(xTμ)Q(xμ))
并且 Q i j \bold Q_{ij} Qij仅在节点 i i i和节点 j j j的边缘存在时(即 E i j ∈ E E_{ij}\in \mathcal E EijE)才不为零。

事实上,对于无向图 G \mathcal G G,令其邻接矩阵为 A ≥ 0 \mathcal A\geq0 A0,在高斯随机场的前提条件下,我们可以用泛化的精度矩阵 Q \bold Q Q来表示图的GL矩阵 L \mathcal L L。这是因为 Q \mathcal Q Q可以与图的邻接矩阵 A \mathcal A A形成一一映射的关系。或者说,一个半正定矩阵可以和一个非负对称矩阵形成一一映射的关系。 其映射方式如下:

定义一个基于 n ∗ n n*n nn的矩阵 W \bold W W n ∗ n n*n nn的矩阵 Q \bold Q Q的映射,使得:
W i j = − Q i j   f o r   a l l   i ≠ j W i i = ∑ i = 1 n Q i j \bold W_{ij}=-\bold Q_{ij}{\rm \ for \ all}\ i \neq j\\ \bold W_{ii}=\sum_{i=1}^{n}\bold Q_{ij} Wij=Qij for all i̸=jWii=i=1nQij

另定义一个 n ∗ n n*n nn的矩阵 Q ^ \hat \bold Q Q^,使其满足:
Q ^ i j = − W i j   f o r   a l l   i ≠ j Q ^ i i = ∑ i = 1 n W i j \hat \bold Q_{ij}=-\bold W_{ij}{\rm \ for\ all} \ i\neq j \\ \hat \bold Q_{ii}=\sum_{i=1}^n\bold W_{ij} Q^ij=Wij for all i̸=jQ^ii=i=1nWij

易证 Q = Q ^ \bold Q=\hat \bold Q Q=Q^

假定 W \bold W W是一个非负对称矩阵,下面证明 Q \bold Q Q是一个半正定矩阵。由笔记(1)可知,定义大小为 ∣ E ∣ × ∣ V ∣ |\mathcal E|\times|\mathcal V| E×V的关联矩阵 R \bold R R,其第 e e e行为 r e T \bold r^T_e reT。假定 E \mathcal E E中的第 e e e条边为 { i e , j e } , i e ≤ j e \{i_e,j_e\},i_e \leq j_e {ie,je}ieje,则对于 i ≠ j i \neq j i̸=j,有:
R e i = { W i e j e   i f   i = i e − W i e j e   i f   i = j e 0      o t h e r w i s e \bold R_{ei}=\left\{ \begin{aligned} \sqrt{\bold W_{i_ej_e}}\ {\rm if}\ i=i_e\\ -\sqrt{\bold W_{i_ej_e}}\ {\rm if}\ i=j_e\\ 0 \ \ \ \ {\rm otherwise} \end{aligned} \right. Rei=Wieje  if i=ieWieje  if i=je0    otherwise

对于 i = j i=j i=j,有:
R e i = { W i e i e   i f   i = i e 0      o t h e r w i s e \bold R_{ei}=\left\{ \begin{aligned} \sqrt{\bold W_{i_ei_e}}\ {\rm if}\ i=i_e\\ 0\ \ \ \ {\rm otherwise} \end{aligned} \right. Rei={Wieie  if i=ie0    otherwise

显然 Q ^ = R T R \hat \bold Q=\bold R^T\bold R Q^=RTR,则对于任意 x \bold x x,有 x T Q ^ x = x T R ^ T R x = ∣ ∣ R x ∣ ∣ 2 ≥ 0 \bold x^T\hat \bold Q \bold x=\bold x^T\hat \bold R^T \bold R \bold x=||\bold R\bold x||^2\geq0 xTQ^x=xTR^TRx=Rx20 Q ^ \hat \bold Q Q^为半正定矩阵得证。

本文中,为了简化问题,将GMRF问题简化为零均值的情况,此时 x \bold x x满足:
p ( x ∣ Q ) = ∣ det ⁡ ( Q ) ∣ 1 / 2 ( 2 π ) N / 2 exp ⁡ ( − 1 2 x T Q x ) \bold p(\bold x|\bold Q)=\frac{|\det(\bold Q)|^{1/2}}{(2\pi)^{N/2}}\exp(-\frac12\bold x^T\bold Q\bold x)\\ p(xQ)=(2π)N/2det(Q)1/2exp(21xTQx)

虽然 Q \bold Q Q一定满足正定,但对于GL矩阵来说,还需要非对角线的元素不为正才能满足节点域定理。因此问题变成了一个极大似然估计问题:
Q ∗ = a r g m a x Q p ( x ∣ Q ) = a r g m a x Q ( l o g d e t ( Q ) − ∑ i x i T Q x i ) = a r g m i n Q ( t r ( K Q ) − l o g d e t ( Q ) ) \bold Q^*={\rm argmax}_\bold Q\bold p(\bold x|\bold Q)\\ ={\rm argmax}_\bold Q({\rm logdet}(\bold Q)-\sum_i\bold x_i^T\bold Q\bold x_i)\\ ={\rm argmin}_\bold Q({\rm tr}(\bold {KQ})-{\rm logdet(\bold Q)}) Q=argmaxQp(xQ)=argmaxQ(logdet(Q)ixiTQxi)=argminQ(tr(KQ)logdet(Q))
包含约束: Q ⪰ 0 \bold Q\succeq0 Q0,且当 i ≠ j i\neq j i̸=j时, Q i j ≤ 0 \bold Q_{ij}\leq0 Qij0

上述优化问题的第一项正巧对应了前文所提的平滑项,因此可以添加一个系数 α ≥ 1 \alpha \geq 1 α1,来控制平滑程度和高斯随机场的比重。

二、优化方法

接下来讨论如何对该函数进行优化。对于 l o g d e t ( Q ) {\rm logdet(\bold Q)} logdet(Q)而言,只有当 Q \bold Q Q为半正定或正定时是凸函数。根据非对角线小于等于零的约束,可以建立Lagrangian函数如下:
L ( Q , Λ ) = − l o g d e t ( Q ) + t r ( K Q ) + t r ( Λ Q ) L(\bold Q,\Lambda)=-{\rm logdet}(\bold Q)+{\rm tr}(\bold {KQ})+{\rm tr}(\bold \Lambda \bold Q) L(Q,Λ)=logdet(Q)+tr(KQ)+tr(ΛQ)

根据KKT条件,满足约束:
λ i j > 0   ,   q i j < 0   i f   i ≠ j λ i j = 0    i f   i = j λ i j q i j = 0 \lambda_{ij}>0\ ,\ q_{ij}<0\ {\rm if}\ i\neq j\\ \lambda_{ij}=0\ \ {\rm if}\ i=j\\ \lambda_{ij}q_{ij}=0 λij>0 , qij<0 if i̸=jλij=0  if i=jλijqij=0

同时,令 ∂ L ∂ Q \frac{\partial L}{\partial \bold Q} QL的偏导数为零,有:
− Q − 1 + K + Λ = 0     -\bold Q^{-1}+\bold K+\bold \Lambda=0\ \ \ Q1+K+Λ=0   

对于 − l o g d e t ( Q ) {\rm -logdet(\bold Q)} logdet(Q)的求导过程如下:
− ∂ ∂ q i j l o g d e t ( Q ) = − 1 d e t ( Q ) ∂ d e t ( Q ) ∂ q i j = − 1 d e t ( Q ) a d j ( Q ) j i = − ( Q − 1 ) j i -\frac{\partial}{\partial q_{ij}}{\rm logdet(\bold Q)}=-\frac{1}{\rm det(\bold Q)}\frac{\partial \rm{det(\bold Q)}}{\partial q_{ij}}=-\frac{1}{\rm det(\bold Q)}{\rm adj}(\bold Q)_{ji}=-(\bold Q^{-1})_{ji} qijlogdet(Q)=det(Q)1qijdet(Q)=det(Q)1adj(Q)ji=(Q1)ji

其中 a d j ( Q ) {\rm adj}(\bold Q) adj(Q) Q \bold Q Q的伴随矩阵,且满足 a d j ( Q ) = d e t ( Q ) Q − 1 {\rm adj}(\bold Q)={\rm det}(\bold Q)\bold Q^{-1} adj(Q)=det(Q)Q1

在文[1]中,引用了Block Coordinate Descent的方法。其优越性在于可以一次更新整列的参数,十分快速。

Q \bold Q Q 2 × 2 2 \times 2 2×2的矩阵块表示:
Q = [ Q 11    q 12 q 12 T     q 22 ] \bold Q=\left[\begin{aligned}\bold Q_{11}\ \ \bold q_{12}\\ \bold q_{12}^T\ \ \ q_{22}\end{aligned}\right] Q=[Q11  q12q12T   q22]

其中 Q 11 \bold Q_{11} Q11 ( n − 1 ) × ( n − 1 ) (n-1)\times(n-1) (n1)×(n1)的子矩阵, q 12 \bold q_{12} q12是长度为 n − 1 n-1 n1的向量, q 22 q_{22} q22是一个常量。如上,可以将 Q − 1 \bold Q^{-1} Q1表示为:
Q − 1 = ( ( Q 11 − q 12 q 12 T q 22 ) − 1    − Q 11 − 1 q 12 c − q 12 T Q 11 − 1 c 1 c           ) \bold Q^{-1}=\left(\begin{aligned}(\bold Q_{11}-\frac{\bold q_{12}\bold q_{12}^T}{q_{22}})^{-1}\ \ -\frac{\bold Q_{11}^{-1}\bold q_{12}}{c}\\-\frac{\bold q_{12}^T\bold Q_{11}^{-1}}{c}\qquad\qquad \frac{1}{c}\ \ \ \ \ \ \ \ \ \end{aligned}\right) Q1=(Q11q22q12q12T)1  cQ111q12cq12TQ111c1         

其中 c = q 22 − q 12 T Q 11 − 1 q 12 c=q_{22}-\bold q_{12}^T\bold Q_{11}^{-1}\bold q_{12} c=q22q12TQ111q12。根据 − Q − 1 + K + Λ = 0 -\bold Q^{-1}+\bold K+\bold \Lambda=0 Q1+K+Λ=0,最后一列的参数满足:
Q 11 − 1 q 12 q 22 − q 12 T Q 11 − 1 q 12 + k 12 + λ 12 = 0     ( 1 ) q 22 − q 12 T Q 11 − 1 q 12 = 1 k 22     ( 2 ) \frac{\bold Q_{11}^{-1}\bold q_{12}}{q_{22}-\bold q_{12}^T\bold Q_{11}^{-1}\bold q_{12}}+\bold k_{12}+\bold \lambda_{12}=0\ \ \ (1)\\ q_{22}-\bold q_{12}^T\bold Q_{11}^{-1}\bold q_{12}=\frac{1}{k_{22}}\ \ \ (2) q22q12TQ111q12Q111q12+k12+λ12=0   (1)q22q12TQ111q12=k221   (2)

然后,将(1)和(2)合并,并根据KKT条件,其同时满足:
Q 11 − 1 q 12 k 22 + k 12 + λ 12 = 0     ( 3 ) λ 12 ≥ 0     ( 4 ) q 12 ≤ 0     ( 5 ) λ 12 ⊙ q 12 = 0     ( 6 ) \bold Q_{11}^{-1}\bold q_{12}k_{22}+\bold k_{12}+\lambda_{12}=0\ \ \ (3)\\ \lambda_{12}\geq0\ \ \ (4)\\\bold q_{12}\leq0\ \ \ (5)\\ \lambda_{12}\odot \bold q_{12}=0\ \ \ (6) Q111q12k22+k12+λ12=0   (3)λ120   (4)q120   (5)λ12q12=0   (6)

其中 ⊙ \odot 表示各元素相乘。

基于更新对象为 q 12 \bold q_{12} q12 q 22 q_{22} q22,将 Q 11 − 1 \bold Q_{11}^{-1} Q111视为已知。根据上述的KKT条件,可以将优化问题改写为偏导数约束对于更新对象的积分(即式(3)的积分),并将拉格朗日乘子移除,得如下目标函数:
min ⁡ q 12 q 12 T Q 11 − 1 q 12 + 1 k 22 q 12 T k 12     ( 7 ) \min\limits _{\bold q_{12}}\bold q_{12}^T\bold Q_{11}^{-1}\bold q_{12}+\frac{1}{k_{22}}\bold q_{12}^T\bold k_{12}\ \ \ (7) q12minq12TQ111q12+k221q12Tk12   (7)

由上式可见,优化问题变成了带非负约束的最小二乘问题。
但是,在(7)中,由于 Q 11 − 1 \bold Q_{11}^{-1} Q111在节点多且非稀疏的情况下,求值是非常麻烦的。所以要设法规避此问题:将式(3)两边同时乘以 Q 11 − 1 \bold Q_{11}^{-1} Q111,得新的约束:
k 22 q 12 + Q 11 ( k 12 + λ 12 ) = 0     ( 8 ) k_{22}\bold q_{12}+\bold Q_{11}(\bold k_{12}+\lambda_{12})=0\ \ \ (8) k22q12+Q11(k12+λ12)=0   (8)

此时,将(4)(5)(6)(8)作为新的一组KKT条件,针对 k 12 + λ 12 k_{12}+\lambda_{12} k12+λ12进行优化,可得优化函数:
min ⁡ λ 12 ≥ 0   ( k 12 + λ 12 ) Q 11 ( k 12 + λ 12 )     ( 9 ) \min\limits_{\lambda_{12}\geq0}\ (\bold k_{12}+\lambda_{12})\bold Q_{11}(\bold k_{12}+\lambda_{12})\ \ \ (9) λ120min (k12+λ12)Q11(k12+λ12)   (9)

上式可由Lagrange Multiplier求解,求得 λ 12 \lambda_{12} λ12后,可根据式(8)求得 q 12 \bold q_{12} q12的值。然后,将式(2)和式(8)化简,以及式(6)的约束,则可求得 q 22 q_{22} q22的值如下:
q 22 = 1 k 22 ( 1 − q 12 T k 12 ) q_{22}=\frac{1}{k_{22}}(1-\bold q_{12}^T\bold k_{12}) q22=k221(1q12Tk12)

以上迭代过程不断重复直到所有的行和列收敛,即可得到最终的图。

三、结果

下图将算法应用到图像的纹理学习上。将原图进行8*8的分块用作训练集进行训练,可以看到总体上能够模拟出纹理的朝向。
图信号处理学习笔记(3):基于GMRF的图估计_第1张图片

你可能感兴趣的:(图信号处理)