UA MATH567 高维统计III 随机矩阵7 亚高斯矩阵的应用:Stochastic Block Model与社区发现 问题描述

UA MATH567 高维统计III 随机矩阵7 亚高斯矩阵的应用:Stochastic Block Model与社区发现

我们来介绍亚高斯矩阵的一个应用:评估社区发现算法的效率。Community detection in networks是一个比较重要的非监督学习问题,这一讲我们用Stochastic Block Model (SBM)来描述一个网络:

假设这个网络有 n n n个节点,网络中有两个社区,它们的规模相当,各拥有 n / 2 n/2 n/2个节点,记这两个社区为 C 1 , C 2 C_1,C_2 C1,C2,我们用 G ( n , p , q ) G(n,p,q) G(n,p,q)表示这个随机网络,其中 p p p表示某条边连接的两个点属于同一个社区的概率, q q q表示某条边连接的两个点属于不同社区的概率,假设 p > q p>q p>q,用 A A A表示这个网络的伴随矩阵,显然它是一个随机矩阵,
P ( A i j = 1 ∣ i , j ∈ C 1   o r   i , j ∈ C 2 ) = p P ( A i j = 1 ∣ i ∈ C 1 , j ∈ C 2   o r   i ∈ C 2 , j ∈ C 1 ) = q P(A_{ij}=1|i,j \in C_1\ or\ i,j \in C_2)=p \\ P(A_{ij}=1|i \in C_1,j \in C_2\ or\ i \in C_2,j \in C_1)=q P(Aij=1i,jC1 or i,jC2)=pP(Aij=1iC1,jC2 or iC2,jC1)=q

Community detection in networks试图回答的问题是寻找一种分割:
C 1 ⊔ C 2 = { 1 , 2 , ⋯   , n } C_1 \sqcup C_2 = \{1,2,\cdots,n\} C1C2={ 1,2,,n}

使得 C 1 , C 2 C_1,C_2 C1,C2分别包含两个不同社区中的节点。


简单分析

我们可以将 A A A分解为它的期望与残差矩阵:
A = E [ A ] + R A = E[A]+R A=E[A]+R

其中
E [ A ] = [ p ⋯ p ⏞ C 1 q ⋯ q ⏞ C 2 p ⋯ p q ⋯ q q ⋯ q p ⋯ p q ⋯ q p ⋯ p ] E[A] = \left[ \begin{matrix} \overbrace{p \cdots p}^{C_1} & \overbrace{q \cdots q}^{C_2 } \\ p \cdots p & q \cdots q \\q \cdots q & p \cdots p\\ q \cdots q & p \cdots p \end{matrix} \right] E[A]=pp C1ppqqqqqq C2qqpppp

不妨假设 n n n是一个偶数,显然 r a n k E [ A ] = 2 rank E[A]=2 rankE[A]=2,它有两个特征值与对应的特征向量: λ 1 = n ( p + q ) 2 , λ 2 = n ( p − q ) 2 u 1 = 1 n [ 1 1 ⋯ 1 1 ] , u 2 = 1 n [ 1 1 ⋯ − 1 − 1 ] \lambda_1=\frac{n(p+q)}{2},\lambda_2 = \frac{n(p-q)}{2} \\ u_1 = \frac{1}{\sqrt{n}} \left[ \begin{matrix} 1 \\ 1 \\ \cdots \\ 1 \\ 1 \end{matrix} \right],u_2 = \frac{1}{\sqrt{n}} \left[ \begin{matrix} 1 \\ 1 \\ \cdots \\ -1 \\ -1 \end{matrix} \right] λ1=2n(p+q),λ2=2n(pq)u1=n 11111,u2=n 11111

其中 u 2 u_2 u2 n / 2 n/2 n/2 1 1 1 n / 2 n/2 n/2 − 1 -1 1 u 2 u_2 u2是一个非常重要的值,对于一般情况,如果一个随机网络中有两个社区,那么它的期望的 u 2 u_2 u2的符号可以指示节点的社区。于是Community detection in networks的目标是给定一个某个随机矩阵的样本数据集,要还原随机矩阵的期望的特征向量

在一般情况下,我们无法算出 E [ A ] E[A] E[A],但我们可以对 A A A做类似的分解:
A = D + R A = D+R A=D+R

其中 D D D表示确定性的部分, R R R代表随机性,假设 R R R是亚高斯矩阵,则
∥ D ∥ = λ 1 ∼ n P ( ∥ R ∥ ≤ C K ( n + t ) ) ≥ 1 − 4 e − t 2 \left\| D\right\| = \lambda_1 \sim n \\ P(\left\| R \right\| \le CK(\sqrt{n}+t)) \ge 1-4e^{-t^2} D=λ1nP(RCK(n +t))14et2

这说明signal D D D比噪声 R R R更强得多,比如取 t = n t=\sqrt{n} t=n ,则
P ( ∥ R ∥ ≤ 2 C K n ) ≥ 1 − 4 e − n P(\left\| R \right\| \le 2CK\sqrt{n}) \ge 1-4e^{-n} P(R2CKn )14en

显然 ∥ D ∥ \left\| D\right\| D的阶比 ∥ R ∥ \left\| R \right\| R大,接下来我们要做的分析是这个随机噪声会对社区发现的结果造成怎样的影响。


摄动方法(perturbation method)
研究一个小噪声矩阵对确定性矩阵的影响,我们可以使用摄动方法,下面先介绍一些需要的结论:

Weyl不等式 对于任意两个矩阵 S , T S,T S,T
max ⁡ i ∣ λ i ( S ) − λ i ( T ) ∣ ≤ ∥ S − T ∥ \max_i|\lambda_i(S)-\lambda_i(T)| \le \left\| S-T \right\| imaxλi(S)λi(T)ST

证明
∀ x ∈ S n − 1 \forall x \in S^{n-1} xSn1,根据三角不等式,
∥ S x ∥ 2 ≤ ∥ T x ∥ 2 + ∥ ( S − T ) x ∥ 2 ≤ ∥ T x ∥ 2 + ∥ S − T ∥ \left\| Sx \right\|_2 \le \left\| Tx \right\|_2 + \left\| (S-T)x \right\|_2 \le \left\| Tx \right\|_2 + \left\| S-T \right\| Sx2Tx2+(ST)x2Tx2+ST

根据Courant-Fischer minimax定理
λ i ( S ) = max ⁡ d i m E = i min ⁡ x ∈ S ( E ) ∥ S x ∥ 2 ≤ max ⁡ d i m E = i min ⁡ x ∈ S ( E ) ∥ T x ∥ 2 + ∥ S − T ∥ ≤ λ i ( T ) + ∥ S − T ∥ ⇒ λ i ( S ) − λ i ( T ) ≤ ∥ S − T ∥ \lambda_i(S) = \max_{dim E = i}\min_{x \in S(E)}\left\| Sx \right\|_2 \\ \le \max_{dim E = i}\min_{x \in S(E)}\left\| Tx \right\|_2 + \left\| S-T \right\| \le \lambda_i(T)+\left\| S-T \right\| \\ \Rightarrow \lambda_i(S) -\lambda_i(T) \le \left\| S-T \right\| λi(S)=dimE=imaxxS(E)minSx2dimE=imaxxS(E)minTx2+STλi(T)+STλi(S)λi(T)ST

类似地,
λ i ( T ) − λ i ( S ) ≤ ∥ S − T ∥ \lambda_i(T) -\lambda_i(S) \le \left\| S-T \right\| λi(T)λi(S)ST

你可能感兴趣的:(#,高维统计,算法,网络,机器学习)