文献笔记|跨网络节点分类|CDNE|Network Together: Node Classification via Cross-Network Deep Network Embedding

Network Together: Node Classification via Cross-Network Deep Network Embedding

文章目录

  • Network Together: Node Classification via Cross-Network Deep Network Embedding
    • 动机
    • 挑战
    • 方法概述
    • 贡献
    • 问题定义
    • CDNE
      • SAE_s in Source Network
        • 1)保持源网络结构的邻近性
        • 2)标签区分表示
      • SAE_t in Target Network
        • 1)保持目标网络结构邻近性
        • 2)网络不变表示
      • CDNE的优化
      • 解读CDNE学到的嵌入
    • 实验

题目:网络在一起:通过跨网络深度网络嵌入的节点分类

作者:Xiao Shen, Quanyu Dai, Sitong Mao, Fu-lai Chung, Kup-Sze Choi

来源:TNNLS 2020

单位:香港理工大学

动机

节点标签是指分类标签,节点属性表示节点分类的输入要素。直觉上,来自不同网络的相同标记的节点可能更可能具有相似的属性,而不是具有相似的拓扑结构,特别是当节点标记更依赖于同质性效应[27]而不是结构同一性[28]时。例如,属于同一研究领域(即标签)的文章,比如来自不同引用网络的“信息安全”,可能在其标题(即属性)中包括一些共同的关键词,如“隐私、验证、加密、解密和密码术”,而它们在不同的网络中可能具有相当不同的拓扑结构。因此,与仅基于平面网络的算法相比,能够捕捉属性相似性和拓扑邻近性的属性网络嵌入算法应该更适合跨网络节点分类。

挑战

  1. 如何以有原则的方式合并异构数据(例如,网络结构、节点属性和节点标签),使得可以很好地捕捉网络内和跨网络的节点之间的邻近性?
  2. 如何利用和关联来自不同网络的知识来学习尽可能网络不变的节点向量表示,以便减少跨网络的变化的数据分布的问题?

方法概述

本文研究跨网络节点分类问题,目的是利用源网络中丰富的已标记信息来帮助分类目标网络中的未标记节点。为了成功完成这样的任务,应该为不同网络中的节点学习可转移的特征。为此,提出了一种新的跨网络深度网络嵌入(CDNE)模型,以将域适应结合到深度网络嵌入中,从而学习标签区分和网络不变的节点向量表示。

在CDNE,两个栈自动编码器(SAEs),即一个用于源网络的SAE(SAE _ s)和另一个用于目标网络的SAE(SAE _ t),被用来学习用于跨网络节点分类的低维节点向量表示。

  • 一方面,利用网络拓扑结构来捕获网络内节点之间的邻近性。具体而言,SAE_s和SAE_t将分别用于重构源网络和目标网络的关联网络结构邻近矩阵。此外,成对约束被结合到SAE_s和SAE_t中,以在潜在嵌入空间中更接近地嵌入每个网络中更强连接的节点。
  • 另一方面,为了捕捉跨不同网络的节点之间的邻近性,利用跨网络节点属性来预测目标网络中未标记节点的模糊标签。然后,利用可观察标签和预测模糊标签,根据类别信息在网络中对齐节点。

在CDNE模型中,SAE_s首先基于源网络数据被训练,仅通过将属于相同类别的源网络节点映射得更近,而属于完全不同类别的源网络节点彼此远离,以便学习区分标签的节点向量表示。当SAE_s已经收敛,或者已经达到最大训练迭代时,SAE_s将在之后被修正。然后,SAE_s学习的源网络的潜在表示将被用作训练SAE_t的输入的一部分。SAE_t的目标是通过对齐目标网络节点来学习网络不变的节点向量表示,以具有与相同标签相关联的源网络节点的相似表示。最后,标签区分的和网络不变的节点向量表示都可以通过CDNE学习,这对于跨网络节点分类任务非常有益。

贡献

  1. 提出的CDNE模型是第一个将域适应结合到深度网络嵌入中的模型,以解决具有挑战性的跨网络节点分类任务。
  2. 通过联合考虑网络结构、节点属性和节点标签,可以很好地捕捉网络内和跨不同网络的节点之间的邻近性。
  3. 标签区分的和网络不变的节点向量表示可以通过CDNE有效地学习。
  4. 在真实数据集上的大量实验结果表明,CDNE在跨网络节点分类方面明显优于当前最先进的算法。

问题定义

文献笔记|跨网络节点分类|CDNE|Network Together: Node Classification via Cross-Network Deep Network Embedding_第1张图片

G s = ( V s , E s , Y s ) \mathcal{G}^s=(V^s,E^s,Y^s) Gs=(Vs,Es,Ys)一是个完全标记的源网络,有一组全被标记的节点集 V s V^s Vs和边集 E s E^s Es Y s ∈ R n s × C Y^s \in R^{n^s \times \mathbb{C}} YsRns×C是一个与 G s \mathcal{G}^s Gs相关的标签矩阵,其中 n s = ∣ V s ∣ n^s = |V^s| ns=Vs G s \mathcal{G}^s Gs中节点的数量, C \mathbb{C} C是节点类别的数量。如果 v i s ∈ V s v^s_i\in V^s visVs与标签 c c c相关联,则 Y i c s = 1 Y^s_{ic}=1 Yics=1,否则 Y i c s = 0 Y^s_{ic}=0 Yics=0。一个节点可以有多个标签。

G t = ( V t , E t , Y t ) \mathcal{G}^t=(V^t,E^t,Y^t) Gt=(Vt,Et,Yt)是一个有着节点集 V t = { V L t , V U t } V^t=\{V^t_L,V^t_U\} Vt={VLt,VUt}和边集 E t E^t Et的未充分标记的目标网络,其中 n t = ∣ V t ∣ n^t=|V^t| nt=Vt表示 G t \mathcal{G}^t Gt中的节点数量, V L t V^t_L VLt指示非常小的带标签节点的集合, V U t V^t_U VUt代表了 G t \mathcal{G}^t Gt中大得多的未标记节点集合。 Y t ∈ R n t × C Y^t \in R^{n^t \times \mathbb{C}} YtRnt×C G t G^t Gt相关联的可观察的标签矩阵,其中如果 v i t ∈ V t v^t_i \in V^t vitVt有可观察到的标签 c c c,则 Y i c t = 1 Y^t_{ic}=1 Yict=1;否则 Y i c t = 0 Y^t_{ic}=0 Yict=0。由于目标网络具有非常稀少的标记节点,因此可观测标记矩阵 Y t Y^t Yt将相当稀疏。

另外,网络中的节点可以与一些属性相关联。 A s \mathcal{A}^s As A t \mathcal{A}^t At分别表示 G s \mathcal{G}^s Gs G t \mathcal{G}^t Gt的节点属性集合,其中 W s = ∣ A s ∣ \mathbb{W}^s=|\mathcal{A}^s| Ws=As以及 W t = ∣ A t ∣ \mathbb{W}^t=|\mathcal{A}^t| Wt=At表示 G s \mathcal{G}^s Gs G t \mathcal{G}^t Gt中节点属性的数量。来自源网络和目标网络的节点可能不共享相同的属性集,即 A s ≠ A t \mathcal{A}^s \neq \mathcal{A}^t As=At,但是我们可以在 A s \mathcal{A}^s As A t \mathcal{A}^t At之间建立联合集, A = A s ∪ A t \mathcal{A} = \mathcal{A}^s\cup \mathcal{A}^t A=AsAt,其中 W = ∣ A ∣ \mathbb{W} = |\mathcal{A}| W=A表示 G s \mathcal{G}^s Gs G t \mathcal{G}^t Gt之间的联合属性的数量。然后,我们构造两个矩阵作为 A s ∈ R n s × W {\mathcal{A}}^s \in R^{n^s \times \mathbb{W}} AsRns×W A t ∈ R n t × W {\mathcal{A}}^t \in R^{n^t \times \mathbb{W}} AtRnt×W来分别表示与 G s \mathcal{G}^s Gs G t \mathcal{G}^t Gt相关联的节点属性值。 A i w r > 0 , r ∈ { s , t } A^r_{iw} > 0, r \in \{s,t\} Aiwr>0,r{s,t}表示与 G r \mathcal{G}^r Gr中第 i i i个节点关联的第 w w w个属性(在联合属性集 A \mathcal{A} A中)的值,而 A i w r = 0 A^r_{iw} = 0 Aiwr=0表示 A r \mathcal{A}^r Ar中第 i i i个节点与第 w w w个属性(在联合属性集 A \mathcal{A} A中)不关联。

注意,在我们定义的跨网络节点分类问题中,网络维度(即,节点数量),以及网络连接和节点属性的分布可以跨网络变化。但是,这两个网络应该共享同一组节点标签。跨网络嵌入的目标是学习标签区分的和网络不变的节点向量表示,使得来自 G s \mathcal{G}^s Gs的丰富的标签信息可以被成功地利用来帮助分类 G t \mathcal{G}^t Gt中的未标签节点。

CDNE

文献笔记|跨网络节点分类|CDNE|Network Together: Node Classification via Cross-Network Deep Network Embedding_第2张图片

我们使用PPMI度量来度量网络中 K K K步内节点之间的结构邻近性。给定一个网络 G \mathcal{G} G,它的 k k k步转移概率矩阵 T ( k ) ∈ R n × n \mathcal{T}^{(k)}\in R^{n \times n} T(k)Rn×n可以通过[9, 45]得到,其中 n n n G \mathcal{G} G中的节点数, T i j ( k ) \mathcal{T}^{(k)}_{ij} Tij(k)表示在 G \mathcal{G} G中恰好 k k k步之后从节点 v i v_i vi访问节点 v j v_j vj的转移概率,然后,基于一系列 k k k步转移概率矩阵直到最大 K K K步,即 { T r ( k ) } k = 1 K \{\mathcal{T}^{r(k)}\}^K_{k=1} {Tr(k)}k=1K, 我们可以通过对更近的邻域进行加权来聚合整体转移概率矩阵[11] T = ∑ k = 1 K T ( k ) / k \mathcal{T} = \sum^K_{k=1}\mathcal{T}^{(k)}/k T=k=1KT(k)/k。接下来,PPMI [30]度量被用于测量一对节点之间的结构邻近性,如下所示: X i j = max ⁡ ( log ⁡ [ T ‾ i j / ( ∑ g = 1 n T ‾ g j / n ) ] , 0 ) X_{ij} = \max(\log[\overline{\mathcal{T}}_{ij}/(\sum^n_{g=1}\overline{\mathcal{T}}_{gj}/n)], 0) Xij=max(log[Tij/(g=1nTgj/n)],0),其中 T ‾ \overline{\mathcal{T}} T是按行标准化的转移概率矩阵。 X ∈ R n × n X \in R^{n\times n} XRn×n是与网络 G \mathcal{G} G相关联的PPMI矩阵,其中 X i j > 0 X_{ij} > 0 Xij>0当且仅当 v i v_i vi G \mathcal{G} G K K K步内与 v j v_j vj有强网络联系;否则, X i j = 0 X_{ij} = 0 Xij=0

SAE_s in Source Network

1)保持源网络结构的邻近性

SAE由多层基本AE组成,通过将每层AE学习到的隐藏表示连接到AE的连续层的输入。给定源网络的PPMI矩阵,即 X s ∈ R n s × n s X^s \in R^{n^s\times n^s} XsRns×ns作为输入,一个 L L L层SAE_s构造如下:
KaTeX parse error: Expected 'EOF', got '&' at position 11: H^{s(l)} &̲ =f\left(H^{s(l…
KaTeX parse error: Expected 'EOF', got '&' at position 19: …at{H}^{s(l-1)} &̲ =f\left(\hat{H…

其中(1)和(2)分别表示SAE_s的编码和解码过程。

  • H s ( 0 ) = X s H^{s(0)} = X^s Hs(0)=Xs是SAE_s的输入PPMI矩阵。
  • H s ( l ) ∈ R n s × d ( l ) , ∀ 1 ≤ l ≤ L H^{s(l)} \in R^{n^s\times d(l)},\forall 1 \leq l \leq L Hs(l)Rns×d(l)∀1lL表示由SAE_s的第 l l l层学习的潜在网络矩阵表示。
  • d ( l ) d(l) d(l)是SAE_s的第 l l l层的隐藏维度。
  • H s ( l ) H^{s(l)} Hs(l)的第 i i i行表示为 H i s ( l ) ∈ R 1 × d ( l ) H^{s(l)}_i \in R^{1\times d(l)} His(l)R1×d(l),表示 v i s v^s_i vis的潜在节点向量表示。
  • H ^ s ( l ) \hat{H}^{s(l)} H^s(l) H s ( l ) H^{s(l)} Hs(l)的重构矩阵,并且 H ^ s ( L ) = H s ( L ) \hat{H}^{s(L)} = H^{s(L)} H^s(L)=Hs(L)
  • W 1 s ( l ) ∈ R d ( l ) × d ( l − 1 ) , B 1 s ( l ) ∈ R n s × d ( l ) , W 2 s ( l ) ∈ R d ( l − 1 ) × d ( l ) , B 2 s ( l ) ∈ R n s × d ( l − 1 ) W^{s(l)}_1\in R^{d(l)\times d(l-1)}, B^{s(l)}_1\in R^{n^s\times d(l)},W^{s(l)}_2\in R^{d(l-1)\times d(l)}, B^{s(l)}_2\in R^{n^s\times d(l-1)} W1s(l)Rd(l)×d(l1),B1s(l)Rns×d(l),W2s(l)Rd(l1)×d(l),B2s(l)Rns×d(l1)分别指与SAE_s的第 l l l层相关的编码权重、编码bias、解码权重和解码bias矩阵。
  • f f f是一个非线性激活函数,本文采用sigmoid激活函数 f ( x ) = 1 / ( 1 + e − x ) f(x)= 1/(1+e^{-x}) f(x)=1/(1+ex)

通过最小化SAE_s的重构误差,源网络中具有更相似邻域结构的节点将具有更相似的潜在向量表示。此外,为了解决网络稀疏性问题,我们遵循[13]将惩罚矩阵Ps(l)合并到重构误差中,如下所示:
R s ( l ) = 1 2 n s ∣ ∣ P s ( l ) ⊙ ( H ^ s ( l − 1 ) − H s ( l − 1 ) ) ∣ ∣ F 2 (3) \mathcal{R}^{s(l)}=\frac{1}{2n^s}||P^{s(l)}\odot(\hat{H}^{s(l-1)}-H^{s(l-1)})||^2_F \tag{3} Rs(l)=2ns1∣∣Ps(l)(H^s(l1)Hs(l1))F2(3)
其中,如果 H i j s ( l − 1 ) > 0 , P i j s ( l ) = β > 1 H^{s(l-1)}_{ij}> 0, P^{s(l)}_{ij} = \beta>1 Hijs(l1)>0,Pijs(l)=β>1;如果 H i j s ( l − 1 ) = 0 , P i j s ( l ) = 1 H^{s(l-1)}_{ij}=0, P^{s(l)}_{ij} = 1 Hijs(l1)=0,Pijs(l)=1。对于SAE_s的第一层, β \beta β指定非零输入元素(即,强网络连接)的重构误差与零输入元素(即,弱或不可观察的网络连接)的重构误差的惩罚比率。而对于SAE_s的更深的第 l l l ( l > 1 ) (l>1) (l>1),其中所有的输入元素都是正的,我们将 β 2 \beta^2 β2作为权重来重新调整总损失函数中的重构误差。

此外,我们设计成对约束以使更强连接的节点(即,具有更高的网络结构接近度)具有更相似的潜在节点向量表示,如
C s ( l ) = 1 2 n s ∑ i = 1 n s ∑ j = 1 n s X i j s ∣ ∣ H i s ( l ) − H j s ( l ) ∣ ∣ 2 (4) \mathcal{C}^{s(l)}=\frac{1}{2n^s}\sum^{n^s}_{i=1}\sum^{n^s}_{j=1}X^s_{ij}||H^{s(l)}_i-H^{s(l)}_j||^2 \tag{4} Cs(l)=2ns1i=1nsj=1nsXijs∣∣His(l)Hjs(l)2(4)
通过最小化(3)和(4),潜在节点向量表示可以很好地保持源网络内节点之间的网络结构邻近性。

2)标签区分表示

接下来,定义矩阵 O s ∈ R n s × n s O^s \in R^{n^s\times n^s} OsRns×ns来表示 G s G^s Gs中的两个节点是否共享公共标签。具体来说,如果 v i s v^s_i vis v j s v^s_j vjs不共享任何公共标签,则 O i j s = 1 O^s_{ij}=1 Oijs=1 O i j s ≥ 1 O^s_{ij} \geq 1 Oijs1表示 v i s v^s_i vis v j s v^s_j vjs共享的公共标签数。然后,设计以下成对约束来学习标签区分节点向量表示:
L s ( l ) = 1 2 n s ∑ i = 1 n s ∑ j = 1 n s O i j s ∣ ∣ H i s ( l ) − H j s ( l ) ∣ ∣ 2 (5) \mathcal{L}^{s(l)}=\frac{1}{2n^s}\sum^{n^s}_{i=1}\sum^{n^s}_{j=1}O^s_{ij}||H^{s(l)}_i-H^{s(l)}_j||^2 \tag{5} Ls(l)=2ns1i=1nsj=1nsOijs∣∣His(l)Hjs(l)2(5)
最小化(5)使得共享更多公共标签的节点具有更相似的潜在向量表示,同时使得属于完全不同类别的节点具有相当不同的潜在向量表示。

通过整合重构误差(3)、对强连接节点的成对约束(4)、对标记节点的成对约束(5)以及防止过拟合s(l) = (Ws(l) 1 2 F + Ws(l) 2 2 F )/2的L2范数正则化,SAE_s的第l层的总损失函数被定义为
J s ( l ) = R s ( l ) + α s ( l ) C s ( l ) + ψ s ( l ) L s ( l ) + λ s ( l ) Ω s ( l ) (6) \mathcal{J}^{s(l)}=\mathcal{R}^{s(l)}+\mathcal{\alpha}^{s(l)}\mathcal{C}^{s(l)}+\psi^{s(l)}\mathcal{L}^{s(l)}+\mathcal{\lambda}^{s(l)}\Omega^{s(l)} \tag{6} Js(l)=Rs(l)+αs(l)Cs(l)+ψs(l)Ls(l)+λs(l)Ωs(l)(6)
其中, α s ( l ) , ϕ s ( l ) , λ s ( l ) \alpha^{s(l)}, \phi^{s(l)}, \lambda^{s(l)} αs(l),ϕs(l),λs(l)是平衡SAE_s中不同项影响的折衷参数。

SAE_t in Target Network

1)保持目标网络结构邻近性

类似于SAE_s,为SAE_t构建 L L L层SAE。注意,SAE_t的每个 l l l层的隐藏维度,即 d ( l ) , ∀ 1 ≤ l ≤ L d(l),\forall1\leq l\leq L d(l)∀1lL,设置为与SAE_s中相同。SAE_t的输入矩阵是目标网络的PPMI矩阵,即 H t ( 0 ) = X t ∈ R n t × n t H^{t(0)} = X^t\in R^{n^t \times n^t} Ht(0)=XtRnt×nt。注意,SAE_t的输入维数不同于SAE_s,即 n t ≠ n s n^t \neq n^s nt=ns。类似于SAE_s,我们设计重构误差(7)和成对约束(8)以保持目标网络内节点之间的结构邻近性,如下:
R t ( l ) = 1 2 n t ∣ ∣ P t ( l ) ⊙ ( H ^ t ( l − 1 ) − H t ( l − 1 ) ) ∣ ∣ F 2 (7) \mathcal{R}^{t(l)}=\frac{1}{2n^t}||P^{t(l)}\odot(\hat{H}^{t(l-1)}-H^{t(l-1)})||^2_F \tag{7} Rt(l)=2nt1∣∣Pt(l)(H^t(l1)Ht(l1))F2(7)

C t ( l ) = 1 2 n t ∑ i = 1 n t ∑ j = 1 n t X i j t ∣ ∣ H i t ( l ) − H j t ( l ) ∣ ∣ 2 (8) \mathcal{C}^{t(l)}=\frac{1}{2n^t}\sum^{n^t}_{i=1}\sum^{n^t}_{j=1}X^t_{ij}||H^{t(l)}_i-H^{t(l)}_j||^2 \tag{8} Ct(l)=2nt1i=1ntj=1ntXijt∣∣Hit(l)Hjt(l)2(8)

2)网络不变表示

接下来,为了学习网络不变表示,我们需要将为目标网络学习的节点向量表示的分布与源网络的分布进行匹配。在域自适应中,MMD [46]是一种广泛采用的非参数度量,用于测量两个域之间分布的散度。已经表明,在特征表示学习中最小化MMD可以有效地产生域不变表示[46]-[50]。受此启发,我们在SAE_t中引入MMD来学习网络不变的节点向量表示。首先,源网络和目标网络之间的经验边际MMD [50]被定义为
M M t ( l ) = 1 2 ∣ ∣ 1 n s 1 s H s ( l ) − 1 n t 1 t H t ( l ) ∣ ∣ 2 (9) \mathcal{M}^{t(l)}_M=\frac{1}{2}||\frac{1}{n^s}\mathbf{1}^sH^{s(l)}-\frac{1}{n^t}\mathbf{1}^tH^{t(l)}||^2 \tag{9} MMt(l)=21∣∣ns11sHs(l)nt11tHt(l)2(9)
其中 1 s ∈ R 1 × n s \mathbf{1}^s \in R^{1\times n^s} 1sR1×ns 1 t ∈ R 1 × n t \mathbf{1}^t \in R^{1\times n^t} 1tR1×nt表示两个全1的向量。通过最小化(9),为目标网络学习的节点向量表示的边缘分布可以与源网络的边缘分布相匹配。

第二,源网络和目标网络之间的类条件MMD [50]被定义为
M C t ( l ) = ∑ c = 1 C 1 2 ∥ ∑ i = 1 n t Y i c t H i t ( l ) ∑ i = 1 n t Y i c t − ∑ j = 1 n s Y j c s H j s ( l ) ∑ j = 1 n s Y i c s ∥ 2 (10) \mathcal{M}^{t(l)}_C = \sum^{\mathcal{C}}_{c=1}\frac{1}{2} \left\| \frac{\sum^{n^t}_{i=1}Y^t_{ic}H^{t(l)}_i}{\sum^{n^t}_{i=1}Y^t_{ic}} -\frac{\sum^{n^s}_{j=1}Y^s_{jc}H^{s(l)}_j}{\sum^{n^s}_{j=1}Y^s_{ic}} \right\|^2 \tag{10} MCt(l)=c=1C21 i=1ntYicti=1ntYictHit(l)j=1nsYicsj=1nsYjcsHjs(l) 2(10)
其中(10)中的第一项和第二项分别表示由SAE_t的第 l l l层和SAE_s的第 l l l层学习的与 G t G^t Gt G s G^s Gs中的标签 c c c相关联的节点的平均特征向量表示。注意,与具有完全可观察标签的源网络节点不同,目标网络节点仅具有非常稀少的可观察标签。因此,直接利用(10)中的稀疏可观察标签矩阵 Y t Y^t Yt将不能获得足够的统计量来测量目标网络的类条件分布,并且然后不能跨网络映射相同的标签节点以具有相似的潜在向量表示。

已经表明,拓扑网络结构在不同的网络中并不通用[32],[33]。直观上,与拓扑结构相比,节点属性更具有网络不变性,即,跨网络的相同标记节点更可能具有相似的属性,而不是具有相似的拓扑结构。因此,利用较少的特定于网络的属性来捕获跨网络的邻近性将是有益的。具体来说,在本文中,我们建议利用跨网络节点属性来预测目标网络中未标记节点的伪标签。然后,通过根据类别信息将SAE_t学习到的节点向量表示与SAE_s的节点向量表示对齐,可观察节点标签和伪节点标签都将作为捕获跨网络邻近的手段。显然,更准确的伪标签预测会产生更好的跨网络对齐。然而,原始高维节点属性可能包含会降低伪标签预测性能的噪声。为了解决这个问题,我们采用主成分分析(PCA) [51]作为预处理步骤来提取低维(即实验中的128维)属性向量表示。然后,我们基于来自源网络和目标网络的所有标记节点的低维属性向量表示来训练一个1-vs-rest逻辑回归(LR)分类器。接下来,使用分类器来预测目标网络中未标记节点的伪标签。

代替使用伪二进制标签,我们提出利用伪模糊标签来表示属于特定类的每个节点的隶属度。设 Y ^ t \hat{Y}^t Y^t表示目标网络的预测标签矩阵,其中如果 v i t ∈ V U t v^t_i \in V^ t_U vitVUt,则 Y ^ i c t = Y i c t ∈ { 0 , 1 } \hat{Y}^t_{ic} = Y^t_{ic} \in \{0, 1\} Y^ict=Yict{0,1};如果 v i t ∈ V U t v^t_i \in V^t_U vitVUt,则 0 < Y ^ i c t < 1 0 < \hat{Y}^t_{ic} < 1 0<Y^ict<1表示 v i t v^t_i vit被标记为 c c c类的预测概率。接下来,我们在条件MMD损失(10)中用 Y ^ t \hat{Y}^t Y^t替换 Y t Y^t Yt,如下所示:
M C t ( l ) = ∑ c = 1 C 1 2 ∥ ∑ i = 1 n t Y ^ i c t H i t ( l ) ∑ i = 1 n t Y ^ i c t − ∑ j = 1 n s Y j c s H j s ( l ) ∑ j = 1 n s Y i c s ∥ 2 (11) \mathcal{M}^{t(l)}_C = \sum^{\mathcal{C}}_{c=1}\frac{1}{2} \left\| \frac{\sum^{n^t}_{i=1}\hat{Y}^t_{ic}H^{t(l)}_i}{\sum^{n^t}_{i=1}\hat{Y}^t_{ic}} -\frac{\sum^{n^s}_{j=1}Y^s_{jc}H^{s(l)}_j}{\sum^{n^s}_{j=1}Y^s_{ic}} \right\|^2 \tag{11} MCt(l)=c=1C21 i=1ntY^icti=1ntY^ictHit(l)j=1nsYicsj=1nsYjcsHjs(l) 2(11)
注意,在(11)中,指示 v i t v^t_i vit被预测为不太可能被标记为类别 c c c的较小值 Y ^ i c t \hat{Y}^t_{ic} Y^ict,将使得 v i t v^t_i vit对目标网络的类别 c c c的平均潜在向量表示的计数贡献较小。因此,通过利用模糊标签来捕捉不同程度的预测置信度,当对齐跨网络嵌入时,可以降低由较低置信度预测引起的负面影响。通过最小化(11),可观察的和伪标记的目标网络节点都将与和相同标记相关联的源网络节点对齐。此外,应该注意的是,SAE_s中的最小化(5)已经将属于不同类的节点拉得彼此远离。因此,最小化SAE_t中的(11)将同时使不同类别的目标网络节点具有相当不同的潜在向量表示。因此,标签区分和网络不变的节点向量表示可以通过CDNE同时获得。

通过整合重建误差(7)、强连接节点上的成对约束(8)、边缘MMD (9)、类条件MMD (11)和L2范数正则化 Ω t ( l ) = ( ∥ W 1 t ( l ) ∥ F 2 + ∥ W 2 t ( l ) ∥ F 2 ) / 2 \Omega^{t(l)} = (\|W^{t(l)}_1\|^2_F + \|W^{t(l)}_2\|^2_F)/2 Ωt(l)=(W1t(l)F2+W2t(l)F2)/2,SAE_t的第 l l l层的总损失函数被定义为:
J t ( l ) = R t ( l ) + α t ( l ) C t ( l ) + μ t ( l ) M M t ( l ) + γ t ( l ) M C t ( L ) + λ t ( l ) Ω t ( l ) (12) \mathcal{J}^{t(l)}=\mathcal{R}^{t(l)}+\mathcal{\alpha}^{t(l)}\mathcal{C}^{t(l)}+\mu^{t(l)}\mathcal{M}^{t(l)}_M+\gamma^{t(l)}\mathcal{M}^{t(L)}_C+\lambda^{t(l)}\Omega^{t(l)} \tag{12} Jt(l)=Rt(l)+αt(l)Ct(l)+μt(l)MMt(l)+γt(l)MCt(L)+λt(l)Ωt(l)(12)
其中, α t ( l ) , μ t ( l ) , γ t ( l ) , λ t ( l ) \alpha^{t(l)}, \mu^{t(l)}, \gamma^{t(l)}, \lambda^{t(l)} αt(l),μt(l),γt(l),λt(l)是平衡SAE_t中不同项影响的折衷参数。

CDNE的优化

整个CDNE模型可以分三步训练,如算法1所示。

  • Step1: 使用随机梯度下降(SGD)对SAE_s进行分层优化,如[9]和[11]所示。当SAE_s已经收敛,或者已经达到最大训练迭代时,SAE_s将在之后被修正。
  • Step2: 基于PCA提取的低维属性向量表示,可以预测目标网络中未标记节点的模糊标签。
  • Step3: 给定由SAE_s学习的节点向量表示以及作为输入的一部分的可观察和预测的节点标签,SAE_t由SGD逐层优化。最后,由SAE_s和SAE_t学习的最深潜在表示将被用作CDNE的跨网络节点向量表示。训练SAE_s和SAE_t的时间复杂度为 O ( n s c s h i + n t c t h i ) O(n^sc^shi + n^tc^thi) O(nscshi+ntcthi),其中 c s ≪ n s c^s \ll n^s csns c t ≪ n t c^t \ll n^t ctnt分别表示源网络和目标网络中每个节点的强连通邻居( K K K步内)的平均数。 h = d ( 1 ) h = d(1) h=d(1)表示SAE_s和SAE_t中的最大隐藏维数, i i i表示训练迭代次数。PCA的时间复杂度为 O ( W 2 ( n s + n t ) + W 3 ) O(\mathbb{W}^2(n^s + n^t ) + \mathbb{W}^3) O(W2(ns+nt)+W3),其中 W \mathbb{W} W表示源网络和目标网络之间的联合属性个数。CDNE的总体时间复杂度为 O ( n s c s h i + n t c t h i + W 2 ( n s + n t ) + W 3 ) O(n^sc^s hi + n^t c^t hi + \mathbb{W}^2(n^s + n^t ) + \mathbb{W}^3) O(nscshi+ntcthi+W2(ns+nt)+W3)。由于 c s h i c^shi cshi c t h i c^t hi cthi W 2 \mathbb{W}^2 W2 n s + n t n^s + n^t ns+nt无关,因此CDNE的时间复杂度与源网络和目标网络中的节点总数成线性关系。

文献笔记|跨网络节点分类|CDNE|Network Together: Node Classification via Cross-Network Deep Network Embedding_第3张图片

解读CDNE学到的嵌入

一方面,在 G s \mathcal{G}^s Gs中,最小化(3)和(4)使得 K K K步内的强连通节点具有相似的潜在向量表示。此外,最小化(5)产生源网络节点的标签区分潜在向量表示。

另一方面,在 G t \mathcal{G}^t Gt中,对于标记的节点 v i t ∈ V L t v^t_i \in V^t_L vitVLt,根据 v i t v^t_i vit的可观测二进制标签,最小化(11)使得 v i t v^t_i vit具有与 G s \mathcal{G}^s Gs中的相同标签相关联的节点相似的潜在向量表示,根据基于跨网络节点属性的 v i t v^t_i vit的预测模糊标记。对于未标记的节点 v i t ∈ V U t v^t_i \in V^t_U vitVUt,根据基于跨网络节点属性的 v i t v^t_i vit的预测模糊标签,最小化(11)仍然能够使 v i t v^t_i vit具有与 G s \mathcal{G}^s Gs中相同类别的节点相似的潜在向量表示。此外,如果 v i t v^t_i vit K K K步内连接到 V L t V^t_L VLt中的一些标记节点,则最小化(7)和(8)使得 v i t v^t_i vit具有与其在 G t \mathcal{G}^t Gt中的标记邻居相似的潜在向量表示。

通过整合网络结构、节点属性和节点标签,CDNE可以:

  1. 网络内连接更强的节点具有更相似的潜在向量表示,

  2. 与相同标签相关联的节点(在网络内和跨网络)具有相似的潜在向量表示,而与不同标签相关联的节点(在网络内和跨网络)具有不同的潜在向量表示。

利用这种标签区分和网络不变的节点向量表示,利用来自源网络的丰富的标签信息来帮助分类目标网络中的无标签节点是有益的。

实验

文献笔记|跨网络节点分类|CDNE|Network Together: Node Classification via Cross-Network Deep Network Embedding_第4张图片

你可能感兴趣的:(文献笔记,笔记,机器学习,embedding)