DeepWalk概括了语言模型和无监督特征学习(或深度学习)从单词序列到图形的最新进展。 DeepWalk 使用从截断的随机游走中获得的局部信息,通过将游走视为句子的等价物来学习潜在表示。
上图是将karate_klub社交网络编码嵌入后社区结构之间的对应关系。
论文贡献如下:
论文中提出了一种不同的方法来捕获网络拓扑信息。 它没有将标签空间混合作为特征空间的一部分,而是提出了一种无监督的方法,该方法学习捕获独立于标签分布的图结构的特征。
结构表示和标记任务之间的分离避免了在迭代方法中可能发生的级联错误。
从以下几个方面来考虑社区学习:
随机游走(Random Walks):以节点 v i v_i vi为根的随机游走表示为 W v i ⋅ W_{vi·} Wvi⋅
幂率(Power laws):单词出现的频率遵循幂率,若图中节点遵循幂率,则随机游走时邻居节点的出现也遵循幂率
语言模型(Language Modeling):语言建模的目标是估计特定单词序列在语料库中出现的可能性。准确说就是给定一个单词序列 W 1 n = ( w 0 , w 1 , ⋅ ⋅ ⋅ , w n ) W_1^n=(w_0,w_1,···,w_n) W1n=(w0,w1,⋅⋅⋅,wn),其中 w i ∈ V , V w_i∈V,V wi∈V,V是词汇表,我们希望最大化 P r ( w n ∣ w 0 , w 1 , ⋅ ⋅ ⋅ , w n − 1 ) Pr(w_n|w_0,w_1,···,w_{n-1}) Pr(wn∣w0,w1,⋅⋅⋅,wn−1)。
将此模型应用到网络中(节点即为单词),显然有
P r ( v i ∣ ( v 1 , v 2 , ⋅ ⋅ ⋅ , v i − 1 ) ) Pr(v_i|(v_1,v_2,···,v_{i-1})) Pr(vi∣(v1,v2,⋅⋅⋅,vi−1))
我们的目标是学习潜在表示,而不仅仅是节点共现的概率分布,因此引入了映射函数 Φ : v ∈ V → R ∣ V ∣ × d \Phi:v∈V→R^{|V|×d} Φ:v∈V→R∣V∣×d。其中$\Phi $表示与图中每个顶点v相关联的潜在社会表示。此时,问题变成了概率
P r ( v i ∣ ( Φ ( v 1 ) , Φ ( v 2 ) , ⋅ ⋅ ⋅ , Φ ( v i − 1 ) ) ) Pr(v_i|(\Phi (v_1), \Phi(v_2),···,\Phi(v_{i-1}))) Pr(vi∣(Φ(v1),Φ(v2),⋅⋅⋅,Φ(vi−1)))
使用单词来预测内容的语言模型,在建模上产生了优化问题,即最小化
m i n i m i z e − l o g P r ( ( v i − w , ⋅ ⋅ ⋅ , v i + w ) v i ∣ Φ ( v i ) ) minimize \quad -logPr( ({ v_{i-w},···,v_ {i+w}}) \ v_i|Φ(v_i)) minimize−logPr((vi−w,⋅⋅⋅,vi+w) vi∣Φ(vi))
DeepWalk
其中
SkipGram
c
所示。代码第三行计算成本很高,所以使用Hierarchical softmax。顶点分配给二叉树的叶子,将预测问题转化为最大化层次结构中特定路径的概率。如果到顶点 u k u_k uk的路径由一系列树节点 b 0 , b 1 , ⋅ ⋅ ⋅ , b ∣ l o g ∣ V ∣ ∣ , ( b 0 = r o o t , b ∣ l o g ∣ V ∣ ∣ = u k ) b_0,b_1,···,b|log|V||,(b_0=root,b|log|V||=u_k) b0,b1,⋅⋅⋅,b∣log∣V∣∣,(b0=root,b∣log∣V∣∣=uk),则
P r ( u k ∣ Φ ( v j ) ) = ∏ l = 1 l o g ∣ V ∣ P r ( b l ∣ Φ ( v j ) ) Pr(u_k|\Phi (v_j))=\prod_{l=1}^{log|V|}Pr(b_l|\Phi (v_j)) Pr(uk∣Φ(vj))=l=1∏log∣V∣Pr(bl∣Φ(vj))
此时, P r ( b l ∣ Φ ( v j ) ) Pr(b_l|\Phi(v_j)) Pr(bl∣Φ(vj))可以通过分配给节点 b l b_l bl的父节点的二分类器建模,
P r ( b l ∣ Φ ( v j ) ) = 1 / ( 1 + e − Φ ( v j ) ⋅ Ψ ( b l ) ) Pr(b_l|\Phi(v_j))=1/(1+e^{-\Phi(v_j)·\Psi(b_l)}) Pr(bl∣Φ(vj))=1/(1+e−Φ(vj)⋅Ψ(bl))
其中 Ψ ( b l ) ∈ R d 是 分 配 给 \Psi(b_l)∈R^d是分配给 Ψ(bl)∈Rd是分配给 b l b_l bl的父节点的表示。
数据集:BlogCatalog,Flickr,YouTube。
评价指标:Micro-F1
提出的方法意义:
优点:
缺点:
论文:DeepWalk: Online Learning of Social Representations
图的幂律度分布 power-law degree distributios
分层softmax
#机器学习 Micro-F1和Macro-F1详解