Meta Path 是2011年 Yizhou Sun etc. 提出的 http://www.morganclaypool.com/doi/abs/10.2200/S00433ED1V01Y201207DMK005, 针对异质网络中的相似性搜索。Meta Path 是一条包含relation序列的路径,而这些 relation 定义在不同类型object之间。
- Information Network
信息网络是指一个有向图 G=(V,E), 同时还有一个object类型映射函数 ϕ:V→ ,边类型映射函数 ψ:E→ 。每一个object v∈V , 都有一个特定的object 类型 ϕ(v)∈ ;每一条边 e∈E 都有一个特定的relation ψ(e)∈ 。
异质网络(Heterogeneous Network)指的是object的类型 ||>1 或者relation的类型 |>1| 。
- Network Schema
Network schema,定义为: TG=(,) ,是信息网络 G=(V, E)的一种 meta模板,这个信息网络有一个object类型映射函数 ϕ:V→ 和 link 类型映射函数 ψ:E→ 。信息网络G是一个定义在object类型 上的有向图,并且边是 中的relation。
- Meta-Path
Meta Path 定义在 network schema TG=(,) 上,具体形式为
1⟶12⟶2⋯⟶ll+1
这其实是在节点类型 1,l+1 之间定义了一个组合关系 =1∘2∘⋯∘l 。 ∘ 代表着relation之间的组合操作。
如果在 v1,vl+1 之间的路径 p=(v1,v2,⋯,vl+1) 服从metapath ,那么它必须满足 ∀i,ϕ(vi)=i ,并且每一个link ei=<vi,vi+1> 属于 中对应的 i 。
meta-path 的返定义为 −1 。
两个meta-path 1=(1,2,⋯,l) 和 2=(′1,′2,⋯,′k) 可以拼接,当且仅当 l=′1 。拼接后的路径是 =(1,2) ,等价 (1,2,⋯,l,′2,⋯,′k)
给定一个用户指定的meta-path =(1,2,⋯,l) , 那么在节点对 x∈1,y∈l 上,根据他们之间符合 的路径实例,可以定义几个相似性指标:
- Path Count:在节点x,节点y之间符合meta-path 的路径实例p的数目: s(x,y)=|p:p∈| 。
- Random Walk: s(x,y)是从x节点开始,到y节点结束,服从 的random walk概率。 s(x,y)=∑p∈Prob(p) 。
- Pairwise Random Walk: 一个meta-path 可以被分解为两个较短的但是等长的路径 =(12) , 那么s(x,y)就是从x,y开始到达相同的中间节点的 节点对随机游走 概率。 s(x,y)=∑(p1p2)∈(12)Prob(p1)Prob(p−12) ,其中 Prob(p1) 和 Prob(p−12) 是两条路径实例的随机游走概率。
PahtSim 相似性度量
Path Count 和基于Random Walk 的相似性总是倾向于度大的节点;而Pairwise Random Walk 相似性倾向于集中的(concentrated)节点,即:大多数link连接到一小部分节点。对于PathSim,两个节点相似不仅仅是直接相连的节点,也共享可比的可视性(comparable visibility)。由于对等(peer)关系应该是对称的,因此我们将PathSim 简称为对称元路径。
s(x,y)=2×|{px⇝y:px⇝y∈}||{px⇝x:px⇝x∈}|+|{py⇝y:py⇝y∈}|