2017.11.5-Node Embedding背景

  本周主要有有两个工作,一是了解算法DeepWalk、LINE、node2vec的背景,二是实现其中一个算法。算法实现还没有完成,主要说一下三个算法的背景。

LINE

  算法在实验时,使用的网络包括语言网络、社交网络和引用网络,共5个网络。其中,语言网络是所有英文维基百科页面的词共现网络,窗口大小为5;社交网络使用了Flickr和YouTube两个社交网络;引用网络则对DBLP中的数据构造了作者引用网络和论文引用网络。
  算法评估时,主要将LINE算法与GF、DeepWalk、Skip-Gram算法进行比较。
  对算法的评估方式是分别运行几个算法,然后使用算法得到的向量表示完成一些任务,通过任务的完成情况,评估算法的优劣。对语言网络进行评估时,进行了word analogy和document classification;对社交网络进行评估时,进行了multi-label classification;对引用网络进行评估时,还是进行multi-label classification。在这些任务的完成情况上,LINE均优于其他算法。
  除了上面提到的实验过程,文章还对算法进行了network layout测试。选择了三个领域的六个会议(每个领域两个会议),构造这些会议发表的文章的共著者网络。先通过不同的算法将网络中的点向量化表示后,再利用t-SNE包点映射到二维空间,绘图,看图是否能表现出网络结构。结果是LINE和DeepWalk明显优于GF,LINE优于DeepWalk。

DeepWalk

  算法在实验时,使用了Blogcatalog、Flickr、YouTube三个有标记的社交网络。与算法SpectralClustering、Modularity、EdgeCluster、wvRN、Majority进行了比较。评估时,利用这些算法和LibLinear包对网络中的节点进行multi-label classification。结果是DeepWalk算法在大多数情况下表现的更好。

node2vec

  node2vec在进行实验时,先使用小说《悲惨世界》中的人物网络(用节点表示小说中的人物,共同出现的人物之间右边,共有77个点和254条边),说明算法结合了点的同构性和同质性,从理论上说明算法的优越性。然后进行实验,与其他算法对比,说明优越性。
  对比算法有Spectral clustering、DeepWalk、LINE。先通过算法得到网络中点的向量表示,然后使用向量表示进行multi-label classification和link prediction,根据结果评估各个算法。评估结果是node2vec优于其他算法。
  在进行multi-label classification时,使用的网络有BlogCatalog和Wikipedia两个社交网络以及Protein-Protein Interactions (PPI)网络。在进行link prediction时,使用是Facebook、Protein-Protein Interactions (PPI)、arXiv ASTRO-PH [14]三个网络。

总结

  从网络的分类上看,三个算法都可以用于有向网络和无向网络,也都可以用于较大规模的网络;从图的内容上看,三个算法也都可以用于各种类型的网络。
  论文中,提到DeepWalk在multi-label classification中的应用,LINE在word analogy、document classification和multi-label classification中的应用,note2vec在multi-label classification和link prediction中的应用。这三个算法应该在论文中提到的这些应用上表现比较好。
  三个算法中提出最早的是DeepWalk,然后是LINE,最后是node2vec。LINE中指出在multi-label classification上的应用已经超过DeepWalk,在其他的应用上,也都优于DeepWalk。不过DeepWalk是解决node Embedding问题的新思路,优化的空间还比较大。node2vec就可以认为是DeepWalk算法的优化,node2vec的论文中又提出一些数据已经超过了LINE。
  总的来看,三个算法不管是针对的网络还是应用,差别不大;DeepWalk算法相对于其他两个算法没有竞争力,node2vec在应用上的数据已经超过LINE,但是LINE的论文中提到的能解决的网络的规模是node2vec比不上的。

你可能感兴趣的:(2017.11.5-Node Embedding背景)