Graphx图算法【2】PageRank

PageRank是谷歌提出的用于解决链接分析中网页排名问题的算法,目的是为了对互联网中数以亿计的网页进行排名。

2.1 简介

美国斯坦福大学的Larry Page和Sergey Brin在研究网页排序问题时采用学术界评判论文重要性的方法即看论文的引用量以及引用该论文的论文质量,对应于网页的重要性有两个假设:

  1. 数量假设:如果一个网页A被很多其他网页链接到,则该网页比较重要;
  2. 质量假设如果一个很重要的网页链接到网页A,则该网页的重要性会被提高。

2.2 应用场景

(一)社交应用的相似度内容推荐

通过对微博微信等社交应用进行社交网络分析,可以基于pagerank算法根据用户通常浏览的信息以及停留时间实现基于用户的相似度的内容推荐;

(二)分析用户社交影响力

在社交网络分析时根据用户的PageRank值进行用户影响力分析;

(三)文献重要性研究

根据文献的PageRank值评判该文献的质量,PageRank算法就是基于评判文献质量的想法来实现设计。

PageRank在数据分析和挖掘中有很多的应用。

2.3 算法思路

PageRank计算过程一般包括3步骤:

(1) 为每个节点(网页)设置一个同样的初始PageRank值;

(2)第一次迭代:每个节点得到一个新的PageRank值;

(3)第二次迭代:用这组新的PageRank按不同算法模式对应的公式形成节点自己新的PageRank。

你可能感兴趣的:(Graphx图算法【2】PageRank)