大数据挖掘笔记2——PageRank

1.PageRank

PageRank是一个函数,为Web中每个网页赋予一个实数值。PageRank值越高,越重要。

Web转移矩阵:描述随机冲浪者下一步的访问行为。网页数目为n,则M为一个n*n的方阵。网页j有k条出链,则对链向网页i的元素值Mij=1/k。

大数据挖掘笔记2——PageRank_第1张图片大数据挖掘笔记2——PageRank_第2张图片

第一列表示处于A的随机冲浪者将以1/3的概率访问其他3个网页。随机冲浪者位置的概率分布可以通过n维列向量描述,第j个分量代表冲浪者处于网页j的概率。

假设随机冲浪处于n个网页的初始概率相等,即n维向量v0=[1/n,1/n,......,1/n],则下一步的位置概率x = M * v0。最终到达一个极限分布v,满足v=Mv。不断左乘迭代(50-70次)即可。


2.Web结构

终止点问题:没有出链的网页。转移矩阵列之和不为1而为0。不断迭代,随机冲浪者在任何网页出现的概率都为0。

处理方法:

(1)将终止点及其入链剔除。  

(2)“抽税”,允许每个随机冲浪者能够以一个较小的概率随机跳转到一个随机网页。 v‘ = p * Mv + (1-p)e/n ,一个新的冲浪者以(1-p)的概率随机选择一个网页访问。


3.PageRank在搜索引擎的使用

查询中包含词项的网页才会被排序,除PageRank得分外,词项是否在关键位置出现或者在指向当前网页的链接上出现都是被考虑的因素。


4.PageRank快速计算MapReduce实现

稀疏转移矩阵的表示:列出非零元素值及其位置。

PageRank每次的迭代过程中v可能无法在内存存放,将矩阵M分割成垂直条,把v分割成对应的水平条。


5.改进的PageRank

面向主题的PageRank,基于网页的主题加大它们的权重。

每个用户都拥有一个私人的PageRank向量来代表网页在该用户下的重要性。

有偏的随机游走模型:v’ = p * Mv + (1-p)e/|S|    S由已知某个主题的行号或列号构成,例如S = {B,D}。


6.导航页和权威页

导航页:不提供任何主题相关的信息,给出找到该主题的网页。

权威页:提供某个主题相关的信息,具有非常重要的价值。

“一个指向好的权威页的网页是一个好的导航页,一个被好的导航页指向的网页是一个好的权威页”

你可能感兴趣的:(数据挖掘,大数据)