链接分析笔记

PageRank:基于随机游走模型,有两个假设:入链越多,则页面越重要;入链页面越重要,则权重越高。对于页面组成的闭环,容易产生链接陷阱,可以采用远程跳转的方法,即页面以一定概率赋予非出链页面。

HITS 算法:分为Hub页面和Authority页面,有两个假设:好的Authority页面会被很到好的Hub页面指向;好的Hub页面会指向很到好的Authority页面。HITS算法都是在接到用户查询后展开计算的。首先用其它方法找到和查询相关的一些页面组成根集合,所有指向根集合或者被根集合指向的页面都纳入组成页面集合,从此集合中找到Hub和Authority集合。每个页面都有一个Hub值和Authority值,根据出链和入链迭代计算着两个值。存在的问题:实时计算,效率低;容易主题漂移;容易作弊,通过添加多个指向Authority的页面;不稳定,少量页面的修改回严重影响结果。

SALSA算法:同HTIS算法,得到扩展页面集合,再转换为二分图。页面有出链指向集合,则加入Hub集合;页面被集合指向,则加入Authority集合。页面可以同属于两个集合。二分图改为无向图,采用随机游走模型计算。实质是计算Hub和Hub的关系,Authority和Authority的关系。计算Authority的转移矩阵,最终得出的Authority值与以下因素有关:1,与所在连通图的节点数成正比;2,与节点的入链数成正比;3,与节点所在连通图的入度成反比(保证各个连通图的总权值只和连通图集合大小相关)。

主题敏感PageRank:分了16中主题,每个页面针对每一个主题都有一个权值。离线分类计数页面的权值,通过人工选出高质量分类页面,再根据链家关系计算其他页面的本类别的PageRand值;在线计算查询的分类向量,与各个页面的向量相乘可以得到分值。可以用来构建个性化搜索引擎,主要是根据用户的历史查询计算本次查询的类别向量。

Hilltop 算法:从属组织页面,即域名或者ip中有相同部分的页面,否则为非从属组织页面。专家页面:链接所指向的是非从属组织页面,并且是主题相关的。离线搜集专家页面;根据用户输入打分专家页面,利用到了页面的标题、锚文本等信息,根据锚文本计算专家页面出链的权重。计算效率低,精确度高,召回率低。

你可能感兴趣的:(链接分析笔记)