《这就是搜索引擎》——链接分析

简介

  1. 常见的有两大类算法:链接分析和子集传播(作者自己提出的分类);前者最典型的是pr,后者典型的是hilltop和hits
  2. 主流算法之间的演进关系。
    《这就是搜索引擎》——链接分析_第1张图片

pagerank

  • pr是query无关的,可以离线计算,因此性能差一点也可以接受,对于用户的线上体验影响不大,由于随机跳转的存在,比较稳定。
  • 考虑转移矩阵,可不可以不均分出链概率?而是根据链接在页面上的位置等信息来计算?
  • rvp解决了“链接陷阱”的影响,实际上随机转移感觉是非常重要的,因为我个人的使用习惯上大部分是随机转移,基本没有点链接跳转3、4次以上的情况。
  • 如何优雅地理解pagerank

hits

  • 基本假设:
    1. 好的hub会指向很多好的authority
    2. 好的authority会被很多hub指向
    3. 该算法是query相关的,一个query来了之后首先要提交到某个已有的搜索引擎中,得到root集合,然后对其进行扩充得到base集合。在这个集合上迭代计算每个doc的两个数值,直到收敛。
    4. 不足:
    5. 计算效率较低:因为HITS算法是与查询相关的算法,所以必须在接收到用户查询后实时进行计算,而HITS算法本身需要进行很多轮迭代计算才能获得最终结果,这导致其计算效率较低,这是实际应用时必须慎重考虑的问题。
    6. 主题漂移问题:如果在扩展网页集合里包含部分与查询主题无关的页面,而且这些页面之间有较多的相互链接指向,那么使用HITS算法很可能会给予这些无关网页很高的排名,导致搜索结果发生主题漂移,这种现象被称为“紧密链接社区现象”(Tightly-Knit CommunityEffect)。
    7. 易被作弊者操纵结果:作弊者可以建立一个网页,页面内容增加很多指向高质量网页或者著名网站的网址,这就是一个很好的Hub页面,之后作弊者再将这个网页链接指向作弊网页,于是可以提升作弊网页的Authority得分。
    8. 结构不稳定:所谓结构不稳定,就是说在原有的“扩充网页集合”内,如果添加删除个别网页或者改变少数链接关系,则HITS算法的排名结果就会有非常大的改变。
    9. 对比pr
    10. HITS算法是与用户输入的查询请求密切相关的,而PageRank与查询请求无关。所以,HITS算法可以单独作为相似性计算评价标准,而PageRank必须结合内容相似性计算才可以用来对网页相关性进行评价;
    11. HITS算法因为与用户查询密切相关,所以必须在接收到用户查询后实时进行计算,计算效率较低;而PageRank则可以在爬虫抓取完成后离线计算,在线直接使用计算结果,计算效率较高;
    12. HITS算法的计算对象数量较少,只需计算扩展集合内网页之间的链接关系;而PageRank是全局性算法,对所有互联网页面节点进行处理;
    13. 从两者的计算效率和处理对象集合大小来比较,PageRank更适合部署在服务器端,而HITS算法更适合部署在客户端;
    14. HITS算法存在主题泛化问题,所以更适合处理具体化的用户查询;而PageRank在处理宽泛的用户查询时更有优势;
    15. HITS算法在计算时,对于每个页面需要计算两个分值,而PageRank只需计算一个分值即可;在搜索引擎领域,更重视HITS算法计算出的Authority权值,但是在很多应用HITS算法的其它领域,Hub分值也有很重要的作用;
    16. 从链接反作弊的角度来说,PageRank从机制上优于HITS算法,而HITS算法更易遭受链接作弊的影响。
    17. HITS算法结构不稳定,当对“扩充网页集合”内链接关系作出很小改变,则对最终排名有很大影响;而PageRank相对HITS而言表现稳定,其根本原因在于PageRank计算时的“远程跳转”。

salsa

  • 基于上述两个基础算法。salsa有两个大的阶段,第一个阶段是确定计算范围,这一步骤和hits一致;第二步是链接关系传播过程,这一部分主要是随机游走模型。
    1. 首先将第一步得到的文档集合转化为一个二分图,对于出链入链都有的doc,既可以放入hub,也可以放入authority。并且此时的图是无向图,这一点与hits不同。
    2. 然后对于得到的无向图(未完待续)

你可能感兴趣的:(大数据实战,算法,读书笔记,搜索引擎,算法)