链接分析之随机游走模型和子集传播模型

两个web页面通过hyperlink连接,可以认为这两个页面具有某种关系,在科学文献中这种关系很大程度上可以认为是引用文献与被引用文献在内容、主题上有很多的相似性,并且利用这种引用关系在信息计量学领域可以计算期刊的影响因子。互联网包含了浩瀚的网页,它们之间存在着无数的链接与被链接的关系,同样,我们也可通过分析这些链接,得到某一个网页的重要性得分。许多链接分析算法如PageRank、HITS等都是基于这种思维而创建的。

而绝大多数链接分析算法都是建立在两个概念模型之上:

1.随机游走模型

随机游走模型是针对浏览网页的用户行为建立的抽象概念模型。用户打开浏览器,往往是先输入一个链接,浏览页面,然后顺着页面的链接不断打开新的网页。用户不断重复以上过程,直到用户不再对接下来的页面感兴趣,就有可能直接输入另外一个网址跳转到另外一个页面,这个行为称为远程跳转(Teleporting)(在PageRank中为了防止链接陷阱,即在一个环形的页面组中,只有入链而没有出链,会导致这个环形组中的页面PR值在一轮一轮的迭代中不断的增大,为了解决这一情况,PageRank在这个页面组中使用了远程跳转,即使环形组页面也有一定的几率向外传递分值)。随机游走模型就是一个对直接跳转和远程跳转两种用户浏览行为进行抽象的概念模型。

2.子集传播模型

子集传播模型是《这就是搜索引擎》的作者张俊林从具体的链接分析算法中归纳出的抽象模型,最典型的的就是HITS算法。其基本思想是把互联网网页按照一定规则划分,分为两个甚至是多个子集合。通过给予子集合内的网页初始权值,通过链接关系,把权值传递出去。例如,HITS算法选择集合的方法是:通过用户提交的查询词,在搜索引擎中得到该查询词的检索结果,取排名靠前的前n个网页(如n=200),这n个网页作为root set。在根集root的基础上,对网页集合进行扩充集合base set,扩充原则是:凡是与根集内网页有直接链接指向关系的网页都被扩充到集合base set,无论是有链接指向根集内页面也好,或者是根集页面有链接指向的页面也好,都被扩充进入扩展网页集合base set(参见图1)。HITS算法就是在base集合上进行网页权威的和中心度的计算的。

链接分析之随机游走模型和子集传播模型_第1张图片

你可能感兴趣的:(信息检索)