某农业大学信息搜索与引擎-第4次实验

  • 基于PageRank的链接分析

链接分析是网络搜索引擎中的一项重要技术。在网页搜索排序时,同时使用基于链接重要性的排序与基于内容相关性的排序可以有效地改善页面的排序结果。

PageRank算法是一个经典算法,来自于google搜索引擎,是一种根据网页之间相互的超链接计算页面级别的方法。它由Larry Page 和 Sergey Brin在20世纪90年代后期发明。由于它解决了网络图中每个节点重要性的量化计算方法,因此在许多可以抽象为网络连接图的应用中得到广泛采用。如计算Web页面的重要性、社交网络中的重要人物识别以及文本中的关键词提取等。

import numpy as np

# 给出页面数
N = 3
# 平滑因子
d = 0.5
# 迭代次数
die = 50

# 给定矩阵
const = (1-d)*N
E = np.zeros((N, N))
E[1-1][2-1] = 1
E[1-1][3-1] = 1
E[2-1][3-1] = 1
E[3-1][1-1] = 1
print(E)

# 定义转移矩阵
C = E.sum(axis=1)
print(C)

# 定义V矩阵,初始的PR值
PR = np.zeros((1, N))
print(PR)

for i in range(die):
    PR = np.dot(PR/C, E) * d + (1 - d) / N

print("final result: " + str(PR))

你可能感兴趣的:(信息搜索与引擎,算法,python,信息检索)