郑瀚Andrew.Hann

PageRank算法初探

1. PageRank的由来和发展历史

0x1：源自搜索引擎的需求

Google早已成为全球最成功的互联网搜索引擎，在Google出现之前，曾出现过许多通用或专业领域搜索引擎。Google最终能击败所有竞争对手，很大程度上是因为它解决了困扰前辈们的最大难题：对搜索结果按重要性排序。而解决这个问题的算法就是PageRank。毫不夸张的说，是PageRank算法成就了Google今天的地位。

1. 搜索引擎的核心框架

从本质上说，搜索引擎是一个资料检索系统，搜索引擎拥有一个资料库（具体到这里就是互联网页面），用户提交一个检索条件（例如关键词），搜索引擎返回符合查询条件的资料列表。

理论上检索条件可以非常复杂，为了简单起见，我们不妨设检索条件是一至多个以空格分隔的词，而其表达的语义是同时含有这些词的资料（等价于布尔代数的逻辑与）。例如，提交“littlehann 博客”，意思就是“给我既含有‘littlehann’又含有‘博客’词语的页面”，以下是Google对这条关键词的搜索结果：

当然，实际上现在的搜索引擎都是有分词机制的，例如如果以“littlehann的博客”为关键词，搜索引擎会自动将其分解为“littlehann 的博客”三个词，而“的”作为停止词（Stop Word）会被过滤掉。

建立一个搜索引擎的核心问题就是以下几个：

1. 建立资料库；
2. 建立一种数据结构，根据关键词找到含有这个词的页面；
3. 将结果按照重要程度排序后呈现给用户；

1）建立资料库

这个问题一般是通过一种叫爬虫（Spider）的特殊程序实现的（专业领域搜索引擎例如某个学术会议的论文检索系统可能直接从数据库建立资料库）。

简单来说，爬虫就是从一个页面出发（例如新浪首页），通过HTTP协议通信获取这个页面的所有内容，把这个页面url和内容记录下来（记录到资料库），然后分析页面中的链接，再去分别获取这些链接链向页面的内容，记录到资料库后再分析这个页面的链接。

上述过程不断重复，就可以将整个互联网的页面全部获取下来（当然这是理想情况，要求整个Web是一个强连通（Strongly Connected），并且所有页面的robots协议允许爬虫抓取页面，为了简单，我们仍然假设Web是一个强连通图，且不考虑robots协议）。

抽象来看，可以将资料库看做一个巨大的key-value结构，key是页面url，value是页面内容。

2）建立一种数据结构，根据关键词找到含有这个词的页面

这个问题是通过一种叫倒排索引（inverted index）的数据结构实现的。

抽象来说倒排索引也是一组key-value结构，key是关键词，value是一个页面编号集合（假设资料库中每个页面有唯一编号），表示这些页面含有这个关键词。

搜索引擎获取“littlehann 博客”查询条件，将其分为“littlehann”和“博客”两个词。

然后分别从倒排索引中找到“littlehann”所对应的集合，假设是{1， 3， 6， 8， 11， 15}；

“博客”对应的集合是{1， 6， 10， 11， 12， 17， 20， 22}，

将两个集合做交运算（intersection），结果是{1， 6， 11}。即寻找同时出现了这2个词的页面。

最后，从资料库中找出1、6、11对应的页面返回给用户就可以了。

3）将结果按照重要程度排序后呈现给用户

上面两个问题解决后，我们很自然会想到，Web页面数量非常巨大，所以一个检索的结果条目数量也非常多，例如上面“littlehann 博客”的检索返回了上万条条结果。用户不可能从如此众多的结果中一一查找对自己有用的信息。

所以，一个好的搜索引擎必须想办法将“质量”较高的页面排在前面。

其实直观上也可以感觉出，在使用搜索引擎时，我们并不太关心页面是否够全（上百万的结果，全不全有什么区别？而且实际上搜索引擎都是取top，并不会真的返回全部结果。），而很关心前一两页是否都是质量较高的页面，是否能满足我们的实际需求。

因此，对搜索结果按重要性合理的排序就成为搜索引擎的最大核心问题。

3.1）早期搜索引擎的做法

1. 不评价
早期的搜索引擎直接按照某自然顺序（例如时间顺序或编号顺序）返回结果。这在结果集比较少的情况下还说得过去，但是一旦结果集变大，用户叫苦不迭，试想让你从几万条质量参差不齐的页面中寻找需要的内容，简直就是一场灾难，这也注定这种方法不可能用于现代的通用搜索引擎。

2. 基于检索词的评价
后来，一些搜索引擎引入了基于检索关键词去评价搜索结构重要性的方法，实际上，这类方法如TF-IDF算法在现代搜索引擎中仍在使用。

3.2）早期搜索引擎遇到的问题 - Term Spam

早期一些搜索引擎基于类似的算法评价网页重要性的。这种评价算法看似依据充分、实现直观简单，但却非常容易受到一种叫“Term Spam”的攻击。

其实从搜索引擎出现的那天起，spammer和搜索引擎反作弊的斗法就没有停止过。Spammer是这样一群人——试图通过搜索引擎算法的漏洞来提高目标页面（通常是一些广告页面、博彩或垃圾页面）的重要性，使目标页面在搜索结果中排名靠前。

现在假设Google单纯使用关键词占比评价页面重要性，而我想让我的博客在搜索结果中排名更靠前（最好排第一）。

那么我可以这么做：在页面中加入一个隐藏的html元素（例如一个div），然后其内容是“littlehann”重复一万次。这样，搜索引擎在计算“littlehann 博客”的搜索结果时，我的博客关键词占比就会非常大（TF-IDF的公式决定了），从而做到排名靠前的效果。

更进一步，我甚至可以干扰别的关键词搜索结果，例如我知道现在欧洲杯很火热，我就在我博客的隐藏div里加一万个“欧洲杯”，当有用户搜索欧洲杯时，我的博客就能出现在搜索结果较靠前的位置。这种行为就叫做“Term Spam”。

早期搜索引擎深受这种作弊方法的困扰，加之基于关键词的评价算法本身也不甚合理，因此经常是搜出一堆质量低下的结果，用户体验大大打了折扣。而Google正是在这种背景下，提出了PageRank算法，并申请了专利保护。此举充分保护了当时相对弱小Google，也使得Google一举成为全球首屈一指的搜索引擎。

Relevant Link:

http://blog.codinglabs.org/articles/intro-to-pagerank.html

2. PageRank算法描述

0x1：PageRank的思想

1. 每一个一个网页本身具有一定的重要性，它的重要性是通过其他网络的链接到该网页来评价的。其他网页链接到该网页可以形象地理解为给这个网页投票。
2. 一个网页的链接会把该网页的重要性传递到链接的网页中，而一个网页的重要性又必须通过链接它的网页来确定。这是一个互相依赖的递归过程。
3. 公平起见，一个网页X若链接了m个网页，那么这m个网页的每个网页接收到的来自网页X的重要性是PR(X)/m。

PageRank算法的目标就是计算每一个网页的PageRank值，然后根据这个值的大小对网页的重要性进行排序。

它的思想是模拟一个悠闲的上网者，上网者首先随机选择一个网页打开，然后在这个网页上呆了几分钟后，跳转到该网页所指向的链接，这样无所事事、漫无目的地在网页上跳来跳去，PageRank就是估计这个悠闲的上网者分布在各个网页上的概率。

0x2：从感性层面认识一个简单pagerank模型

在这个小节我们以一个悠闲上网者的视角来讨论PageRank的算法过程，以便建立起一个感性的概念性认识，方便我们记忆和拦截核心概念。

互联网中的WWW网页可以看出是一个有向图，其中网页是结点。如果网页A有链接到网页B，则存在一条有向边A->B。下面是一个简单的示例：

这个例子中只有四个网页。分别是A、B、C、D。这4个网页分别拥有各自不同的“跳转选择选项”，悠闲上网者在每个网页中，可以往哪一个网页去进行下一跳，是由这个选项规定的。

如果当前在A网页，那么悠闲的上网者将会各以1/3的概率跳转到B、C、D，这里的3表示A有3条出链。如果一个网页有k条出链，那么跳转任意一个出链上的概率是1/k；

同理D到B、C的概率各为1/2；

而B到C的概率为0。

一般用转移矩阵表示上网者的跳转概率（注意，这个跳转概率是在建立网络图的时候就确定好的，后面不会再改变）。

如果用n表示网页的数目，则转移矩阵M是一个n*n的方阵（每一个网页都可能转移到任意的网页，包括它自己）。

如果网页j 有 k 个出链，那么对每一个出链指向的网页i，有M[i][j]=1/k（权重是等分的），而其他网页的M[i][j]=0（没有出链就意味着不给那个网页投票）；

上面示例图对应的转移矩阵的转置如下（注意，下面的矩阵是列向量的形式）：

好了，现在我们已经得到了所有网页的转移矩阵，也即确定了所有网页各自的“跳转选择选项”。接下来要让我们的悠闲上网者开始在网页上不断游走，希望这个上网者通过不断地游走，给出一个最终的评估，对A、B、C、D这4个网页的重要性权重给出一个数值结果。

根据最大熵原则，悠闲上网者对这4个网页的权重没有任何先验知识，所以假设每一个网页的概率都是相等的，即1/n。

于是初试的概率分布就是一个所有值都为1/n的n维列向量V0，用V0去右乘转移矩阵M，就得到了第一步之后上网者的概率分布向量MV0。n x n）* (n x 1)依然得到一个n x 1的矩阵。

M的第一行乘以 V0，表示累加所有网页到网页A的概率即得到9/24；

M的第二行乘以 V0，表示累加所有网页到网页B的概率即得到9/24；

M的第三行乘以 V0，表示累加所有网页到网页C的概率即得到9/24；

M的第四行乘以 V0，表示累加所有网页到网页D的概率即得到9/24；

这一轮结束后，上网者对各个网页的权重值得到了一次调整，从思想上很类似EM优化过程。

可以把矩阵M和向量r相乘当做M的列以向量r为权重进行线性组合，矩阵M同一列的不同行代表该节点向其他节点的分发连接。

得到了V1后，再用V1去右乘M得到V2，一直下去，最终V会收敛，

即Vn=M * V(n-1)。

不断的迭代，最终V = [3/9,2/9,2/9,2/9]'

这个[3/9,2/9,2/9,2/9]'就代表了上网者对这4个网页权重的最终评价。显然，这个权重评价是根据 M矩阵的拟合而来的。

直观上可以这么理解：这个悠闲上网者看到转移矩阵M，他在想，这个M矩阵就代表了当前整个网络的拓朴结构，那么这个拓朴结构背后一定隐含了某种规律，这个规律就是每个网页的权重。这个规则“支撑”着网络成为今天我看到的样本。那我要努力去游走，让我的评价无限接近网络背后的真实规律。恩，加油，我一定行的！

笔者思考：这种渐进收敛的思路，本质上体现了极大似然估计的思想，即从结果反推最有可能产生这个结果的模型参数。笔者建议读者朋友翻出极大似然估计的书籍参照着学习，笔者也有一篇blog讨论了极大似然估计的话题。

0x3：从马尔科夫过程的视角看PageRank

现在我们从马尔科夫过程的角度来看PageRank的训练和收敛过程。关于markvo的讨论，可以参阅另一篇blog。

1. 马尔科夫假设

假设我们在上网的时候浏览页面并选择下一个页面，这个过程与过去浏览过哪些页面无关，而仅依赖于当前所在的页面。这个假设前提符合马尔科夫的有限状态依赖假设。

我们可以把PageRank的这一选择过程可以认为是一个有限状态、离散时间的随机过程，其状态转移规律可用Markov链描述。

2. 概率转移矩阵

在PageRank算法中，网页拓朴间互相链接的邻接矩阵，就对应了概率转移矩阵。

互联网是一个有向图
每一个网页是图的一个顶点
网页间的每一个超链接是图的一个有向边
用邻接矩阵G来表示有向图, 即，若网页j 到网页i 有超链接, 则g_ij=1, 否则为g_ij=0

可以想象，在一个庞大的网络中，邻接矩阵是一个十分庞大有相当稀疏的方阵(用黑色代表1, 用白色代表0)。例如下图：

矩阵中的的空行代表了没有被其他网页链接过，可能代表是新网页（例如新的新闻html页面），或者是异常的恶意url。

定义矩阵G的“列和”与“行和”，在PageRank场景下，概率转移矩阵的“行和”和“列和”是有明确含义的。

1. cj（列和） 是页面j 的导出链接数目。也就是该页面给其他页面的“投票”。当然，在PageRank中，列和是有明确约束的，即一个页面能给其他页面投票的总权重和是1，不能超过1。
2. ri（行和） 是页面 i 的导入链接数目。也就是该页面收到的权重投票。

3. 权重向量计算过程 - 隐状态序列（网页权重向量）收敛过程

在讨论马尔科夫收敛问题前，我们要对PageRank的迭代公式进行一个明确定义。但是，在讨论PageRank公式之前还要先讨论两个在实际中会遇到的问题：

1）Spider Traps问题

，即Spider Traps问题（自循环节点），因为这个问题的存在，导致PageRank的迭代公式需要作出一些变形。

可以预见，如果把真实的Web组织成转移矩阵，那么这将是一个极为稀疏的矩阵。

从矩阵论知识可以推断，极度稀疏的转移矩阵迭代相乘可能会使得向量v变得非常不平滑，即一些节点拥有很大的rank，而大多数节点rank值接近0。

而一种叫做Spider Traps节点的存在加剧了这种不平滑。例如下图：

D有外链所以不是Dead Ends，但是它只链向自己（注意链向自己也算外链，当然同时也是个内链）。这种节点叫做Spider Trap。

如果对这个图进行计算，会发现D的rank越来越大趋近于1（因为每轮迭代它都只给自己投票），而其它节点rank值几乎归零。

2）Dead Ends问题

所谓Dead Ends，就是这样一类节点：它们不存在外链。看下面的图：

注意这里D页面不存在外链，是一个Dead End。

在这个图中，M第四列（D对应的那列）将全为0。在没有Dead Ends的情况下，每次迭代后向量v各项的和始终保持为1，而有了Dead Ends，迭代结果将最终归零。

3）随机转移概率（心灵转移）

为了克服这种由于矩阵稀疏性、Spider Traps、以及Dead Ends带来的问题，需要对PageRank计算方法进行一个平滑处理，具体做法是加入“随机转移概率”。

所谓随机转移，就是我们认为在任何一个页面浏览的用户都有可能以一个极小的概率瞬间转移到另外一个随机页面。

当然，这两个页面可能不存在超链接，随机转移只是为了算法需要而强加的一种纯数学意义的概率数字。

笔者思考：大家仔细体会这种做法的思想，它本质上就是一个结构化风险最小化思想。和在机器学习算法中加入正则项、惩罚项、剪枝；在深度学习中 Dropout 的核心思想都是一致的。我们可以这么来理解，加入了随机转移概率后，每个节点向其他节点转移的概率是不是更加倾向于“均等化”了，这就等于削弱了原本的网络结构的先验特性。

4）PageRank序列迭代公式

加入随机概率转移后，向量迭代公式变为：

其中 β 往往被设置为一个比较小的参数（0.2或更小），它的作用就是在原本模型基础上加入惩罚因子；

e为N维单位向量，加入e的原因是这个公式的前半部分是向量，因此必须将β/N转为向量才能相加。

经过随机转移概率的修正后，整个计算就变得平滑，因为每次迭代的结果除了依赖转移矩阵外，还依赖一个小概率的随机概率转移。

以该图为例：

原始转移矩阵M为：

设β为0.2，则计算公式为：

如果按这个公式迭代算下去，会发现Spider Traps的效应被抑制了，从而每个页面都拥有一个合理的pagerank。

同时，即使是出现了Dead Ends，因为随机概率矩阵的存在，实际的M 也因此不存在为0的行了。

问题得到了完美的解决。

0x4：PR值计算方法

1. 幂迭代法

首先给每个页面赋予随机的PR值，然后通过

用python实现示例代码如下：

# -*- coding: utf-8 -*- from pygraph.classes.digraph import digraph class PRIterator: __doc__ = '''计算一张图中的PR值''' def __init__(self, dg): self.damping_factor = 0.85 # 阻尼系数,即α self.max_iterations = 100 # 最大迭代次数 self.min_delta = 0.00001 # 确定迭代是否结束的参数,即ϵ self.graph = dg def page_rank(self): # 先将图中没有出链的节点改为对所有节点都有出链 for node in self.graph.nodes(): if len(self.graph.neighbors(node)) == 0: for node2 in self.graph.nodes(): digraph.add_edge(self.graph, (node, node2)) nodes = self.graph.nodes() graph_size = len(nodes) if graph_size == 0: return {} # 给每个节点赋予初始的PR值，第一轮的PR值是均等的，即 1/N page_rank = dict.fromkeys(nodes, 1.0 / graph_size) # 公式中的(1−α)/N部分 damping_value = (1.0 - self.damping_factor) / graph_size flag = False for i in range(self.max_iterations): change = 0 for node in nodes: rank = 0 # 遍历所有“入射”的页面 for incident_page in self.graph.incidents(node): # "入射"页面的权重根据其出链个数均分，然后传递给当前页面 rank += self.damping_factor * (page_rank[incident_page] / len(self.graph.neighbors(incident_page))) # 增加随机概率转移矩阵的部分 rank += damping_value change += abs(page_rank[node] - rank) # 绝对值 page_rank[node] = rank print("This is NO.%s iteration" % (i + 1)) print(page_rank) if change < self.min_delta: flag = True break if flag: print("finished in %s iterations!" % node) else: print("finished out of 100 iterations!") return page_rank if __name__ == '__main__': # 创建一个网络拓朴图 dg = digraph() dg.add_nodes(["A", "B", "C", "D", "E"]) dg.add_edge(("A", "B")) dg.add_edge(("A", "C")) dg.add_edge(("A", "D")) dg.add_edge(("B", "D")) dg.add_edge(("C", "E")) dg.add_edge(("D", "E")) dg.add_edge(("B", "E")) dg.add_edge(("E", "A")) # PRrank迭代计算 pr = PRIterator(dg) page_ranks = pr.page_rank() print("The final page rank is\n", page_ranks) 从结果上可以看出两个比较明显的规律： 1. E节点的权重是最高的，因为E的入链最多，这很显然； 2. A节点的权重次之，也很高，因为高权重E节点存在向A节点的入链；

2. 特征值法 我们知道，当Markov链收敛时，必有： 3. 代数法 类似地，当提到Markov链收敛时，必有：

Relevant Link:

http://www.cnblogs.com/fengfenggirl/p/pagerank-introduction.html
https://www.letiantian.me/2014-06-10-pagerank/
https://wizardforcel.gitbooks.io/dm-algo-top10/content/pagerank.html
https://blog.csdn.net/cannel_2020/article/details/7672042
https://blog.csdn.net/Young_Gy/article/details/70169649?utm_source=blogxgwz2
http://blog.codinglabs.org/articles/intro-to-pagerank.html
https://blog.csdn.net/golden1314521/article/details/41597605
https://blog.csdn.net/rubinorth/article/details/52215036
https://blog.csdn.net/leadai/article/details/81230557

4. PageRank的数学原理

0x1：讨论该问题涉及到的几个数学概念

1. Perron - Frobenius定理

设 A = (aij) 是一个 n x n 的正矩阵：，该矩阵有以下几个性质:

1. A 存在一个正实数的特征值，叫做 Perron根或者 Perron - Frobenius特征值，使得其他所有特征值（包括复数特征值）的规模都比它小；

2. 只对应一个特征向量 v；

3. 所对应的特征向量 v 的所有元素都为正实数；

4. 以外的其他特征值所对应的特征向量的元素至少有一个为负数或者复数；

2. 正矩阵（Positive matrix）

每个矩阵元都大于0的矩阵称之为正矩阵；

每个矩阵元都大于等于0的矩阵是非负矩阵（Nonnegative matrix）

3. 素阵（Primitive matrix）

素阵是指自身的某个次幂为正矩阵（Positive matrix）的矩阵。设 A 为一个 n x n 的方阵，如果存在正整数 k 使得矩阵满足：

那么，称矩阵 A 为素矩阵。

4. 随机矩阵（stochastic matrix）

随机矩阵又叫做概率矩阵（probability matrix）、转移矩阵（transition matrix）、马尔科夫矩阵（markov matrix）等。

随机矩阵通常表示左随机矩阵（left stochastic matrix）。

如果方阵为左随机矩阵，则其满足以下条件：

即“列和”为1

5. 不可约矩阵（irreducible matrix）

方阵A 是不可约的，当且仅当与矩阵A 对应的有向图是强连通的。

有向图 G = (V，E) 是强连通的当且仅当对每一节点对，存在 u 到 v 的路径（不一定是直接相连）。

6. 周期图（Periodicity）

说状态 i 是周期的，并且具有周期 k > 1，是指存在一个最小的正整数 k，使得从某状态 i 出发又回到状态 i 的所有路径的长度都是 k 的整数倍。

如果一个状态不是周期的或者 k = 1，那它就是非周期的。

如果一个马尔柯夫链的所有状态都是非周期的，那么就说这个马尔柯夫链是非周期的。

下图所示，从状态1 出发回到状态1 的路径只有一条，即 1-2-3-1，需要的转移次数是3，所以这是一个周期为3 的马尔柯夫链。

0x2：权重向量收敛性问题

1. 权重向量数学公式化表示

我们从排序声望（rank prestige）的角度进一步阐述PageRank的思想：

1. 从一个网页指向另一个网页的超链接是PageRank值的隐含式传递，网页的PageRank值是由指向它的所有的网页所传递过来的PageRank值总和决定的。这样，网页 i 的入链越多，它的PageRank值就越高，它得到的声望就越高。
2. 一个网页指向多个其他网页，那么它传递的声望值就会被它所指向的多个网页分享。也就是说，即使网页 i 被一个PageRank值很高的网页 j 所指向，但是如果网页 i 的出链非常多，网页 i 从网页 j 得到的声望值可能因此被稀释地也很小

我们可以把web网络抽象成一个有向图 G = (V，E)，其中 V 是图的节点集合（一个节点对应一个网页），E 是图的有向边集合（有向边对应超链接）。

设web上的网页总数为 n，即 n = | V |。上述四项可以形式化为：

，i = 1，2....，n

其中 P(i) 表示网页 i 的PageRank值，是网页 j 出链的数量，(j，i) 表示存在网页 j 指向网页 i 的超链接。

从数学的观点看就是存在一个包含 n 个未知量的线性方程组，每个网页的权重都是一个未知量。

可以用一个矩阵来表示，首先作一个符号的约定，用列向量 P 表示 n 个网页的PageRank值，如下：

再用矩阵 A 表示有向图的邻接矩阵，并按如下规则未每条有向边赋值：

例如如下邻接矩阵 A：

我们可以得到如下方程组：

我们的任务是在已知矩阵 A 的条件下，求解向量 P。这个 P 是循环定义的，所以采用幂迭代方法求解 P。

我们定义给定初值，定义是经过第 n 次迭代得到的 P 值，可以形式化如下：

满足上述方程组的解就是。

当然，也可以用马尔柯夫链（markov chain）进行建模，这时就可以看成是markov chain的一个状态（state），A 可以表示状态转移矩阵（state transition matrix），这样就可以转换成马尔柯夫链的遍历性和极限分布问题。

2. 收敛性的充要条件

是否收敛，取决于下面几个条件是否成立：

1. 是否存在？

2. 如果极限存在，它是否与的选取有关？即收敛性是否初始值敏感？

3. 如果极限存在，并且与的选取无关，它作为网页排序的依据是否真的合理？

如果要满足前2个问题， 转移矩阵A 必须满足以下3个条件：

1. 转移矩阵A 必须是随机矩阵；
随机矩阵要求矩阵的每一个行和都为1，即不能出现dead end节点（不存在任何出链的节点），如果web网络拓朴中存在dead end，则原始随机矩阵的条件不能成立。
但是不要忘了，因为随机概率转移矩阵（心灵矩阵）的存在，实际的M不存在为0的行，所以这第一个条件时满足的。

2. 转移矩阵A 是不可约的；
同样的道理，正常的web拓朴不一定能满足完全强连通的条件（因为Dead Ends的存在），但是因为随机概率转移矩阵（心灵矩阵）的存在，这第二个条件也成立

3. 转移矩阵A 是非周期的；
同样因为随机概率转移矩阵（心灵矩阵）的存在，周期性的定义无法满足，所以最终的转移矩阵可以说满足非周期性

上述的3个条件使得收敛性的前两个条件得到了满足。接下来还剩最后一个问题，即'网页排序的依据是否是真的合理'。

这个问题笔者是这么认为的：

所谓的“重要”，其实要看我们的目的是什么。这就跟你买车一样，有的人认为性能重要，就会更看重性能方面的指标；有的人认为颜值重要，就会更关注外观相关的指标。
而 PageRank 的发明场景是互联网网页搜索排序，佩奇认为网页之间的互相链接程度体现了网页的重要性，毕竟互联网的本质就是万物互联，一个孤立存在的网页会被认为是没有价值的，或者很不因特内的。

这又引申出另一个重要的问题，PageRank算法可以直接移植到网络安全攻防检测领域吗？先抛出一个观点：要慎重！就算可以，在大多数情况下，也需要改造原始的算法公式。

实际上，这也是笔者在项目中遇到的最多的一个问题之一。很多很秀的算法，从原理上看，明明是可以适用于网络安全领域，但是当你真的移植到你的业务场景中后，会发现，结果并不是和你预期中那么完美。造成这种问题的根本原因是什么呢？

笔者认为这是因为现在机器学习经典教材中的经典算法，虽然说起来是通用算法，但是其实它们都是因为一些具体的场景被创造出来的，最适合的也是其当初被创造出来的场景。移植到其他的问题领域后，最核心的假设前提可能改变了，算法是否能发挥出原来一样惊艳的作用，也就需要打一个问号了。

所以在实际的项目中，我们需要根据具体场景问题具体分析，对多个算法进行stacking组合，形成一个最合适的pipeline。甚至需要修改原始算法核心公式，为具体问题定制化一个专用的算法。这样才有可能真正发挥出作用。

Relevant Link:

http://www.doc88.com/p-8018027982328.html

5. 基于知乎用户粉丝进行PageRank排名

0x1：数据集

https://pan.baidu.com/s/11I8G8Wnc0W1u8RVHXDjeQA

每一行由 “账户 - 粉丝”组成。

0x2：代码示例

# -*- coding: utf-8 -*-

from pygraph.classes.digraph import digraph
import sqlite3

class PRIterator:
    __doc__ = '''计算一张图中的PR值'''

    def __init__(self, dg):
        self.damping_factor = 0.85  # 阻尼系数,即α
        self.max_iterations = 1000  # 最大迭代次数
        self.min_delta = 0.00001  # 确定迭代是否结束的参数,即ϵ
        self.graph = dg

    def page_rank(self):
        # 先将图中没有出链的节点改为对所有节点都有出链
        for node in self.graph.nodes():
            if len(self.graph.neighbors(node)) == 0:
                for node2 in self.graph.nodes():
                    digraph.add_edge(self.graph, (node, node2))

        nodes = self.graph.nodes()
        graph_size = len(nodes)

        if graph_size == 0:
            return {}
        # 给每个节点赋予初始的PR值，第一轮的PR值是均等的，即 1/N
        page_rank = dict.fromkeys(nodes, 1.0 / graph_size)
        # 公式中的(1−α)/N部分
        damping_value = (1.0 - self.damping_factor) / graph_size

        flag = False
        for i in range(self.max_iterations):
            change = 0
            for node in nodes:
                rank = 0
                # 遍历所有“入射”的页面
                for incident_page in self.graph.incidents(node):
                    # "入射"页面的权重根据其出链个数均分，然后传递给当前页面
                    rank += self.damping_factor * (page_rank[incident_page] / len(self.graph.neighbors(incident_page)))
                # 增加随机概率转移矩阵的部分
                rank += damping_value
                change += abs(page_rank[node] - rank)  # 绝对值
                page_rank[node] = rank

            print("This is NO.%s iteration" % (i + 1))
            print(page_rank)

            if change < self.min_delta:
                flag = True
                break
        if flag:
            print("finished in %s iterations!" % node)
        else:
            print("finished out of 100 iterations!")
        return page_rank



if __name__ == '__main__':
    # 创建一个网络拓朴图
    dg = digraph()

    conn = sqlite3.connect('zhihu.db')
    c = conn.cursor()

    nodes = []
    cursor = c.execute("SELECT DISTINCT user_url, followee_url FROM Following;")
    for row in cursor:
        #print row
        if row[0] not in nodes:
            nodes.append(row[0])
        if row[1] not in nodes:
            nodes.append(row[1])

    # 添加实体节点
    dg.add_nodes(nodes)

    cursor = c.execute("SELECT DISTINCT user_url, followee_url FROM Following;")
    for row in cursor:
        user_url = str(row[0])
        followee_url = str(row[1])
        # 添加实体间link(边)      followee_url -> user_url
        #print "followee_url:{0} -> user_url:{1}".format(followee_url, user_url)
        dg.add_edge((followee_url, user_url))

    conn.close()

    # PRrank迭代计算
    pr = PRIterator(dg)
    page_ranks = pr.page_rank()

    with open("page_ranks.txt", 'w') as fp:
        fp.write(str(page_ranks))

    print("The final page rank is\n", page_ranks)

使用大数据组件进行100轮训练后，得到的pagerank排序结果如下：

node    weight
chengbailao    0.01406879
wind    0.00608487
neaton    0.00568152
jixin    0.00488994
zeng-kai-87    0.004726
yskin    0.00370338
hou-ye-60    0.00326399
followstars    0.00305445
yu-chen-41-39    0.00276672
gmf8541    0.00273379
_zhao_xu_    0.0026574
zhai-huo-18    0.0026528
xushiyuzhihu    0.0025693
yueyihe    0.00212099
peng    0.00210883
bing-hou-20    0.00208451
oogoo    0.00201606
liuya802    0.0018386
mengtoy    0.0018233
yvancao    0.00176921
tang-chen    0.00174643
guo-shu-86-30    0.00168231
bhuztez    0.00165525
wang-wen-ping    0.00164296
chenxix    0.00163695
melinywu    0.0016331
chen-chen-66-21    0.00161215
ihate    0.00156636
stephen-cheng    0.00152092
boxun    0.00148928
wang-wen-ping-27    0.00148886
lxjts    0.0014828
tan-ri-tian    0.00144296
wangxiaofeng    0.00143438
zhong-ye-zi-49    0.0014341
james-swineson    0.00141263
puloon    0.0013969
mym95    0.00139541
lie-feng-2    0.00138813
susus    0.00137226
gymitat    0.00136749
fang-wen-32    0.00135586
joyneop    0.0013496
xuzhihong    0.00134178
qi-yuan-yuan-52    0.00131502
wannian    0.00130875
qiao-yang-76-30    0.00130659
bettercallsaul    0.00129384
du-forever    0.00128617
yuningyichen    0.00128111
xiao-chu    0.00126434
chen-yin-dong    0.00124541
shen0101    0.00124078
liu-yi-han-46    0.00123879
403Forbidden    0.00123664
eodoso    0.00123578
shenpp    0.00123555
dian-qian-du-dian-jian    0.00122604
anyan    0.00121871
qianjin    0.00119378
guaguaguaguaguagua    0.00115795
xie-wei-you    0.00114612
lu-zheng-29-24    0.00113225
yang-hu-85    0.00113176
yuba100    0.00113136
jueshihaojian    0.00112986
whale    0.00111578
fashiontop    0.0011137
cklover    0.00110348
zhu-yixin-42    0.00110276
mcbuder    0.00110074
quiver    0.00110009
lewhwa    0.00110006
zuo-qing-96    0.00108733
niu-yue-lao-li-xiao-chang    0.00108432
patli    0.00108025
sapereaude    0.00107575
hipara    0.00107537
GilgameshK    0.00107137
zkaip    0.00107053
sddcreerf    0.00106716
ling-er-ding-dang    0.00106533
liqiang123    0.00104595
david-du    0.00103702
aguaithefreak    0.00101756
chong    0.00100256
miaomiaomiao    0.00099407
hu-qian-qiu    0.00098814
han-yan-hui    0.00097521
songtsee    0.00096843
sun-peng-70-45    0.00096207
johnsonwang    0.00095147
hu-bi-teng    0.0009501
deutsch-99    0.00092026
lubenyuan.com    0.00091791
shijun    0.00091377
chengyuan    0.00091036
gazhi-liu    0.0008935
luo-li-10    0.00088078

0x3：通过Gephi进行可视化

Relevant Link:

http://www.cnblogs.com/fengfenggirl/p/pagerank-cnblogs.html
https://github.com/BigPeng/cnblogs-user-pagerank
https://www.jianshu.com/p/60ffb949113f
https://www.jianshu.com/p/3b2a1895a12d

你可能感兴趣的:(PageRank算法初探)

机器学习实战笔记5——线性判别分析绍少阿机器学习笔记可视化机器学习 python 人工智能
任务安排1、机器学习导论8、核方法2、KNN及其实现9、稀疏表示3、K-means聚类10、高斯混合模型4、主成分分析11、嵌入学习5、线性判别分析12、强化学习6、贝叶斯方法13、PageRank7、逻辑回归14、深度学习线性判别分析（LDA）Ⅰ核心思想对于同样一件事，站在不同的角度，我们往往会有不同的看法，而降维思想，亦是如此。同上节课一样，我们还是学习降维的算法，只是提供了一种新的角度，由上
Python爬虫入门教程（非常详细）_python爬虫自学 rr8f2haQf python 爬虫 javascript
设k值为3，即每抓取3个页面后，重新计算一次PageRank值。已知有{1,2,3}这3个网页下载到本地，这3个网页包含的链接指向待下载网页{4,5,6}（即待抓取URL队列），此时将这6个网页形成一个网页集合，对其进行PageRank值的计算，则{4,5,6}每个网页得到对应的PageRank值，根据PageRank值从大到小排序，由图假设排序结果为5,4,6，当网页5下载后，分析其链接发现指向
Gemini代码摘抄（一）Graph和init 吃瓜三道杠 Gemini gemini
Graph和init在pagerank.cpp中对图进行初始化：Graph*graph;graph=newGraph();具体实现在graph.hpp中，设置threads和sockets，其中threads—cpus—partitions，sockets—nodes—machines，threads_per_socket表示每个节点（机器）上分到的线程数（分区数）：Graph(){threads
大数据Hadoop生态圈技术之浅析PageRank计算原理 A尚学堂Nancy老师
一、什么是PageRank？——PageRank是Google提出的算法，用于衡量特定网页相对于搜索引擎索引中的其他网页而言的重要程度。——是Google创始人拉里·佩奇和谢尔盖·布林于1997年创造的——PageRank实现了将链接价值概念作为排名因素。二、计算环境——Hadoop-2.5.2——四台主机——两台NN的HA——两台RM的HA——离线计算框架MapReduce三、计算原理（1）思考
个性推荐算法初探崔玉龑
--以下内容于2017年3月2日记录于本人产品微博：http://weibo.com/cuibenbenpm最近对推荐算法突然感了兴趣，就去查了一些资料，发现好多文章技术性强，很难理解，那么在这我就用一些更形象的说法为你解释一下那些比还了解你自己的推荐算法（以笔记本电脑为例）。1、基于人口统计学推荐：跟你有相同性别、年龄的人喜欢用超薄（机型），估计你也喜欢。2、基于内容的推荐：你以前用过超薄，我告
Spark GraphX原理介绍 tanglizhe1105 Spark spark GraphX 图计算
背景现实应用中，数据内部可能存在较高的关联度，如图模型应用。在对这样的数据进行处理时，并行计算框架就会面临较大的挑战，会引入大量的数据连接（join）和聚合（aggregation）操作，带来大量的计算和数据迁移，严重消耗集群资源，因此对此类算法的优化就显得极为重要。互联网上网页权值计算的PageRank算法是一个典型的图模型问题，它依据网页之间的链接指向关系来判断网页的重要性，指向一个网页的链接
网页搜索排名算法简介 skyshandianxia 网络算法
佩奇排名（PageRank）算法是由Google的创始人拉里·佩奇（LarryPage）和谢尔盖·布林（SergeyBrin）在1990年代后期提出的一种用于网页排名的计算方法，它是早期Google搜索引擎的核心组成部分。该算法旨在通过分析互联网上网页之间的链接结构来评估网页的重要性或权威性。佩奇排名的基本原理是：1.**链接即投票**：每个网页都可以看作是对它所链接到的页面投了一票。如果一个网页
#NLP|TextRank #使用 TextRank 算法为文本生成关键字和摘要向日葵花籽儿 NLP 深度学习算法数据库 TextRank NLP
TextRank算法基于PageRank，用于为文本生成关键字和摘要。其论文是：MihalceaR,TarauP.TextRank:Bringingorderintotexts[C].AssociationforComputationalLinguistics,2004.先从PageRank讲起在浅入浅出：PageRank算法这篇博客中我做过简要的介绍，这里再补充一下。PageRank最开始用来计
开源元数据管理平台Amundsen安装贾斯汀玛尔斯 hadoop 大数据生态数据湖开源大数据
Amundsen是一个用于数据发现和元数据管理的开源平台。Amundsen是一个用于提高数据分析师、数据科学家和工程师在与数据交互时的生产力的数据发现和元数据引擎。目前，它通过索引数据资源（表、仪表板、流等）并基于使用模式（例如，高频查询的表会比低频查询的表更早显示）提供类似于PageRank的搜索来实现这一目标。可以将其视为数据的Google搜索。该项目以挪威探险家RoaldAmundsen命名
十七挑战者 Google 亚瑟王666
美国规定。股东超过五百人，经济达到一定规模，即使不上市，也必须在第二年的大约4.28公布财报。一般员工都有股份，所以会超500人。所以谷歌基本是被逼上市的。佩奇布林，CEO施密特。谷歌上市分三次融资，融了80亿，才稀释了10%的股权，史上最成功的上市行动。谷歌学习了巴菲特双重股权的办法，让内部人一直掌握着投票权。百度也学他了。谷歌以前就有搜索引擎，不过他们查得都不准。佩奇布林发明了pagerank
揭秘网络影响力：Neo4j中的PageRank算法应用陈救驾来迟- 图数据库 neo4j 数据库
PageRank是Google创始人LarryPage和SergeyBrin在1996年提出的一个链接分析算法，用于衡量网页的重要性。在图数据科学中，PageRank算法可以帮助我们识别网络中的关键节点。本文将详细介绍如何在Neo4j图数据库中实现PageRank算法，并探讨其在社交网络分析、搜索引擎优化和网络安全评估等领域的应用。网络影响力的度量：PageRank算法PageRank算法通过分析
数学建模--PageRank算法的Python实现温柔济沧海数学建模数学建模算法 python 图论
文章目录1.PageRankPageRankPageRank算法背景2.PageRankPageRankPageRank算法基础2.1.PageRankPageRankPageRank问题描述2.2.有向图模型2.3.随机游走模型3.PageRankPageRankPageRank算法定义3.1.PageRankPageRankPageRank算法基本定义3.2.PageRankPageRankP
【学习笔记】- PageRank算法以及相关的算法变形 Michelle F 算法数据结构
PageRank算法以及相关的算法变形pagerankPageRank算法的基本概念和目标PageRank算法是一种用于网页排序的算法，他是有Google创始人拉里·佩奇和谢尔盖·布林于1998年提出。该算法的基本思想是基于有向图上的随机游走模型，这是一个一阶的马尔可夫链。PageRank描述了一种随机游走者如何在图中的边进行随机移动，从一个节点访问到另一个节点的过程。在一定条件下，这种随机游走过
代码随想录day31 贪心算法初探 nahiyil 贪心算法算法
个人理解就像卡哥视频里说的一样，感觉贪心算法确实没什么固定的套路，唯一的思路就是求局部最优解然后推广到全局最优解，但是什么是局部最优解，这个需要慢慢做题来摸索总结，有点像调参，蛮玄学的，纯考脑子455.分发饼干题目假设你是一位很棒的家长，想要给你的孩子们一些小饼干。但是，每个孩子最多只能给一块饼干。对每个孩子i，都有一个胃口值g[i]，这是能让孩子们满足胃口的饼干的最小尺寸；并且每块饼干j，都有一
CMA-ES 算法初探 UQI-LIUWJ 演化学习机器学习算法人工智能矩阵
1进化算法在学习最优模型参数的时候，梯度下降并不是唯一的选择。在我们不知道目标函数的精确解析或者不能直接计算梯度的情况下，进化算法是有效的。进化算法的灵感来源于自然选择，具有有利于生存的特征的个体可以世代生存，并将好的特性传给下一代；具有不利于生存的特正的个体则会被不断淘汰，最后减少甚至消失。进化是在选择过程中逐渐发生的，进化使得种群可以更好地适应环境。下面这张图可以很好地解释进化算法的想法，一开
常用图算法实现--Spark zealscott
使用Spark实现PageRank，强连通分量等图算法PageRank数据准备边：1211523242526273134251151261676871788189810914911011013111211112113141412151网页：123456789101112131415将这两个文件放入HDFS：hdfsdfs-mkdirinput/PageRankhdfsdfs-putlinks.tx
【同济子豪兄斯坦福CS224W中文精讲】PageRank算法自律版光追 #图神经网络算法图机器学习图学习学习笔记 pagerank
文章目录理解PageRank的五个角度迭代求解线性方程组迭代左乘M矩阵矩阵的特征向量随机游走马尔可夫链求解PageRankPageRank收敛性分析修改M得到G考虑节点相似度的PageRank算法参考资料互联网的图表示网页是节点，网页之间的连接是边（这是二三十年前的互联网图表示现在的互联网更加复杂的点在于首先网页本身是动态生成的、存在私域的爬虫不可触达的网页内容、网页之间的关系变得复杂是交互式的而
【数学建模】图论模型自律版光追数学建模数学建模图论最大流最短路最小生成树 NetworkX python
文章目录图的基础理论及networkx简介图的基本概念图的表示及Networkx简介图的表示NetworkX简介最短路算法及其Python实现固定起点到其余各点的最短路算法每对顶点间的最短路算法最短路应用最小生成树算法及其networkx实现基本概念最小生成树算法最小生成树应用匹配问题最大流最小费用问题基本概念最小费用流问题PageRank算法复杂网络简介复杂网络概况图的基础理论及networkx
大数据实战——基于Hadoop的Mapreduce编程实践案例的设计与实现 ZShiJ 虚拟机大数据 hadoop mapreduce
基于Hadoop的Mapreduce编程实践案例的设计与实现一、数据排序案例的设计与实现1.1设计思路1.2实践过程1.3成果展示+数据可视化分析二、求数据平均值案例的设计与实现2.1设计思路2.2实践过程2.3编写java程序并运行文件2.4成果展示+数据可视化分析三、基于hadoop的PageRank算法实现3.1设计思路3.2实践过程3.3成果展示3.4数据的可视化分析一、数据排序案例的设计
HDFS和MapReduce综合实训柔雾 hdfs mapreduce hadoop
文章目录第1关：WordCount词频统计第2关：HDFS文件读写第3关：倒排索引第4关：网页排序——PageRank算法第1关：WordCount词频统计测试说明以下是测试样例：测试输入样例数据集：文本文档test1.txt和test2.txt文档test1.txt中的内容为：taleasoldastimetrueasitcanbebeautyandthebeast文档test2.txt中的内容
数据处理---之---网页排序算法楊建业大数据与人工智能网页排序算法 PageRank 谷歌搜索网页排序算法 TD-IDF BM25算法词频统计逆文档频率链接分析智能化排序算法
一.网页排序算法二.网页排序算法分类1基于访问量的排序算法2基于词频统计和词语位置加权的排序算法3基于链接分析的排序算法4基于智能化的排序算法三.TD-IDF算法1词频(TermFrequency,TF)2逆文档频率(InverseDocumentFrequency,IDF)四.BM25算法五.PageRank算法一.网页排序算法在能将“包含某关键字的网页迅速查找出来”之后，另一个问题出现在我们面
讲解：CSC3021、Java、Concurrent Programming、JavaHaskell|R wafang
ThePageRankProblemHansVandierendonckCSC3021ConcurrentProgramming,2018–’19PageRankisGoogle’salgorithmtorankthesearchresultsthatmatchthequeriedkeywords[1].Thealgorithmmodelstheinternetasadirectedgraphwh
图神经网络--GNN从入门到精通小白学习记录深度学习人工智能深度学习图论算法
图神经网络--GNN从入门到精通一、图的基本表示和特征工程1.1什么是图1.2图的基本表示1.3图的性质--度（degree)1.4连通图，连通分量1.5有向图连通性1.6图直径1.7度中心性1.7特征中心性（EigenvectorCentrality）1.8中介中心性BetweennessCentrality、1.9连接中心性Closeness1.10PageRank1.10HITS二、图神经网
面向搜索引擎优化初学者的 Google PageRank 网站优化知识宝典 SEO 搜索引擎 Google SEO 谷歌 seo 搜索引擎优化
即使你认为搜索已经摆脱了PageRank的影响，但时至今日，PageRank很可能仍然存在于许多搜索巨头的系统中。PageRank曾经是搜索的核心，也是谷歌成为今天这个帝国的基础。即使你认为搜索已经脱离了PageRank，但不可否认的是，PageRank长期以来一直是搜索行业的一个普遍概念。每一位搜索引擎优化专家都应该很好地掌握PageRank的过去和现在。本文将介绍什么是PageRank？Pag
机器学习笔记--PageRank算法北航程序员小C 机器学习专栏深度学习专栏人工智能学习专栏机器学习笔记算法
斯坦福大学CS224W图机器学习笔记学习参考CS224W公开课：双语字幕斯坦福CS224W《图机器学习》课程(2021)byJureLeskove官方课程主页：官方主页子豪兄精讲：斯坦福CS224W图机器学习、图神经网络、知识图谱同济子豪兄子豪兄公开代码：同济子豪兄CS224W公开课基于图的项目：读论文、搜论文、做笔记、吐槽论文的社区：ReadPaper可以画出来论文之间的应用关系：CONNECT
机器学习笔记--PageRank 北航程序员小C 人工智能学习专栏机器学习专栏深度学习专栏机器学习笔记人工智能
斯坦福大学CS224W图机器学习笔记学习参考CS224W公开课：双语字幕斯坦福CS224W《图机器学习》课程(2021)byJureLeskove官方课程主页：官方主页子豪兄精讲：斯坦福CS224W图机器学习、图神经网络、知识图谱同济子豪兄子豪兄公开代码：同济子豪兄CS224W公开课基于图的项目：读论文、搜论文、做笔记、吐槽论文的社区：ReadPaper可以画出来论文之间的应用关系：CONNECT
谷歌PageRank图算法在金融客户营销中的应用中原银行技术团队中原银行技术团队
谷歌PageRank图算法在金融客户营销中的应用一、PageRank算法原理介绍二、PageRank算法代码实现三、PageRank算法在金融中的应用万物皆有源—PageRank算法起源提及PageRank算法，还得从搜索界的老大哥google说起。PageRank，顾名思义网页排名，是一种根据网页之间相互的超链接计算的技术，这个算法的发明者之一是谷歌的CEO拉里·佩奇(LarryPage),所以
Decision tree(决策树)算法初探 weixin_30426957
0.算法概述决策树(decisiontree)是一种基本的分类与回归方法。决策树模型呈树形结构(二分类思想的算法模型往往都是树形结构)0x1：决策树模型的不同角度理解在分类问题中，表示基于特征对实例进行分类的过程，它可以被看作是if-then的规则集合；也可以被认为是定义在特征空间与类空间上的条件概率分布1.if-then规则集合决策树的属性结构其实对应着一个规则集合：由决策树的根节点到叶节点的每
.gov 链接是 Google 排名因素吗？网站优化知识宝典 SEO seo 搜索引擎 SEO Google 网站排序算法
很多公司都愿意向你出售.gov链接，但它们在谷歌的搜索排名算法中真的更有价值吗？几乎只要我们有搜索引擎，链接就被认为是网络的货币。链接到您网站的人可以说明您的关联、与特定主题和地区的相关性、可信度等。当高权威、值得信赖的网站链接到您的网页时，您可以通过将PageRank转移到您的页面而从这种隐含的认可中受益。人们仍然坚持认为.gov链接比其他类型的链接更有价值和可取，很多人都愿意花你的钱来建立它们
【图神经网络】在节点分类任务中无特征节点的特征表示 qq_42725437 GNN 神经网络分类人工智能
无特征节点的特征表示节点度数degreepagerank以pagerank起源的应用场景为例，不是所有的网站都是同等重要的，所以需要根据结构信息对节点进行排序。直觉上，如果一个网站它有很多链接，它就很重要，举例来说，一个网站有很多射入链接，那么，它比一个只有一个射入链接的网站重要，但是对于射入网站的网站的重要性也是不同的。一个重要网址的给到的vote分值是很高的，链接的vote值正比于它的来源网站
Js函数返回值 _wy_ js return
一、返回控制与函数结果，语法为：return 表达式;作用: 结束函数执行，返回调用函数，而且把表达式的值作为函数的结果二、返回控制语法为：return;作用: 结束函数执行，返回调用函数，而且把undefined作为函数的结果在大多数情况下,为事件处理函数返回false,可以防止默认的事件行为.例如,默认情况下点击一个<a>元素,页面会跳转到该元素href属性
MySQL 的 char 与 varchar bylijinnan mysql
今天发现，create table 时，MySQL 4.1有时会把 char 自动转换成 varchar 测试举例： CREATE TABLE `varcharLessThan4` ( `lastName` varchar(3) ) ; mysql> desc varcharLessThan4; +----------+---------+------+-
Quartz——TriggerListener和JobListener eksliang TriggerListener JobListener quartz
转载请出自出处：http://eksliang.iteye.com/blog/2208624 一.概述 listener是一个监听器对象，用于监听scheduler中发生的事件，然后执行相应的操作；你可能已经猜到了，TriggerListeners接受与trigger相关的事件，JobListeners接受与jobs相关的事件。二.JobListener监听器 j
oracle层次查询 18289753290 oracle；层次查询；树查询
.oracle层次查询(connect by) oracle的emp表中包含了一列mgr指出谁是雇员的经理，由于经理也是雇员，所以经理的信息也存储在emp表中。这样emp表就是一个自引用表，表中的mgr列是一个自引用列，它指向emp表中的empno列，mgr表示一个员工的管理者， select empno,mgr,ename,sal from e
通过反射把map中的属性赋值到实体类bean对象中酷的飞上天空 javaee 泛型类型转换
使用过struts2后感觉最方便的就是这个框架能自动把表单的参数赋值到action里面的对象中但现在主要使用Spring框架的MVC，虽然也有@ModelAttribute可以使用但是明显感觉不方便。好吧，那就自己再造一个轮子吧。原理都知道，就是利用反射进行字段的赋值，下面贴代码主要类如下： import java.lang.reflect.Field; imp
SAP HANA数据存储：传统硬盘的瓶颈问题蓝儿唯美 HANA
SAPHANA平台有各种各样的应用场景，这也意味着客户的实施方法有许多种选择，关键是如何挑选最适合他们需求的实施方案。在《Implementing SAP HANA》这本书中，介绍了SAP平台在现实场景中的运作原理，并给出了实施建议和成功案例供参考。本系列文章节选自《Implementing SAP HANA》，介绍了行存储和列存储的各自特点，以及SAP HANA的数据存储方式如何提升空间压
Java Socket 多线程实现文件传输随便小屋 java socket
高级操作系统作业，让用Socket实现文件传输，有些代码也是在网上找的，写的不好，如果大家能用就用上。客户端类： package edu.logic.client; import java.io.BufferedInputStream; import java.io.Buffered
java初学者路径 aijuans java
学习Java有没有什么捷径?要想学好Java，首先要知道Java的大致分类。自从Sun推出Java以来，就力图使之无所不包，所以Java发展到现在，按应用来分主要分为三大块：J2SE,J2ME和J2EE,这也就是Sun ONE(Open Net Environment)体系。J2SE就是Java2的标准版，主要用于桌面应用软件的编程；J2ME主要应用于嵌入是系统开发，如手机和PDA的编程；J2EE
APP推广 aoyouzi APP 推广
一，免费篇 1，APP推荐类网站自主推荐最美应用、酷安网、DEMO8、木蚂蚁发现频道等,如果产品独特新颖，还能获取最美应用的评测推荐。PS：推荐简单。只要产品有趣好玩，用户会自主分享传播。例如足迹APP在最美应用推荐一次，几天用户暴增将服务器击垮。 2，各大应用商店首发合作老实盯着排期，多给应用市场官方负责人献殷勤。 3，论坛贴吧推广百度知道，百度贴吧，猫扑论坛，天涯社区，豆瓣（
JSP转发与重定向百合不是茶 jsp servlet Java Web jsp转发
在servlet和jsp中我们经常需要请求,这时就需要用到转发和重定向; 转发包括;forward和include 例子;forwrad转发; 将请求装法给reg.html页面关键代码; req.getRequestDispatcher("reg.html
web.xml之jsp-config bijian1013 java web.xml servlet jsp-config
1.作用：主要用于设定JSP页面的相关配置。 2.常见定义： <jsp-config> <taglib> <taglib-uri>URI(定义TLD文件的URI,JSP页面的tablib命令可以经由此URI获取到TLD文件)</tablib-uri> <taglib-location> TLD文件所在的位置
JSF2.2 ViewScoped Using CDI sunjing CDI JSF 2.2 ViewScoped
JSF 2.0 introduced annotation @ViewScoped; A bean annotated with this scope maintained its state as long as the user stays on the same view(reloads or navigation - no intervening views). One problem w
【分布式数据一致性二】Zookeeper数据读写一致性 bit1129 zookeeper
很多文档说Zookeeper是强一致性保证，事实不然。关于一致性模型请参考http://bit1129.iteye.com/blog/2155336 Zookeeper的数据同步协议 Zookeeper采用称为Quorum Based Protocol的数据同步协议。假如Zookeeper集群有N台Zookeeper服务器(N通常取奇数，3台能够满足数据可靠性同时
Java开发笔记白糖_ java开发
1、Map<key,value>的remove方法只能识别相同类型的key值 Map<Integer,String> map = new HashMap<Integer,String>(); map.put(1,"a"); map.put(2,"b"); map.put(3,"c"
图片黑色阴影 bozch 图片
.event{ padding:0; width:460px; min-width: 460px; border:0px solid #e4e4e4; height: 350px; min-heig
编程之美-饮料供货-动态规划 bylijinnan 动态规划
import java.util.Arrays; import java.util.Random; public class BeverageSupply { /** * 编程之美饮料供货 * 设Opt（V’，i）表示从i到n-1种饮料中，总容量为V’的方案中，满意度之和的最大值。 * 那么递归式就应该是：Opt（V’，i）=max{ k * Hi+Op
ajax大参数（大数据）提交性能分析 chenbowen00 Web Ajax 框架浏览器 prototype
近期在项目中发现如下一个问题项目中有个提交现场事件的功能，该功能主要是在web客户端保存现场数据（主要有截屏，终端日志等信息）然后提交到服务器上方便我们分析定位问题。客户在使用该功能的过程中反应点击提交后反应很慢，大概要等10到20秒的时间浏览器才能操作，期间页面不响应事件。根据客户描述分析了下的代码流程，很简单，主要通过OCX控件截屏，在将前端的日志等文件使用OCX控件打包，在将之转换为
[宇宙与天文]在太空采矿,在太空建造 comsci
我们在太空进行工业活动...但是不太可能把太空工业产品又运回到地面上进行加工,而一般是在哪里开采,就在哪里加工,太空的微重力环境,可能会使我们的工业产品的制造尺度非常巨大.... 地球上制造的最大工业机器是超级油轮和航空母舰,再大些就会遇到困难了,但是在空间船坞中,制造的最大工业机器,可能就没
ORACLE中CONSTRAINT的四对属性 daizj oracle CONSTRAINT
ORACLE中CONSTRAINT的四对属性 summary:在data migrate时,某些表的约束总是困扰着我们,让我们的migratet举步维艰,如何利用约束本身的属性来处理这些问题呢?本文详细介绍了约束的四对属性: Deferrable/not deferrable, Deferred/immediate, enalbe/disable, validate/novalidate,以及如
Gradle入门教程 dengkane gradle
一、寻找gradle的历程一开始的时候，我们只有一个工程，所有要用到的jar包都放到工程目录下面，时间长了，工程越来越大，使用到的jar包也越来越多，难以理解jar之间的依赖关系。再后来我们把旧的工程拆分到不同的工程里，靠ide来管理工程之间的依赖关系，各工程下的jar包依赖是杂乱的。一段时间后，我们发现用ide来管理项程很不方便，比如不方便脱离ide自动构建，于是我们写自己的ant脚本。再后
C语言简单循环示例 dcj3sjt126com c
# include <stdio.h> int main(void) { int i; int count = 0; int sum = 0; float avg; for (i=1; i<=100; i++) { if (i%2==0) { count++; sum += i; } } avg
presentModalViewController 的动画效果 dcj3sjt126com controller
系统自带(四种效果)： presentModalViewController模态的动画效果设置： [cpp] view plain copy UIViewController *detailViewController = [[UIViewController al
java 二分查找 shuizhaosi888 二分查找 java二分查找
需求：在排好顺序的一串数字中，找到数字T 一般解法：从左到右扫描数据，其运行花费线性时间O(N)。然而这个算法并没有用到该表已经排序的事实。 /** * * @param array * 顺序数组 * @param t * 要查找对象 * @return */ public stati
Spring Security（07）——缓存UserDetails 234390216 ehcache 缓存 Spring Security
Spring Security提供了一个实现了可以缓存UserDetails的UserDetailsService实现类，CachingUserDetailsService。该类的构造接收一个用于真正加载UserDetails的UserDetailsService实现类。当需要加载UserDetails时，其首先会从缓存中获取，如果缓存中没
Dozer 深层次复制 jayluns VO maven po
最近在做项目上遇到了一些小问题，因为架构在做设计的时候web前段展示用到了vo层，而在后台进行与数据库层操作的时候用到的是Po层。这样在业务层返回vo到控制层，每一次都需要从po-->转化到vo层，用到BeanUtils.copyProperties(source, target)只能复制简单的属性，因为实体类都配置了hibernate那些关联关系，所以它满足不了现在的需求，但后发现还有个很
CSS规范整理（摘自懒人图库） a409435341 html UI css 浏览器
刚没事闲着在网上瞎逛，找了一篇CSS规范整理，粗略看了一下后还蛮有一定的道理，并自问是否有这样的规范，这也是初入前端开发的人一个很好的规范吧。一、文件规范 1、文件均归档至约定的目录中。具体要求通过豆瓣的CSS规范进行讲解：所有的CSS分为两大类：通用类和业务类。通用的CSS文件，放在如下目录中：基本样式库 /css/core
C++动态链接库创建与使用你不认识的休道人 C++dll
一、创建动态链接库 1.新建工程test中选择”MFC [dll]”dll类型选择第二项"Regular DLL With MFC shared linked"，完成 2.在test.h中添加 extern “C” 返回类型 _declspec(dllexport)函数名(参数列表); 3.在test.cpp中最后写 extern “C” 返回类型 _decls
Android代码混淆之ProGuard rensanning ProGuard
Android应用的Java代码，通过反编译apk文件（dex2jar、apktool）很容易得到源代码，所以在release版本的apk中一定要混淆一下一些关键的Java源码。 ProGuard是一个开源的Java代码混淆器（obfuscation）。ADT r8开始它被默认集成到了Android SDK中。官网： http://proguard.sourceforge.net/
程序员在编程中遇到的奇葩弱智问题 tomcat_oracle jquery 编程 ide
　　现在收集一下：　　排名不分先后，按照发言顺序来的。 1、Jquery插件一个通用函数一直报错，尤其是很明显是存在的函数，很有可能就是你没有引入jquery。。。或者版本不对 2、调试半天没变化：不在同一个文件中调试。这个很可怕，我们很多时候会备份好几个项目，改完发现改错了。有个群友说的好：在汤匙
解决maven-dependency-plugin (goals "copy-dependencies","unpack") is not supported xp9802 dependency
解决办法：在plugins之前添加如下pluginManagement，二者前后顺序如下： [html] view plain copy <build> <pluginManagement