shenmingik

搜索引擎技术 ——链接分析

文章目录

Web图
链接模型
- 随机游走模型
- 子集传播模型
链接分析算法
- PageRank算法
- - 链接陷阱
- HITS算法
- - Hub页面和Authority页面
  - 相互增强关系
  - HITS算法
- SALSA算法
- - 确定对象集合
  - 转换为无向二分图
  - 链接关系传播
- 主题敏感PageRank
- - 分类主题PageRank计算
  - 在线相似度计算
- Hilltop算法
- - 专家页面搜索
  - 目标页面排序
参考文献

Web图

Web图是对互联网的一种抽象，我们把每个网页看做点，网页之间的超链接看成线，那么整个互联网构成的点线连接图就是Web图。其中A->B是A的出链，D->A是A的入链。

链接模型

随机游走模型

互联网在上网时，往往浏览网页的时候是顺着网页链接浏览的。随机游走模型就是针对浏览网页的用户建立创建的抽象概念模型。

随机游走模型的假设是：当某一个时刻1的时候，用户在浏览网页A，在浏览完之后，其会等概率的选择网页A的出链进行点击，跳转浏览界面，这个过程称之为直接跳转。之后会不断的迭代这个过程，不断的在界面中跳转。假设的Web图中没有该用户感兴趣的界面之后，用户就会在浏览器中输入另外一个网址直接到达该网页，这个行为称之为远程跳转。随机游走模型其是也就是一个对直接跳转和远程跳转两种浏览行为进行抽象的概念模型。

子集传播模型

子集传播模型是从诸多链接分析分析算法中抽象出来的概念模型。其基本思想是在做算法设计的时候，把互联网网页按照一定规则划分，分为两个甚至多个子集合。其中某个子集是具有特殊性质的，其会被赋予一个初值，之后根据这个特殊子集合和其他网页的链接关系，按照一定的方式将权值传递给到其它网页。

链接分析算法

PageRank算法

PageRank是谷歌提出的一种链接分析算法。在其提出之前，有很多研究者提出利用网页的入链数量来进行链接分析计算，其假设某个网页的入链越多，这个网页越重要。而PageRank在入链数量之上还参考了网页质量因素。其基于这两个因素提出了以下两个假设：

数量假设：如果一个页面节点接收到其他网页指向的入链数量越多，这个网页越重要
质量假设：越是质量高的页面指向页面，页面越重要

利用上面的两个假设，PageRank算法刚开始赋予每个网页相同的重要性得分，通过迭代递归计算来更新每个页面的PageRank得分，直到得分稳定。

而在每一轮的更新计算中，每个页面将其当前的PageRank值平均分配给本页面包含的出链上，这样每个连接会获得相应的权值，之后和当前的PageRank值相加就可。

如果在新一轮的PageRank计算之后，发现总体而言，页面节点的PageRank值基本问题，不再发生较大变化，即可结束此次PageRank计算。

链接陷阱

但是PageRank算法并不是万能的，对于某些特殊的链接结构，按照PageRank算法计算会导致问题，比如下面的Web图：

对于网页B和C来说，其只吸收外面传入的PageRank分值，但是不往外面传，最终导致网页B、网页C的权值非常高。这就是链接陷阱。

而远程跳转时解决链接陷阱的通用方式，其在网页向外传递分值的时候，不限于向出链所指网页传递，也可以以一定的概率向任意其他网页跳转。

HITS算法

Hub页面和Authority页面

Authority页面：指与某个领域或者某个话题相关的高质量网页
Hub页面：指的是包含了很多指向高质量Authority页面链接的网页

HITS算的的目的就是在海量的网页中找到和用户查询主题相关的高质量Authority和Hub页面。

相互增强关系

HITS算法基于下面两个假设：

假设1：一个好的Authority页面会被很多好的Hub页面指向
假设2：一个好的Hub页面会指向很多好的Authority页面

基于以上的两个基本假设可以推导出Hub页面和Authority页面之间的相互增强关系。一个网页的Hub质量越高，其链接指向的页面的Authority质量越好；反之一样。通过这样相互增强关系不断迭代计算，就可以找出哪些页面时高质量的Hub页面，哪些时高质量的Authority页面。

HITS算法

HITS算法和用户输入的查询请求密切相关，其后续的计算步骤都是在接收到用户的查询之后展开的，即是和查询相关的链接分析算法。

HITS算法接收到用户查询之后，将查询提交给某个现有的搜索引擎，并在返回的搜索结果中提取排名靠前的网页，得到一组和用户查询相关度较高的初始网页集合，其叫做根集。

之后，在根集的基础上，HITS算法对网页集合进行扩充。其根据以下规则：凡是与根集内网页有直接链接指向关系的网页都被扩充进来，无论是有链接指向根集内页面还是根集内页面有链接指向的页面，都被扩充进来，形成扩展网页集合。

对于扩展网页集合的每个页面都设立两个权值，分别指定其Hub值和Authority值。之后利用上面提到的两个基本假设，以及相互增强关系等原则进行多轮迭代计算，每轮迭代计算更新每个页面的两个权值，直到权值稳定不再发生明显变化为止。

下图中A(i)表示某个网页的Authority值，H(i)表示某个网页的Hub值。在每一轮迭代中的Authority值即为所有指向网页的Hub权值之和；同样的对于Hub值也是一样。直到每个网页都获得了更新，则表示一轮迭代计算完成。

SALSA算法

SALSA算法的初衷是希望能够结合两者的主要特点，既可以利用HITS算法与查询相关的特点，也可以采纳PageRank的随机游走模型。其大致分为两个阶段：

首先是确定计算对象集合的阶段，这一阶段和HITS算法基本相同
第二阶段是链接关系传播过程，这个过程则是采用随机游走模型

确定对象集合

SALSA算法会先得到扩展网页集合，之后将网页关系转换为二分图的形式。其在接收用户查询之后利用现有搜索引擎或者检索系统，获得一批和用户查询在内容上高度相关的网页，以此为根集。并再次基础上，将与根集内网页有直接链接关系的网页纳入，形成扩展网络集合。

转换为无向二分图

SALAS根据集合内的网页链接关系，将网页集合转换为一个二分图。这个过程会把网页划分到两个子集合中，一个子集合是Hub集合，另外一个子集是Authority集合，划分基于如下规则：

如果一个网页包含出链，这些出链指向扩展网页集合内其他节点，则这个网页被归入Hub集合
如果一个网页包含扩展网页集合内其他节点指向的入链，则可被归入Authority集合

这样来说一个网页就可能有多种身份，比如网页C就既属于Hub集合，也属于Authority集合

链接关系传播

在链接传播模型中，假设会有某个用户从某个子集中随机选择一个结点出发，如果这个节点包含多个边，则以等概率随机选择一条边，从一个集合跳转到另外一个集合，或者再从另外的集合跳回来，不断的重复在集合中跳转。最终形成SALSA自身的链接关系传播模式。

虽然看起来和PageRank的传播模型不一样，但是关键点都一样：其从某个节点跳到另外一个节点的时候，如果包含多个可供选择的链接，则以等概率随机选择一条路径。
而对于Hub-Authority模型来说，SALSA更加关注Hub-Hub和Authority-Authority之间的节点关系，另外一个子集合节点只是充当中转桥梁的作用。

下面是由上面二分图转换成的Authority节点关系图，其中权值分配按照平均分配的归结进行分配。以网页C为例，在上面二分图中处于A集合出发，有四条路可走：C-C、C-C、C-D、C-E，每一个的概率都可以看成0.25。

建立好Authority节点关系图之后，就可以利用随机游走模型来计算每个节点的Authority的权值。在实际计算的过程中SALSA将搜索结果排序问题进一步转换为求Authority节点矩阵的主秩问题，矩阵的主秩即为每个节点的相应的Authority得分，按照Authority得分由高到低排列。

下面是SALSA与求矩阵主秩等价的Authority权值计算公式：

Aj ：联通图中节点的个数，这里节点肯定有个指向自己的连接线
A：Authority子集合中节点个数
B(i)：节点入链个数
E(j)：联通图中入链的个数

主题敏感PageRank

主题敏感的PageRank是PageRank算法的改进版本，其大多用于个性化搜索。其主要由两个步骤组成：

离线的分类主题PageRank数值计算
在线利用算法的主题PageRank分值来评估网页和用户查询的相似度

分类主题PageRank计算

主题敏感PageRank会定义16个大的主题分类，涵盖科技、娱乐、商业等为主题类型。其会依次计算该类别的PageRank分值。在计算某个类别的PageRank分值时，会把所有网页划分为两个集合，一个集合是人工精选的高质量网页，被称为集合S；其他的网页王如另外一个集合，称之为集合T。

假设一个网页在集合S里面，那么在商业分类计算结束后该网页会获得PageRank分值为0.5，在科技和娱乐分别获得0.1和0.05的分值。这样其就获得（0.5,0.1,0.05）这个PageRank分类向量。每个值都表示这个网页属于这个类别的概率。

在线相似度计算

在这一步，收索系统会首先利用用户查询分类器对查询进行分类，计算用户查询隶属于定义好的各个类别的概率是多少。在进行用户查询分类计算的同时，搜索系统读取索引，找出包含用户查询的所有网页，并获得上一步计算的网页的PageRank值，这两个的乘积就是某网页和用户查询词的相似度。假设一个网页A属于（科技、商业、娱乐）类别的概率是（0.3,0.2,0.3），查询词CSDN属于（科技、商业、娱乐）类别的概率是(0.5,0.2,0.1)，那么查询词CSDN和网页A的相似度为0.3*0.5+0.2*0.2+0.3*0.1=0.22。

Hilltop算法

Hilltop算法融合了HITS和PageRank两个算法的基本思想。一方面Hilltop是与用户查询请求相关的链接分析算法，吸收了HITS算法根据用户查询获得高质量相关网页子集的思想，利用子集传播模型；另一方面，在权值传播的过程中，Hilltop算法也采纳了PageRank的基本直到思想，会通过页面入链的数量和质量来确定搜索结果的排序权重。

非从属组织页面和专家页面时Hilltop算法的两个重要定义。Hilltop算法会将互联网页面划分为这两类子集合，最重要的子集合时由专家页面构成的互联网页面子集，不在这个集合的页面被称为目标页面集合。

注：
非从属组织页面：如果两个页面不属于从属网站，则为非从属组织页面。而对于主机的网络号或者主域名相同那么就被认为是从属网站。
专家页面：是和某个主题高度相关的高质量页面，同时也需要满足这些页面的链接所指向的页面相互之间都是非从属组织页面。

Hilltop算法会首先从海量的互联网网页中通过一定的规则筛选出专家页面子集合，并单独为这个页面建立索引。之后在接收到用户发出的某个查询请求时，首先根据用户查询的主题，从专家页面子集合中找出部分相关性最强的专家页面，并对每个专家页面计算相关性得分，然后根据目标页面和这些专家页面的链接关系来对目标页面进行排序。最后返回排序结果的TopK返回给用户。

专家页面搜索

Hilltop算法筛选出过百万的网页作为专家页面集合，其需要满足以下两个条件：

页面至少包含K个出链
K个出链指向的所有页面相互之间的关系符合非从属组织页面的要求

这两个条件只是基本条件，还可以设置其他条件来控制专家页面集合的规模。

根据以上条件筛选出专家页面后，就可以对专家页面单独建立索引。这个过程会对网页标题、H1标签文件和URL锚文字这三个网页关键片段建立索引。

而在用户接收到用户查询之后，假设查询包含了多个单词，其就会根据以下三类信息进行打分：

关键片段查询词的数量
关键片段本身的类型信息决定其权值，标题、H1、锚文字权值由高到低
用户查询和关键片段的不匹配率，就是关键片段中查询词没出现的频率

目标页面排序

Hilltop算法包含一个基本假设：认为一个目标页面如果是满足用户查询的高质量搜索结果，其充分必要条件是该目标页面有高质量专家页面链接指向。

Hilltop在本阶段是基于专家页面和目标页面之间的链接关系来进行，在此基础上，将专家页面的得分传递给有链接关系的目标页面。而传递分值的前提是页面需要满足以下两点要求：

至少需要两个专家页面有链接指向目标页面，而且这两个专家页面不能是从属组织页面
专家页面和所指向的目标页面也不能是从属组织页面

而计算其中某个专家页面传递给目标页面权值计算如下：

找到专家页面中能够支配目标页面的关键片段集合S
统计S中包含用户查询词的关键片段个数T，T越大权值越大
专家页面传递给目标页面的分值为：E*T，E为专家页面本身在第一阶段计算得到的相关得分，b为2步骤计算的分值

参考文献

[1] 这就是搜索引擎

C++在线OJ负载均衡项目平凡的小y c++开发语言
1.演示项目项目源码链接：2.项目所用技术和开发环境所用技术C++STL标准库Boost准标准库(字符串切割)cpp-httplib第三方开源网络库ctemplate第三方开源前端网页渲染库jsoncpp第三方开源序列化、反序列化库负载均衡设计MySQLCconnectAce前端在线编辑器html/css/js/jquery/ajax开发环境Ubuntu云服务器vscodeMysqlWorkben
Mac下载python并安装小小酥*
下载pythonPython官网：https://www.python.org/进入官网后点击download，选择MacOSX版本2.安装MAC系统一般都自带有Python2.x版本的环境，你也可以在链接https://www.python.org/downloads/mac-osx/上下载最新版安装。3.设置环境变量程序和可执行文件可以在许多目录，而这些路径很可能不在操作系统提供可执行文件的搜
深入拆解Nightingale_alert中篇上(三) weixin_47028810 夜莺 github 开源软件 golang 运维
前言上一篇我们首先初步了解一下开源项目-夜莺的alert告警引擎模块的目录，其次通过查看n9e-alert通过Initialize函数的源码大概了解了告警引擎初始化做了哪些工作，另一个重要原因Initialize函数也是通过调用Start函数来实现启动告警引擎，这个和中心节点的n9e进程接入告警引擎是一致的。本文打算通过Start函数来进一步拆解并分析告警引擎的工作原理。告警引擎启动入口-Star
深入了解 ArangoDB 的图数据库应用与 Python 实践 eahba 数据库 python 开发语言
在当前数据驱动的时代，对连接数据的高效处理和分析需求日益增长。ArangoDB作为一个可扩展的图数据库系统，能够加速从连接数据中获取价值。本文将介绍如何使用Python连接和操作ArangoDB，并展示如何结合图问答链来获取数据洞察。技术背景介绍ArangoDB是一个多模型数据库，支持文档、图和键值类型的数据存储。其强大的图形存储和查询能力使其成为处理复杂数据关系的理想选择。通过JSON支持和单一
不懂英语可以学编程吗?,不懂英文可以学编程吗 P5688346 人工智能
大家好，给大家分享一下英语不好能学python编程吗，很多人还不知道这一点。下面详细解释一下。现在让我们来看看！Sourcecodedownload:本文相关源码提到人工智能，就不得不提Python编程语言，大多数人觉得编程语言肯定会涉及到很多代码，满屏的英文字母，想想就头疼，觉得自己不会英语，肯定学不好Python，但是不会英语到底能不能够学习Python呢，下面小编给大家分析分析。其实各位想要
股票量化交易开发 Yfinance 数字化转型2025 python 开发语言
以下是一段基于Python的股票量化分析代码，包含数据获取、技术指标计算、策略回测和可视化功能：pythonimportyfinanceasyfimportpandasaspdimportnumpyasnpimportmatplotlib.pyplotaspltimportseabornassnsfrombacktestingimportBacktest,Strategyfrombacktesti
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
spark explain如何使用 fzip Spark spark 执行计划
在Spark中，explain是分析SQL或DataFrame执行计划的核心工具，通过不同模式可展示查询优化和执行的详细信息，默认情况下，这个语句只提供关于物理计划的信息。以下是具体使用方法及不同模式的作用：1.explain的基本语法在Spark3.0及以上版本，explain支持多种模式参数，通过mode指定输出格式：#DataFrame调用方式df.explain(mode="simple"
stc89c51单片机音乐盒系统设计_基于单片机STC89C52的数字音乐盒设计 Fax Caelestis
基于单片机STC89C52的数字音乐盒设计1基于单片机STC89C52的数字音乐盒设计一、引言1.1设计的目的通过课程设计，让学生熟悉单片机微机应用系统开发、研制的过程，软硬件设计的工作方法、工作内容、工作步骤。对学生进行基本技能训练，例如：组成系统、编程、调试、查阅资料、焊接电路板等。使学生理论联系实际，提高动手能力和分析问题、解决问题的能力。1.2设计的基本要求(1)利用I/O口产生一定频率的
Python调用fofa API接口并写入csv文件中 YOHO !GIRL 网络测绘 python 网络安全
前言一.功能目的二.功能调研三.编写代码1.引入库2.读取数据3.写入csv文件中总结前言上一篇我们讲述了目前较为主流的几款网络探测系统，简单介绍了页面的使用方法。链接如下，点击跳转：网络空间测绘引擎集合：Zoomeye、fofa、360、shodan、censys、鹰图然而当我们需要针对单个引擎进行二次开发时，页面就不能满足我们的需求了，这就需要参考API文档进行简单的数据处理，接下来，给大家介
解决 Ollama 无法通过本地 IP 访问 11434 端口的问题 CarlowZJ tcp/ip 网络协议网络
根据你的描述，你在尝试将Ollama的localhost地址替换为本地IP地址（如192.168.*.*）时，遇到了网络错误，提示无法连接到服务。但在浏览器中访问http://:11434时，Ollama显示正在运行。以下是可能的原因和解决方案：一、问题分析Ollama默认绑定到127.0.0.1默认情况下，Ollama服务绑定到127.0.0.1（即localhost），这意味着它只能接受来自本
数据结构之链表（单链表） Dust-Chasing 数据结构链表 c语言
目录一、链表的概念二、链表的分类三、单链表的实现1.创建新的节点2.打印链表3.链表的头插和尾插尾插：要注意第一次插入时链表为空的情况。头插：4.单链表的头删和尾删尾删：注意链表中只有一个元素的情况。且要保存尾节点的前一个节点。头删：5.单链表的查找一、链表的概念链表是一种物理存储结构上非连续、非顺序的存储结构，数据元素的逻辑顺序是通过链表中的指针链接次序实现的。链表实际上就像一列火车一样，每一个
【深度学习与大模型基础】第7章-特征分解与奇异值分解 lynn-66 深度学习与大模型基础算法机器学习人工智能
一、特征分解特征分解（EigenDecomposition）是线性代数中的一种重要方法，广泛应用于计算机行业的多个领域，如机器学习、图像处理和数据分析等。特征分解将一个方阵分解为特征值和特征向量的形式，帮助我们理解矩阵的结构和性质。1.特征分解的定义对于一个n×n的方阵A，如果存在一个非零向量v和一个标量λ，使得：则称λ为矩阵A的特征值，v为对应的特征向量。特征分解将矩阵A分解为：其中：Q是由特征
某人想将手中的一张面值100元的人民币换成10元、5元、2元和1元面值的票子。要求换正好40张，且每种票子至少一张。问：有几种换法？（C语言）热心市民小汪代码练习 C语言 c语言学习 java
一、首先分析题目有两点1、总和是100元。2、一共分为四十张且每种至少有一张。二、思路分析。10元的为s张，5元的为w张，2元的为e张，1元的为y张。n为有几种换算法首先，每个至少有一张a>=1,b>=1,c>=1,d>=1。#includeintmain(){inttotal;for(ints=1;s<=10;s++){for(intw=1;w<=20;w++){for(inte=1;e<=40
【软考论文】论软件系统架构评估罗小爬EX 软考（系统架构师）软考系统架构师论文
目录一、题目二、论文2.1摘要2.2正文三、扩展3.1基础知识3.2评估方式综合对比3.3SAAM基于场景的架构分析方法3.4ATAM架构权衡分析方法3.5质量属性一、题目对于软件系统，尤其是大规模的复杂软件系统来说，软件的系统架构对于确保最终系统的质量具有十分重要的意义，不恰当的系统架构将给项目带来高昂的代价和难以避免的灾难。对一个系统架构进行评估，是为了：分析现有架构存在的风险，检验设计中提出
【笔记】扩散模型（五）：Classifier-Free Guidance 理论推导与代码实现 LittleNyima Diffusion Models 笔记机器学习深度学习
论文链接：Classifier-FreeDiffusionGuidance上一篇文章我们学习了ClassifierGuidance，这种方法通过引入一个额外的分类器，使用梯度引导的方式成功地实现了条件生成。虽然ClassifierGuidance可以直接复用训练好的diffusionmodels，不过这种方法的问题是很明显的，首先需要额外训练一个分类器，而且这个分类器不仅仅分类一般的图像，还需要分
【指标对比】SMA 和 EMA区别 T-I-M 时间序列
在描述时间序列趋势（如股票价格）时，简单移动平均（SMA）和指数移动平均（EMA）各有特点。以下是详细分析：一、核心对比指标SMAEMA权重分配等权重指数衰减权重滞后性较高较低噪声敏感性较不敏感更敏感计算复杂度简单需要递归计算参数敏感性对窗口大小敏感对衰减因子敏感二、特性分析1.SMA（简单移动平均）公式：SMAt=1n∑i=0n−1Pt−iSMA_t=\frac{1}{n}\sum_{i=0}^
快速理解Vue3中Pinia里的subscribe方法使用 MXN_小南学前端 vue3 vue 前端
快速理解Vue3中Pinia里的subscribe方法使用一、Pinia简介Pinia是Vue3的状态管理库，类似Vue2中的Vuex，但使用更简洁高效二、subscribe方法简介subscribe方法是Pinia中的监听器函数，有点像watch，但监听的是store中的状态（数据/state）变化，在store中的状态变化时会执行自定义逻辑。可用于调试和定位问题、记录日志后续分析、触发操作（比
香港站群服务器租用应该怎么选？莱卡云（Lcayun）服务器运维 linux 前端网络
在租用香港站群服务器时，应该综合考虑多个因素以确保选择到性价比最高、性能最优的服务器。以下是一些关键的选择要点：香港站群服务器就找莱卡云‌IP资源数量和质量‌：‌数量‌：站群服务器一般需要多个独立IP，以便将每个站点分布在不同的IP上，避免搜索引擎对同IP站点的关联性判断‌1。‌分散性‌：尽量选择不同C段甚至不同B段的IP，这样可以增加站群的SEO效果，降低被搜索引擎认为是关联站点的风险‌1。‌质
在SPSS中进行单因素方差分析（One-Way ANOVA）是一种常见的统计分析方法，用于比较三个或更多独立组之间的均值差异。 zhangfeng1133 均值算法算法
在SPSS中进行单因素方差分析（One-WayANOVA）是一种常见的统计分析方法，用于比较三个或更多独立组之间的均值差异。以下是进行单因素方差分析的详细步骤：---###1.**数据准备**-**因变量**：需要分析的连续变量（如成绩、收入等）。-**自变量**：分类变量（如组别、性别等），通常是一个名义变量。数据结构示例：|组别（自变量）|成绩（因变量）||----------------|-
在SPSS的单因素方差分析（One-Way ANOVA）中，F值和t值是两种不同的统计量 f/t zhangfeng1133 数据分析
在SPSS的单因素方差分析（One-WayANOVA）中，F值和t值是两种不同的统计量，用于不同的分析场景，具体含义如下：###1.**F值**F值是单因素方差分析中的统计量，用于检验多个组之间的均值是否存在显著差异。它是通过比较组间方差与组内方差的比值来计算的，具体公式为：**F值=组间方差/组内方差**-**F值的意义**：-F值越大，说明组间差异相对于组内差异越大，即不同组之间的均值差异越显
中国大陆网站用了lightHouse之后还有必要用WebPageTest么？混血哲谈网络
对于中国大陆的网站，即使已使用Lighthouse进行性能优化，WebPageTest仍有不可替代的价值。两者并非互斥，而是互补工具，适用于不同维度的性能分析。以下是具体原因和场景说明：一、核心结论：Lighthouse与WebPageTest的定位差异工具核心价值适用场景中国大陆场景的局限性Lighthouse提供代码级优化建议（如压缩资源、渲染阻塞修复）本地开发调试、快速生成优化清单仅反映本地
23、nc文件快速切片与索引爱转呼啦圈的小兔子气象数据处理与可视化 python 气象气象可视化气候变化
1前言在气象、海洋学和环境科学等领域，.nc（NetCDF）格式文件是存储和共享多维科学数据的常用格式。这些数据文件通常包含大量的经度、纬度、时间和垂直层次数据。在处理这些数据时，研究人员常常需要根据特定的地理和时间范围提取数据，以便进行深入分析。为此，我们开发了一个名为nc_slice的Python函数，用于从一个或多个.nc格式文件中高效地筛选和提取数据。nc_slice函数提供了一种简洁而灵
华为OD机试统一考试D卷C卷 - 机器人仓库搬砖 py 愤怒的小青春 java
平安寿险北分和飞鹤职能哪个强度好一些呀，平安寿险北分和飞鹤职能哪个强度好一些呀，两个offer纠结经营分析应该属于什么序列#数据分析#在牛客搜经营分析貌似只有字节有这个单独岗位名字，其他大厂都是在从属于数据分析，所以这俩昇腾计算岗位扩招，绝佳上车AI机会，速来ai芯片业务发展太快，要大量补充人力缺口。嵌入式软件开发、测试，前后端岗位，硬件岗位都招。院校范围很春招补录两个公司总包差不多，都是后台开发
性能优化中如何“避免链接关键请求” 混血哲谈性能优化
在性能优化中，“避免链接关键请求”是指通过优化资源加载顺序和依赖关系，减少关键渲染路径中的链式请求（CriticalRequestChains），从而加速页面加载。以下是具体策略及实施步骤：一、什么是“关键请求链”？定义：关键请求链是浏览器在渲染首屏内容时必须按顺序加载的资源序列。例如：HTMLCSSFont浏览器需先下载HTML，解析后请求CSS，CSS解析后发现需要字体文件，再请求字体。问题：
漫谈JVM weixin_34111790 运维 java python
2019独角兽企业重金招聘Python工程师标准>>>背景介绍创建了一个技术类公众号:一起源码分析，里面会分享最新的开源代码、源码解读、开发技巧等，欢迎大家关注。JVM已经是Java开发的必备技能了，JVM相当于Java的操作系统。JVM,javavirtualmachine,即Java虚拟机，是运行javaclass文件的程序。Java代码经过Java编译器编译，会编译成class文件，一种平台
使用 NetworkX 进行图论分析与可视化 aiweker 跟我学python 图论 python
使用NetworkX进行图论分析与可视化NetworkX是一个用于创建、操作和研究复杂网络的Python库。它提供了丰富的图论算法和数据结构，适用于各种网络分析任务。本文将分点介绍NetworkX的主要功能，并通过代码示例进行详细说明。1.安装NetworkX在开始使用NetworkX之前，首先需要安装它。可以通过pip进行安装：pipinstallnetworkx2.创建图NetworkX支持多
2025最新植物大战僵尸杂交版3.4.5版本 ‌烟雨任平生游戏游戏程序游戏 php 算法数据结构 html5 javascript
更新内容植物大战僵尸杂交版v3.4.5版本的更新内容如下：新增了3档花园养成奖励与商店副本关卡，以及修复了3.4版本的已知BUG与平衡性调整下载链接点击下载
OpenStack阶梯计价实战：Hashmap模块从入门到精准计费冯·诺依曼的 openstack 云计算 linux
目录Hashmap模块概述核心概念解析配置步骤详解应用场景分析注意事项与扩展1.Hashmap模块概述OpenStack的Rating模块负责资源使用量的计费统计，而Hashmap是其核心组件，用于定义灵活的计价规则。通过Hashmap，管理员可以：根据资源类型（如CPU、存储、网络）设置差异化单价实现阶梯计价（如使用量超过阈值后单价打折）将资源与服务、服务组绑定，支持复杂计费策略2.核心概念解析
Python 常用内建模块-HTMLParser 赔罪 Python 系统学习 python 开发语言
目录HTMLParser小结练习HTMLParser如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非
redis学习笔记——不仅仅是存取数据 Everyday都不同 returnSource expire/del incr/lpush 数据库分区 redis
最近项目中用到比较多redis，感觉之前对它一直局限于get/set数据的层面。其实作为一个强大的NoSql数据库产品，如果好好利用它，会带来很多意想不到的效果。（因为我搞java，所以就从jedis的角度来补充一点东西吧。PS：不一定全，只是个人理解，不喜勿喷） 1、关于JedisPool.returnSource(Jedis jeids) 这个方法是从red
SQL性能优化-持续更新中。。。。。。 atongyeye oracle sql
1 通过ROWID访问表--索引你可以采用基于ROWID的访问方式情况,提高访问表的效率, , ROWID包含了表中记录的物理位置信息..ORACLE采用索引(INDEX)实现了数据和存放数据的物理位置(ROWID)之间的联系. 通常索引提供了快速访问ROWID的方法,因此那些基于索引列的查询就可以得到性能上的提高. 2 共享SQL语句--相同的sql放入缓存 3 选择最有效率的表
[JAVA语言]JAVA虚拟机对底层硬件的操控还不完善 comsci JAVA虚拟机
如果我们用汇编语言编写一个直接读写CPU寄存器的代码段，然后利用这个代码段去控制被操作系统屏蔽的硬件资源，这对于JVM虚拟机显然是不合法的，对操作系统来讲，这样也是不合法的，但是如果是一个工程项目的确需要这样做，合同已经签了，我们又不能够这样做，怎么办呢？那么一个精通汇编语言的那种X客，是否在这个时候就会发生某种至关重要的作用呢？ &n
lvs- real 男人50 LVS
#!/bin/bash # # Script to start LVS DR real server. # description: LVS DR real server # #. /etc/rc.d/init.d/functions VIP=10.10.6.252 host='/bin/hostname' case "$1" in sta
生成公钥和私钥 oloz DSA 安全加密
package com.msserver.core.util; import java.security.KeyPair; import java.security.PrivateKey; import java.security.PublicKey; import java.security.SecureRandom; public class SecurityUtil {
UIView 中加入的cocos2d，背景透明 374016526 cocos2d glClearColor
要点是首先pixelFormat:kEAGLColorFormatRGBA8，必须有alpha层才能透明。然后view设置为透明glView.opaque = NO;[director setOpenGLView:glView];[self.viewController.view setBackgroundColor:[UIColor clearColor]];[self.viewControll
mysql常用命令香水浓 mysql
连接数据库 mysql -u troy -ptroy 备份表 mysqldump -u troy -ptroy mm_database mm_user_tbl > user.sql 恢复表（与恢复数据库命令相同） mysql -u troy -ptroy mm_database < user.sql 备份数据库 mysqldump -u troy -ptroy
我的架构经验系列文章 - 后端架构 - 系统层面 agevs JavaScript jquery css html5
系统层面：高可用性所谓高可用性也就是通过避免单独故障加上快速故障转移实现一旦某台物理服务器出现故障能实现故障快速恢复。一般来说，可以采用两种方式，如果可以做业务可以做负载均衡则通过负载均衡实现集群，然后针对每一台服务器进行监控，一旦发生故障则从集群中移除；如果业务只能有单点入口那么可以通过实现Standby机加上虚拟IP机制，实现Active机在出现故障之后虚拟IP转移到Standby的快速
利用ant进行远程tomcat部署 aijuans tomcat
在javaEE项目中，需要将工程部署到远程服务器上，如果部署的频率比较高，手动部署的方式就比较麻烦，可以利用Ant工具实现快捷的部署。这篇博文详细介绍了ant配置的步骤（http://www.cnblogs.com/GloriousOnion/archive/2012/12/18/2822817.html），但是在tomcat7以上不适用，需要修改配置，具体如下： 1.配置tomcat的用户角色
获取复利总收入 baalwolf 获取
public static void main(String args[]){ int money=200; int year=1; double rate=0.1; &
eclipse.ini解释 BigBird2012 eclipse
大多数java开发者使用的都是eclipse，今天感兴趣去eclipse官网搜了一下eclipse.ini的配置，供大家参考，我会把关键的部分给大家用中文解释一下。还是推荐有问题不会直接搜谷歌，看官方文档，这样我们会知道问题的真面目是什么，对问题也有一个全面清晰的认识。 Overview 1、Eclipse.ini的作用 Eclipse startup is controlled by th
AngularJS实现分页功能 bijian1013 JavaScript AngularJS 分页
对于大多数web应用来说显示项目列表是一种很常见的任务。通常情况下，我们的数据会比较多，无法很好地显示在单个页面中。在这种情况下，我们需要把数据以页的方式来展示，同时带有转到上一页和下一页的功能。既然在整个应用中这是一种很常见的需求，那么把这一功能抽象成一个通用的、可复用的分页（Paginator）服务是很有意义的。 &nbs
[Maven学习笔记三]Maven archetype bit1129 ArcheType
archetype的英文意思是原型，Maven archetype表示创建Maven模块的模版，比如创建web项目，创建Spring项目等等. mvn archetype提供了一种命令行交互式创建Maven项目或者模块的方式， mvn archetype 1.在LearnMaven-ch03目录下，执行命令mvn archetype:gener
【Java命令三】jps bit1129 Java命令
jps很简单，用于显示当前运行的Java进程，也可以连接到远程服务器去查看 [hadoop@hadoop bin]$ jps -help usage: jps [-help] jps [-q] [-mlvV] [<hostid>] Definitions: <hostid>: <hostname>[:
ZABBIX2.2 2.4 等各版本之间的兼容性 ronin47
zabbix更新很快，从2009年到现在已经更新多个版本，为了使用更多zabbix的新特性，随之而来的便是升级版本，zabbix版本兼容性是必须优先考虑的一点客户端AGENT兼容 zabbix1.x到zabbix2.x的所有agent都兼容zabbix server2.4：如果你升级zabbix server，客户端是可以不做任何改变，除非你想使用agent的一些新特性。 Zabbix代理（p
unity 3d还是cocos2dx哪个适合游戏？ brotherlamp unity自学 unity教程 unity视频 unity资料 unity
unity 3d还是cocos2dx哪个适合游戏？问：unity 3d还是cocos2dx哪个适合游戏？答：首先目前来看unity视频教程因为是3d引擎，目前对2d支持并不完善，unity 3d 目前做2d普遍两种思路，一种是正交相机，3d画面2d视角，另一种是通过一些插件，动态创建mesh来绘制图形单元目前用的较多的是2d toolkit，ex2d，smooth moves，sm2，
百度笔试题：一个已经排序好的很大的数组，现在给它划分成m段，每段长度不定，段长最长为k，然后段内打乱顺序，请设计一个算法对其进行重新排序 bylijinnan java 算法面试百度招聘
import java.util.Arrays; /** * 最早是在陈利人老师的微博看到这道题： * #面试题#An array with n elements which is K most sorted，就是每个element的初始位置和它最终的排序后的位置的距离不超过常数K * 设计一个排序算法。It should be faster than O(n*lgn)。
获取checkbox复选框的值 chiangfai checkbox
<title>CheckBox</title> <script type = "text/javascript"> doGetVal: function doGetVal() { //var fruitName = document.getElementById("apple").value;//根据
MySQLdb用户指南 chenchao051 mysqldb
原网页被墙，放这里备用。 MySQLdb User's Guide Contents Introduction Installation _mysql MySQL C API translation MySQL C API function mapping Some _mysql examples MySQLdb
HIVE 窗口及分析函数 daizj hive 窗口函数分析函数
窗口函数应用场景：（1）用于分区排序（2）动态Group By （3）Top N （4）累计计算（5）层次查询一、分析函数用于等级、百分点、n分片等。函数说明 RANK() &nbs
PHP ZipArchive 实现压缩解压Zip文件 dcj3sjt126com PHP zip
PHP ZipArchive 是PHP自带的扩展类，可以轻松实现ZIP文件的压缩和解压，使用前首先要确保PHP ZIP 扩展已经开启，具体开启方法就不说了，不同的平台开启PHP扩增的方法网上都有，如有疑问欢迎交流。这里整理一下常用的示例供参考。一、解压缩zip文件 01 02 03 04 05 06 07 08 09 10 11
精彩英语贺词 dcj3sjt126com 英语
I'm always here 我会一直在这里支持你 &nb
基于Java注解的Spring的IoC功能 e200702084 java spring bean IOC Office
java模拟post请求 geeksun java
一般API接收客户端（比如网页、APP或其他应用服务）的请求，但在测试时需要模拟来自外界的请求，经探索，使用HttpComponentshttpClient可模拟Post提交请求。此处用HttpComponents的httpclient来完成使命。 import org.apache.http.HttpEntity ; import org.apache.http.HttpRespon
Swift语法之 ---- ?和!区别 hongtoushizi ?swift !
转载自： http://blog.sina.com.cn/s/blog_71715bf80102ux3v.html Swift语言使用var定义变量，但和别的语言不同，Swift里不会自动给变量赋初始值，也就是说变量不会有默认值，所以要求使用变量之前必须要对其初始化。如果在使用变量之前不进行初始化就会报错： var stringValue : String //
centos7安装jdk1.7 jisonami jdk centos
安装JDK1.7 步骤1、解压tar包在当前目录 [root@localhost usr]#tar -xzvf jdk-7u75-linux-x64.tar.gz 步骤2：配置环境变量在etc/profile文件下添加 export JAVA_HOME=/usr/java/jdk1.7.0_75 export CLASSPATH=/usr/java/jdk1.7.0_75/lib
数据源架构模式之数据映射器 home198979 PHP 架构数据映射器 datamapper
前面分别介绍了数据源架构模式之表数据入口、数据源架构模式之行和数据入口数据源架构模式之活动记录，相较于这三种数据源架构模式，数据映射器显得更加“高大上”。一、概念数据映射器（Data Mapper）：在保持对象和数据库（以及映射器本身）彼此独立的情况下，在二者之间移动数据的一个映射器层。概念永远都是抽象的，简单的说，数据映射器就是一个负责将数据映射到对象的类数据。 &nb
在Python中使用MYSQL pda158 mysql python
缘由　　近期在折腾一个小东西须要抓取网上的页面。然后进行解析。将结果放到数据库中。　　了解到 Python在这方面有优势，便选用之。　　由于我有台 server上面安装有 mysql，自然使用之。在进行数据库的这个操作过程中遇到了不少问题，这里记录一下，大家共勉。　　 python中mysql的调用　　百度之后能够通过MySQLdb进行数据库操作。
单例模式 hxl1988_0311 java 单例设计模式单件
package com.sosop.designpattern.singleton; /* * 单件模式：保证一个类必须只有一个实例，并提供全局的访问点 * * 所以单例模式必须有私有的构造器，没有私有构造器根本不用谈单件 * * 必须考虑到并发情况下创建了多个实例对象 * */ /** * 虽然有锁，但是只在第一次创建对象的时候加锁，并发时不会存在效率
27种迹象显示你应该辞掉程序员的工作 vipshichg 工作
1、你仍然在等待老板在2010年答应的要提拔你的暗示。 2、你的上级近10年没有开发过任何代码。 3、老板假装懂你说的这些技术，但实际上他完全不知道你在说什么。 4、你干完的项目6个月后才部署到现场服务器上。 5、时不时的，老板在检查你刚刚完成的工作时，要求按新想法重新开发。 6、而最终这个软件只有12个用户。 7、时间全浪费在办公室政治中，而不是用在开发好的软件上。 8、部署前5分钟才开始测试。

搜索引擎技术 ——链接分析

文章目录

Web图

链接模型

随机游走模型

子集传播模型

链接分析算法

PageRank算法

链接陷阱

HITS算法

Hub页面和Authority页面

相互增强关系

HITS算法

SALSA算法

确定对象集合

转换为无向二分图

链接关系传播

主题敏感PageRank

分类主题PageRank计算

在线相似度计算

Hilltop算法

专家页面搜索

目标页面排序

参考文献

你可能感兴趣的:(搜索引擎,搜索引擎,链接分析,PageRank)