得物技术

【得物技术】搜索引擎技术简介

导读

搜索引擎是一种结合自然语言处理，信息检索，网页架构，分布式数据处理为一体的帮助用户准确解释信息获取信息的一种技术。

目前业界在网页端与手机端的主流门户搜索份额基本被各类巨头(图1.1)(SEO, 2020)所分割。当然，随着时代的发展，搜索越来越向以细分业务为主导的精细化门户搜索的方向发展。比如你会选择在知乎搜索专栏知识，在得物搜索潮流爆品，在美团点评搜索吃喝玩乐等等。

THE NO.1

信息检索

搜索引擎

我们要聊搜索引擎，那必然离不开信息检索（information retrieval）。

首先我们对何为信息检索需要有一个明确的定义：通过在一个大的数据集合中找到满足信息需求（information needs）的非结构化自然形式（通常指文本语料库）的材料（一般指代文章）(Manning, 2008)。

在检索信息时，有两个指标是在讨论搜索性能时无可避免。一个是召回率（recall），另一个是准确率（percision）。有趣的是，这两个指标就像一对孪生兄弟，总是此长彼消，此消彼长，因此，如何做好其中的制衡是各个搜索算法面临的问题。

本文作为搜索引擎技术的启蒙文章，主要针对文章结构、倒排索引、操作符与查找算法这四个维度来讲解一下搜索引擎的基本工作流程。

THE NO.2

文章结构

文档

首先我们来谈一谈搜索引擎都是如何理解它的那些文档的。在聊这个话题之前，我们要先明确一个定义，搜索引擎分为两种，网页级搜索引擎和公司级搜索引擎。

无论是那种搜索引擎，它们第一件需要解决的问题就是理解语料库，之后要做的就是存储语料库。

那么如何理解呢？现在让我们来看一下基本的文档的脉络机构。

很多时候人们一般认为文档就可以看作一个独立的词袋。但其实不然，每个文档其实是由不同的组成部分构成的。

比如一般网页的构建逻辑基本会是XML形式构成的，在大类上我们把它们分成三层，第一层是metadata，里面一般会有url、关键字、作者、日期等等，第二层是body，里面一般包含的就是像标题、主体内容这些信息。第三层是外部信息，主要有一些外部链接与内部链接跳转。

分区可以帮助我们对各个区块的信息量进行一个区分，原因在于每个区块的信息熵是不一样的。

简而言之，包含的信息量不一样，比如文章标题含有关键词的信息量就相对而言要大于段落中包含这个关键词所有的信息量。

得物搜索

在我们得物平台，主要有两个搜索主要发力点：商品和社区。那也可以进行这样的分层，虽然具体的信息分层方式有所变化，但是具体的设计逻辑依然不变。

根据香农定理里面的信息论，这些文档它们提供的信息价值是不同的，信息熵也是不同的，如果把他们混为一谈的话，我们搜索的准确度必然会有一定程度的降低。

一般而言，文档标题包含的信息量要略高于文档主体的信息量，通过将内部结构分层的操作，我们在后期进行算法干预的时候就可以人为的对其中的内容的权重进行调整，从而提高我们所召回内容与用户输入query符合度的准确程度，更好的满足用户的搜索期望。

THE NO.3

倒排索引

存储

讲完了文档的结构，我们就要讨论下如何对这些文档结构用数据结构进行存储。相信大家都知道，我们在搜索引擎存储信息一般采用倒排索引，而倒排索引主要分为两种索引结构。

第一种办法我们针对的是平铺的页面布局，也就是我前面所提到的将所有页面的各个区块独立对待的方法。说白了萝卜是萝卜，坑就是坑，各个信息块之间各自独立，没有交互。

而第二种结构我们采用的是垂直结构，也就是说，我们令页面中的各个布局存在层级关系。

我拿主体部分举个例子，主体部分 -> 区块 -> 段落 -> 句子。

平铺的页面布局

首先我们来讲下第一种归并倒排索引，我们看下构建模式。

我们在推荐和博文这两个field里面都有一个词典，那我们在这儿要做的就是把各自的词典和它所对应的field合并起来。

在这里我们需要注意的是，一个term将会有多个倒排索引，比如说bush这个词，在推荐这儿我们为它构建了一个倒排，在博文这儿我们也为它构建了一个倒排。

在这种情况下，我们不会把不同field的信息杂糅在一起。很多次和bush一样都具有歧义性，通过建立各自独立的倒排索引，可以有效的保证信息的独立性。

垂直结构

有的时候我们搜索信息时，并不需要搜索到全部的信息，可能我们只想要搜索到特定位置的特定信息。

如果我们想要搜索句子里面的癌症，在归并结构下，我们的搜索进程就会变得很是复杂，我们要先从文章再到章节再到句子，很显然，如果采用这样的结构，我们的搜索速度很受到一定的影响。

因此，我们需要的采用一种比较精巧的独立倒排索引结构，这种结构一般面向的是那种相对比较复杂的文章结构。

我们接下来看一下这个树形结构，在这种结构下，我们会记录下文档各个词所在的位置以及它们的上下级父子关系。

如果我们要搜索位于位置6和位置27的信息，我们就会先溯源到搜索脉络中所处的位置，之后用一种相对快速的方式快速检索到信息（log级别的速度）。

如果要搜在章节位置的信息，那么它就会丢弃loc为6的信息，因为loc为6的信息在树结构中属于作者这个区块。

这样的方式可以大大提升我们的搜索效率，而我们需要付出的只是唯不足道的一些内存而已，在这个云存储的时代，这样的操作非常具有性价比。

完全倒排

除此之外，我们也可以用完全倒排的方法来构建倒排索引-即独立倒排形式。

我们可以把field的边界阈值存放在倒排索引里面，另外构建一个term的倒排索引，通过把这两个进行归并，即可构建独立倒排。

比如说在这儿我们假设这是一个句子的倒排索引，开始和起始为止标注在那儿了，extentFreq表示这是第几个field。

当我们确立好loc的具体值时，我们只需要到旁边的[begin,end]判断是否在区域范围内，就可以快速确定这个loc包含的信息是否是我们需要的信息。

另外右侧的部分是tfidf的含义解读：

tfidf主要用来描绘出词汇在文章中的信息量；tf表示文章中包含该词的个数；df表示含有这个词的文章的个数；idf表示倒排文章频率，用来描绘文本稀缺度N表示总库存的文章数。

通过tfidf，我们可以对文章的信息度进行一个相对粗略的判断，可以说tfidf是信息检索的鼻祖算法，之后的一系列其他的算法都是对tfidf的补充及优化。

THE NO.4

Query操作符

操作符分类

操作符一般来说可以分为三类，一类用来构建新的倒排索引，其中有#SYN，#NEAR，#WINDOW；一类用来生成分数列表，它的操作符是#SCORE；一类用来合并生成好的分数列表，其中有#AND，#OR，#WSUM。

Callan, 2020*

分场景应用

这些操作符可以用来帮助我们在不同的情境下构建一些复杂的query。

NEAR或者WINDOW操作符

我们之前已经讲完了倒排索引，我们自然可以构建Nike ，AJ，阿迪等等的倒排索引，但是光这些基础结构很难满足我们的需求。因此，我们还需要一些其他结构的倒排索引，比如说布莱克奥巴马和AJ1。

这样的query其实是由两个或者多个词合并而出的短语，为了保证其中的次序性能够被正确识别，我们在这个时候就需要使用NEAR或者WINDOW操作符来进行词汇链接。

syn操作符

syn操作符可以用来构建一些概念性质的倒排，比如各类颜色的集合。

Score操作符

Score操作符比较容易理解，我们通过我们构建的一些记分算法来讲一个倒排索引构建成一份分数列表。

#AND和#OR

#AND和#OR这些操作符则是用来合并已经构建好的分数列表。

THE NO.5

搜索算法

讲完了文章结构与操作符，搜索引擎的冰山一角已经被我们剖析了出来。

如果把搜索引擎比做修炼，那我们基础已经打完了，接下来我们进入硬核部分 - 搜索算法，了解完了搜索算法，那你基本可以开始尝试构建自己的小型搜索引擎了。

首先，我们讨论一下从倒排索引到分数列表过程中可能会使用到的一些粗排算法。

搜索引擎查找信息的过程其实是我们在用各种各样的方法来解释我们的信息，通过算法一步一步的压缩召回池的数量，最后通过排序来获得我们想要的信息（即排序好的文章）。

粗排

最简单的粗排算法就是UnRankedBoolean和RankedBoolean两种，它们都是精确查找的过程。在过去人们认为文档就是一个词袋的集合，那么只要进行精确查找就行了。

Unrankbooolean

Unrankbooolean顾名思义得到的信息是无序的。这种方法简单直接，得分匹配就是1，不匹配就是0。

在90年代前一直都是主宰级的办法，但是现在已经基本被淘汰了，因为人们开始逐渐发现人们很难确保query本身是准确的。

RankedBoolean

RankedBoolean就是给予文章得分，办法也很简单，单纯依据tf得分。

那我们讲完了基本被淘汰的exact match，我们来聊一聊best match，best match有以下几种：

Vector space retrieval model (VSM)
Probabilistic retrieval model (BM25)
Statistical Language Model (query likelihood)
Inference networks (Indri)

由于vector space已经基本被业界弃用了，所以我们这边不对它进行展开。

BM25

我们先主要聊一聊BM25。

BM25的展开公式如下图所示。

BM25算法由Steve Robertson创建。M25刚开始叫BM10，BM15，随着一系列的实验和调参最后成了现在这样。

第一部分叫RSJ weight，叫这个是因为Roberson开发了这个算法，Karen Spark Jones是他的mentor，辅助他开发了这个算法，所以联合命名为RSJ weight。

它其实很像idf，主要在idf上做了进一步的优化。

这边的tf weight主要是对文本的长度做了一个标准化（normalization）。因为一个词汇在如果在一篇20字的文本中出现了一次和在一篇2000字的文章中出现了一次，所代表的置信度应该是不一样的，通过标准化处理，我们可以在一定程度上消除长文章的不正当竞争优势。

另一块是user weight，主要用来调节用户的权重，这一部分我们可以相对忽略，业务在实际调参中，user weight的值一般为1。

在这三个可调节参数中，K1调节的是这个调节幅度的强度，B用来调节的是文本长度normalization的程度，K3用来调节的是用户权重的程度。

BM25到这儿基本结束，接下来我们讲下Two-Stage Smoothing算法。

Two-Stage Smoothing算法

要估计一个词汇在文档中出现的估计，很多人首相想到的可能是最大似然估计（Maximum Likelihood Estimation）。

但是在搜索中他是有缺陷的，比如说我们要搜镭射粉AJ夏款，那么可能镭射粉AJ是有的，但是夏款没有。

那么夏款这个词的MLE score就是0，而我们最后是要把镭射粉AJ的分数和夏款的分数相乘的，那么最后结果就是无结果，什么都搜索不到。

这个时候smoothing function就派上用场了，首先我们需要处理一些很少见的term，其次我们要平滑一些很短的文章。

首先我们先介绍下这个jelinek-mercer smoothing function，也叫混合模型。这个模型下我们会有两个最大似然估计，一个是query term基于文档的，一个是query term基于库的。

Lambda用来控制平滑的程度，一般来说当lambda趋向于0的时候，平滑程度趋向于0。那么如何选取lambda呢，我们的实验建议是小的lambda适用于短的query，是大的lambda适用于长的query。

另一个平滑方法是狄利克雷特先验平滑算法，这个算法它的目的是为了调节稀有词和高频词在词库中的出现频次。一般来说mu的值在1000到10000中为比较合适的范畴。

上述各个平滑算法及MLE算法的公式如下所示：

Indri

讲完了BM25和平滑算法，我们来讲一下Indri。

Indri是用统计语言模型和贝叶斯干扰网络构成的。

听起来可能很吓人，但是仔细总结一下，他的关键在于以下几点：

它是一个概率型检索模型
query是结构化的
文档由多样的形式进行表现

这个看起来很复杂，但其实并不复杂，具体表现形式如下：

Callan, 2020*

首先我们有一个网页，每个网页有着它所属的网络结构，比如说标题、主题、URL等等。那么很自然，我们可以将文章拆解为不同的区块。

与此同时，我们在前文提到过平滑模型，我们通过将平滑模型中的两个参数与文章结构相结合我们就可以得到一个文本语言模型，即在这个区块中的贝叶斯概率值。

另外，每一个文档区块都可以拆分成不同的子节点表现形式，比如单字、短语等等，它们也有着各自所对应的贝叶斯概率。这样的话，在文档层面我们就完成了语言模型到贝叶斯概率的转变。

然后我们往下看，I表示某个人的信息需求，这个信息需求一般由一个query来表示，而这个query又由许多子query来构建，我们现在可以思考一下and/or/Near等操作符。

对于每一个query，我们都可以先用nlp拆词拆分成小的单字，再通过操作符进行组合构建，这样每一个query概念就也包含了各自的贝叶斯概率。这就构建了一个query网络。

之后，我们就可以将query网络和我们的文档网络建立连接。通过对query网络和文章网络对似然度进行匹配，我们就可以尽可能准确的找到准确度较高的文章，这就是我们整个Indri网络的体系流程。

引文说明

SEO, 2020. SEO Search Engine - SEO Rank Services. [online] SEO Rank Services. Available at: https://seorankservices.com/search-engines-optimize-site/seo-search-engine/ [Accessed 3 February 2020].

Manning, C., 2008. Introduction To Information Retrieval. 1st ed.

Callan, J., 2020. Search Engine 11642 - Carnegie Mellon University.

文｜Ray

关注得物技术

List 和 Set 的区别不会搬砖的淡水鱼数据结构 list windows 数据结构
List和Set的区别在Java中，List和Set都是Collection接口的子接口，但它们的存储结构、特点、使用场景不同。对比项List（有序、可重复）Set（无序、不可重复）是否允许重复元素✅允许❌不允许是否有序✅按插入顺序排序❌无序（TreeSet除外）是否可以有null✅允许多个null✅只允许一个null底层数据结构数组、链表哈希表、红黑树访问方式通过索引访问通过iterator遍历
RSA加密算法不会搬砖的淡水鱼网络服务器安全
RSA加密算法：数学魔术背后的安全守护者RSA加密算法（Rivest-Shamir-Adleman）是一种广泛使用的公钥加密算法，它在信息安全领域具有重要作用。RSA是由罗纳德·李维斯特（RonRivest）、阿迪·萨莫尔（AdiShamir）和伦纳德·阿德曼（LeonardAdleman）在1977年一起提出的。当时他们三人都在麻省理工学院工作。RSA就是他们三人姓氏开头字母拼在一起组成的。RS
基础算法--背包问题不会搬砖的淡水鱼基础算法算法 java 动态规划贪心算法
背包问题概念完全背包（无限背包）0-1背包概念背包问题是一个经典的组合优化问题，其目标是在给定的一组物品中选择一些物品放入背包中，使得物品的总价值最大化，同时要求背包的总重量不超过背包的容量限制。背包问题有两种常见的变体：完全背包和0-1背包。鉴于完全背包计算过程相对0-1背包简单，这里先讲完全背包。完全背包（无限背包）在完全背包问题中，每个物品可以选择放入背包中的次数是无限的，即可以重复选择。每
基础算法--欧拉函数不会搬砖的淡水鱼基础算法算法 java 数据结构
欧拉函数（Euler’stotientfunction），也称为费马函数，是一个与正整数相关的数论函数，用符号φ(n)表示。欧拉函数φ(n)定义为小于或等于n的正整数中与n互质的数的个数。RSA加密算法（Rivest-Shamir-Adleman）就是通过欧拉函数进行公钥加密。具体而言，对于给定的正整数n，欧拉函数φ(n)计算满足以下条件的k的个数：1≤k≤n，且k与n互质（即k和n的最大公约数为
CUDA编程基础清澜算法面试人工智能 c++算法 nvidia cuda编程
一、快速理解CUDA编程1.1CUDA简介CUDA（ComputeUnifiedDeviceArchitecture）是由NVIDIA推出的并行计算平台和应用程序接口模型。它允许开发者利用NVIDIAGPU的强大计算能力来加速通用计算任务，而不仅仅是图形渲染。通过CUDA，开发者可以编写C、C++或Fortran代码，并将其扩展以在GPU上运行，从而显著提高性能，特别是在处理大规模数据集和复杂算法
泛目录程序：2025快云站群程序的SEO优化功能云惠科技大数据泛目录
快云站群程序的SEO优化功能围绕搜索引擎算法设计，具体包含以下核心模块：1.关键词智能布局密度检测与优化：自动分析内容关键词密度，建议合理区间（2%-8%），避免堆砌或遗漏；多词策略支持：可针对单篇内容设置主关键词+长尾词组合，覆盖更多搜索场景；标题/摘要自动生成：根据关键词智能生成高点击率的标题和Meta描述，提升搜索展示效果。2.内链自动化系统内容关联推荐：基于语义分析，自动在文章中插入相关内
《壹起航：15 年助力中国工厂海外获客，开启全球化新篇》 yiqijianzhan 人工智能大数据
在全球化的汹涌浪潮中，无数中国工厂渴望在海外市场一展宏图。然而，一系列棘手的问题摆在他们面前：怎样成功塑造品牌形象？怎样稳定获取询盘？怎样合理控制营销成本？壹起航，凭借15年深厚的行业积累，整合外贸建站、搜索引擎优化（SEO）以及海外短视频营销等多元服务，为中国工厂开辟出一条轻松拓展海外市场、赢得更多精准订单的便捷之路。一、外贸独立站——企业出海的关键起点在海外市场这片广阔天地里，企业官网不仅是展
【LeetCode 热题100】 23. 合并 K 个升序链表的算法思路及python代码 pljnb LeetCode热题100 算法 leetcode 链表
23.合并K个升序链表给你一个链表数组，每个链表都已经按升序排列。请你将所有链表合并到一个升序链表中，返回合并后的链表。示例1：输入：lists=[[1,4,5],[1,3,4],[2,6]]输出：[1,1,2,3,4,4,5,6]解释：链表数组如下：[1->4->5,1->3->4,2->6]将它们合并到一个有序链表中得到。1->1->2->3->4->4->5->6示例2：输入：lists=[
【Leetcode刷题随笔】59 螺旋矩阵 Poor_DayDreamer leetcode数组篇 Medium Tag leetcode 矩阵算法
1.题目描述给定一个正整数n，生成一个包含1到n2所有元素，且元素按顺时针顺序螺旋排列的nxn正方形矩阵matrix。可结合以下原题链接阅读。原题链接：59螺旋矩阵2.解题思路本题为模拟矩阵填充过程，不需要设计算法，只要完成正确的填充过程即可。首先初始化一个nxn的二维矩阵（涉及到动态内存分配），从矩阵左上角开始往顺时针填充，关键在于填充的转角处不要重复填充，所以对于每条边都要遵循严格的统一规则，
算法入门——二分法 Able Zhao 650829 算法数据结构 c++蓝桥杯
二分法真的很容易出错！！！在用dp学习之后总结了一下二分法二分查找关键总结一、核心思想分治策略：每次将搜索范围缩小一半，适用于有序数组。时间复杂度：O(logn)，比线性查找高效得多。二、关键点前提条件有序性：数组必须有序（升序或降序），否则需先排序（但排序成本O(nlogn)）。静态性：适合静态数据或低频更新的数据（高频更新建议用哈希表或树结构）。两种边界问题左边界：第一个等于目标的位置（或第一
大整数加、减法（Java实现）与debug找错 gfu_ java 算法数据结构
前言这篇文章主要内容涉及大整数加法的实现以及debug使用的简单记录。以前当我碰到程序报错时，总是想找别人帮忙，感觉debug太难了，自己根本看不懂。这次，自己在做一道算法题时，程序能够运行，结果却出错了。本来想找别人帮忙，但想着学习还是要脚踏实地，于是自己硬着头皮上了，先在网上了解如何debug，然后一步一步找到了错误所在。主要是想记录下第一次debug找到问题的快乐。一、大整数加法（java）
Web3身份验证技术对数据保护的影响研究清晨反侦测指纹浏览器社交媒体 web3 ClonBrowser 跨境电商隐私保护
Web3身份验证技术对数据保护的影响研究在这个数字化时代，我们的身份和数据安全比以往任何时候都更加重要。Web3技术以其去中心化和用户主权的核心理念，为个人数据的管理和保护提供了新的视角。本文将探讨Web3身份验证技术如何影响数据保护，并分析其对我们数字生活的影响。Web3身份验证技术简介Web3身份验证技术依托于区块链和先进的加密技术，如非对称加密算法和智能合约，为用户提供了一种全新的身份验证方
金三银四快过去一半了，是时候加把劲了后端go找工作面试
从复旦春招会的15000+岗位争夺战，到AI算法岗年薪百万的“神仙打架”，再到游戏行业20:1的残酷竞争比，今年的金三银四像极了《三体》里的黑暗森林：机会看似遍地，但稍有不慎就成了别人的“背景板”。但现实真的是“投晚了就凉了”吗？数据告诉你真相：智联研究院统计显示，算法工程师、机器人算法工程师等岗位需求同比激增44%，而中小企业的“捡漏窗口”才刚开启。这半个月，我整理了20+场面试实录（含小鹅通、
动态规划算法优化在资源分配问题中的应用 suyang199312 课程设计
摘要资源分配问题广泛存在于各类生产与管理场景，合理分配资源以实现效益最大化至关重要。本文深入剖析动态规划算法在资源分配问题中的应用，详细阐述其基本原理与常规解法，针对常规解法的不足提出创新优化思路，并给出具体实现步骤。通过实际案例分析与实验验证，展示优化后的动态规划算法在提升资源分配效率和效益方面的显著优势，为相关领域的决策制定提供有力支持。引言在经济、工程、计算机科学等众多领域，资源分配问题无处
加密算法的性能优化与安全性平衡研究 sigen520520 笔记
摘要在数字化信息飞速发展的当下，数据安全至关重要，加密算法作为数据保护的核心手段，其性能与安全性直接关乎信息系统的稳定运行。本文深入剖析常见加密算法，详细分析其性能指标与安全性特点，全面探讨在提升加密速度的同时确保安全的有效方法与实践，旨在为构建高效、安全的加密体系提供理论支撑与实践指导。引言随着互联网的普及和信息技术的广泛应用，数据在传输与存储过程中面临诸多安全威胁，如数据泄露、篡改、伪造等。加
Matlab 基于最小二乘向量机 LSSVM + NSGAII 多目标优化算法的工艺参数优化前程算法屋私信获取源码工艺参数优化 matlab 算法多目标优化
Matlab基于最小二乘向量机LSSVM+NSGAII多目标优化算法的工艺参数优化一、引言1.1研究背景与意义在现代工业生产中，工艺参数优化占据着举足轻重的地位。它犹如工业生产的核心引擎，直接影响着企业的生产效率、产品质量以及成本控制。从生产效率角度看，优化工艺参数能够显著提升生产速度。合理的参数设置可使生产设备处于最佳运行状态，减少不必要的停机与等待时间，让生产流程更加顺畅。以汽车制造业为例，通
获取网站流量的方法有哪些？ liuliangpuzi 互联网流量运营数据搜索引擎百度大数据
不同流量源的比例反映了网站所有者不同的管理策略和网站的发展阶段。那么，网站流量来源都有哪些？接下来小编就跟大家浅析下网站流量来源的三大途径，一起来看看吧！1、直接访问来源搜索引擎源和外部链源依赖于外部，因此通常存在较大的不确定性，如搜索引擎算法调整、业务模型调整、策略监管等，这可能会使网站的流量从每天数十万IP急剧下降到数千。对于小型商业站来说，从搜索引擎获取流量是一种更经济实惠、廉价的选择，但对
第六章第六节：C++STL之priority_queue（优先级队列）和仿函数快乐江湖队列 c++queue 优先级队列栈
pdf获取：7281文章目录一：priority_queue（优先级队列）（1）堆与堆排序（2）基本使用（3）“TOPK”问题（4）模拟实现二：仿函数（1）仿函数是什么（2）使用仿函数完成大顶堆和小顶堆的构建一：priority_queue（优先级队列）priority_queue（优先级队列）：在头文件中，除了基本的queue外，还有一个特殊的priority_queue，翻译过来是优先级队列的
LeetCode 热题 100_跳跃游戏（78_55_中等_C++）（贪心算法） Dream it possible！ LeetCode 热题 100 leetcode c++贪心算法算法
LeetCode热题100_跳跃游戏（78_55）题目描述：输入输出样例：题解：解题思路：思路一（贪心算法）：代码实现代码实现（思路一（贪心算法））：以思路一为例进行调试题目描述：给你一个非负整数数组nums，你最初位于数组的第一个下标。数组中的每个元素代表你在该位置可以跳跃的最大长度。判断你是否能够到达最后一个下标，如果可以，返回true；否则，返回false。输入输出样例：示例1：输入：num
第十四届蓝桥杯省赛C++C组——子矩阵（蓝桥杯篇章完结撒花） Dawn_破晓蓝桥杯一个月速成日志蓝桥杯 c++c语言
本来想写的速成日志也没写多少，cb国二，最后一题树形DP调了一小时发现h数组没置-1，最后无果，如果没马虎可能有国一水平了，正儿八经准备用了两个月，因为要考研，每天只学2-3小时的算法，一共刷了300多道题吧，由于之前选过ACM（实验课因为周六去，懒得去还给我挂了）和算法分析课，所以还是有点基础的，如果算上一年前刷的题总共加起来也就400多道题吧。说一下历程吧，一年前的题都是老师布置的作业，迫不得
医疗行业的数据安全怎么防护？ jinan886 网络大数据安全开源软件数据分析
医疗行业的数据安全防护是一个系统工程，需要政府、医疗机构、技术提供商及社会各界共同努力，形成合力。通过构建全方位、多层次的数据安全防护体系，不断提升数据安全防护能力，才能为患者提供更加安全、高效的医疗服务，同时保障医疗行业的稳健发展。医疗行业的数据安全防护至关重要，以下是一些关键措施：1.数据加密传输加密：使用SSL/TLS等协议保护数据传输。存储加密：采用国标算法256位等上邦加密软件算法。2.
【C++篇】排队的艺术：用生活场景讲解优先级队列的实现 far away4002 C++c++stl 优先级队列向下（向上）调整算法
文章目录须知欢迎讨论：如果你在学习过程中有任何问题或想法，欢迎在评论区留言，我们一起交流学习。你的支持是我继续创作的动力！点赞、收藏与分享：觉得这篇文章对你有帮助吗？别忘了点赞、收藏并分享给更多的小伙伴哦！你们的支持是我不断进步的动力！分享给更多人：如果你觉得这篇文章对你有帮助，欢迎分享给更多对C++感兴趣的朋友，让我们一起进步！深入理解与实现：C++优先级队列的模拟实现1.引言在算法和数据结构中
实战LLM强化学习——使用GRPO（DeepSeek R1出圈算法）大富大贵7 程序员知识储备1 程序员知识储备2 程序员知识储备3 经验分享
引言近年来，深度强化学习（DRL）已经成为解决复杂决策问题的一个强有力工具，尤其是在自然语言处理（NLP）领域的广泛应用。通过不断优化决策策略，DRL能在大量数据中学习最佳行为，尤其是大型语言模型（LLM）在任务中展现出的巨大潜力。然而，随着模型规模的扩大和任务复杂性的增加，传统的强化学习算法开始暴露出训练效率低、收敛速度慢等问题。为了解决这些挑战，DeepSeek公司提出了一个新的强化学习算法—
leetcode501-二叉搜索树中的众数记得早睡~ 算法小课堂 leetcode 算法 javascript 数据结构
leetcode501思路由于是二叉搜索树，那么我们知道它的特性：使用中序遍历得到的是从小到大排序的，所以我们利用这个规则，使用count来统计每次出现一个新的数的总个数，maxCount统计最大的个数值，result来存储二叉树中的众数，也就是要得到的结果值，pre用于统计前一个节点值初始化定义好值以后，我们需要使用中序遍历，中间处理逻辑值当pre还不存在的时候或者前一个节点跟后一个节点不相同时
量子密码学技术架构解析与程序员视角算法
量子计算威胁模型分析传统公钥密码体系（RSA/ECC）的安全假设基于：大数分解问题的计算复杂度（RSA）椭圆曲线离散对数问题（ECC）有限域离散对数问题（DSA）Shor算法的时间复杂度为O((logN)^3)，当量子比特数达到阈值时：2048位RSA可在8小时内破解（理论值）ECC-256的破解时间将降至多项式级别Grover算法对对称密码的影响：AES-256的有效安全性降至2^128哈希函数
2023年中职网络安全——SQL注入测试（PL）解析旺仔Sec 网络安全职业技能大赛任务解析服务器运维 web安全 sql 网路安全
SQL注入测试（PL）任务环境说明：服务器场景：Server2312服务器场景操作系统：未知（关闭链接）已知靶机存在网站系统，使用Nmap工具扫描靶机端口，并将网站服务的端口号作为Flag（形式：Flag字符串）值提交。访问网站/admin/pinglun.asp页面，此页面存在SQL注入漏洞，使用排序语句进行列数猜测，将语句作为Flag（形式：URL无空格）值提交。页面没有返回任何有用信息，尝试
Opencv计算机视觉编程攻略-第一节图像读取与基本处理 weixin_44242403 深度学习 opencv 计算机视觉
1.图像读取导入依赖项的h文件#include#include#include#include项目Valuecore.hpp基础数据结构和操作（图像存储、矩阵运算、文件I/O）highgui.hpp图像显示、窗口管理、用户交互（图像/视频显示、用户输入处理、结果保存）imgproc.hpp图像处理算法（图像滤波、几何变换、边缘检测、形态学操作）二读取图片Matimage;//图像矩阵std::co
什么是hessian矩阵红廉骑士兽矩阵线性代数算法机器学习 numpy
Hessian矩阵是一个数学概念，是用来表示函数关于其自变量的二阶偏导数的矩阵。它是一个实对称矩阵，对于多元函数来说，每一个元素是对应自变量关于该函数的二阶偏导数。Hessian矩阵在优化算法和最优化等领域有着重要的应用。
HPC综合-心得与笔记【19】 sakura_sea HPC and 3D Graphics Engine 线性规划
Dijkstra算法【2】基础距离数组dist，设置起点距离为0，其他节点距离为无穷大（∞）用最小堆创建优先队列，将起点放入队列。从队列中取出当前距离最小的节点u。遍历u的每个邻接节点v，计算从起点到v的路径长度：alt=dist[u]+weight(u,v)。如果altdist[u]:continue#遍历邻接节点forv,weightingraph[u].items():alt=dist[u]
高通成都linux engineer intern 一面面经 han_xue_feng java
题解|#KNN算法#在*******里有个叫《题解--2024华南理工校赛.pdf》的文件高通成都linuxengineerintern一面面经两个面试官共25min就结束了，面试氛围还可以，问的很快。1.自我介绍2.问对高通了解多少3.对牛客鼠人传（第四十四集，2024/4/22）刷题：尝试补昨天D，题解看了半天似懂非懂，遂放弃改天再补。做题老是把复杂的问题想简单，简单的问题想复京东物流管理培训
sql统计相同项个数并按名次显示朱辉辉33 java oracle
现在有如下这样一个表： A表 ID Name time ------------------------------ 0001 aaa 2006-11-18 0002 ccc 2006-11-18 0003 eee 2006-11-18 0004 aaa 2006-11-18 0005 eee 2006-11-18 0004 aaa 2006-11-18 0002 ccc 20
Android+Jquery Mobile学习系列-目录白糖_ JQuery Mobile
最近在研究学习基于Android的移动应用开发，准备给家里人做一个应用程序用用。向公司手机移动团队咨询了下，觉得使用Android的WebView上手最快，因为WebView等于是一个内置浏览器，可以基于html页面开发，不用去学习Android自带的七七八八的控件。然后加上Jquery mobile的样式渲染和事件等，就能非常方便的做动态应用了。从现在起，往后一段时间，我打算
如何给线程池命名 daysinsun 线程池
在系统运行后，在线程快照里总是看到线程池的名字为pool-xx，这样导致很不好定位，怎么给线程池一个有意义的名字呢。参照ThreadPoolExecutor类的ThreadFactory，自己实现ThreadFactory接口，重写newThread方法即可。参考代码如下： public class Named
IE 中"HTML Parsing Error:Unable to modify the parent container element before the 周凡杨 html 解析 error readyState
错误： IE 中"HTML Parsing Error:Unable to modify the parent container element before the child element is closed" 现象：同事之间几个IE 测试情况下，有的报这个错，有的不报。经查询资料后，可归纳以下原因。
java上传 g21121 java
我们在做web项目中通常会遇到上传文件的情况，用struts等框架的会直接用的自带的标签和组件，今天说的是利用servlet来完成上传。我们这里利用到commons-fileupload组件，相关jar包可以取apache官网下载：http://commons.apache.org/ 下面是servlet的代码： //定义一个磁盘文件工厂 DiskFileItemFactory fact
SpringMVC配置学习 510888780 spring mvc
spring MVC配置详解现在主流的Web MVC框架除了Struts这个主力外，其次就是Spring MVC了，因此这也是作为一名程序员需要掌握的主流框架，框架选择多了，应对多变的需求和业务时，可实行的方案自然就多了。不过要想灵活运用Spring MVC来应对大多数的Web开发，就必须要掌握它的配置及原理。　　一、Spring MVC环境搭建：（Spring 2.5.6 + Hi
spring mvc-jfreeChart 柱图(1) 布衣凌宇 jfreechart
第一步：下载jfreeChart包，注意是jfreeChart文件lib目录下的，jcommon-1.0.23.jar和jfreechart-1.0.19.jar两个包即可；第二步：配置web.xml; web.xml代码如下 <servlet> <servlet-name>jfreechart</servlet-nam
我的spring学习笔记13-容器扩展点之PropertyPlaceholderConfigurer aijuans Spring3
PropertyPlaceholderConfigurer是个bean工厂后置处理器的实现，也就是BeanFactoryPostProcessor接口的一个实现。关于BeanFactoryPostProcessor和BeanPostProcessor类似。我会在其他地方介绍。PropertyPlaceholderConfigurer可以将上下文（配置文件）中的属性值放在另一个单独的标准java P
java 线程池使用 Runnable&Callable&Future antlove java thread Runnable callable future
1. 创建线程池 ExecutorService executorService = Executors.newCachedThreadPool(); 2. 执行一次线程，调用Runnable接口实现 Future<?> future = executorService.submit(new DefaultRunnable()); System.out.prin
XML语法元素结构的总结百合不是茶 xml 树结构
1.XML介绍1969年 gml (主要目的是要在不同的机器进行通信的数据规范)1985年 sgml standard generralized markup language1993年 html(www网)1998年 xml extensible markup language
改变eclipse编码格式 bijian1013 eclipse 编码格式
1.改变整个工作空间的编码格式改变整个工作空间的编码格式，这样以后新建的文件也是新设置的编码格式。 Eclipse->window->preferences->General->workspace-
javascript中return的设计缺陷 bijian1013 JavaScript AngularJS
代码1： <script> var gisService = (function(window) { return { name:function () { alert(1); } }; })(this); gisService.name(); &l
【持久化框架MyBatis3八】Spring集成MyBatis3 bit1129 Mybatis3
pom.xml配置 Maven的pom中主要包括： MyBatis MyBatis-Spring Spring MySQL-Connector-Java Druid applicationContext.xml配置 <?xml version="1.0" encoding="UTF-8"?> &
java web项目启动时自动加载自定义properties文件 bitray java Web 监听器相对路径
创建一个类 public class ContextInitListener implements ServletContextListener 使得该类成为一个监听器。用于监听整个容器生命周期的，主要是初始化和销毁的。类创建后要在web.xml配置文件中增加一个简单的监听器配置，即刚才我们定义的类。 <listener> <des
用nginx区分文件大小做出不同响应 ronin47
昨晚和前21v的同事聊天，说到我离职后一些技术上的更新。其中有个给某大客户(游戏下载类)的特殊需求设计，因为文件大小差距很大——估计是大版本和补丁的区别——又走的是同一个域名，而squid在响应比较大的文件时，尤其是初次下载的时候，性能比较差，所以拆成两组服务器，squid服务于较小的文件，通过pull方式从peer层获取，nginx服务于较大的文件，通过push方式由peer层分发同步。外部发布
java-67-扑克牌的顺子.从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的.2-10为数字本身，A为1，J为11，Q为12，K为13，而大 bylijinnan java
package com.ljn.base; import java.util.Arrays; import java.util.Random; public class ContinuousPoker { /** * Q67 扑克牌的顺子从扑克牌中随机抽5张牌，判断是不是一个顺子，即这5张牌是不是连续的。 * 2-10为数字本身，A为1，J为1
翟鸿燊老师语录 ccii 翟鸿燊
一、国学应用智慧TAT之亮剑精神A 1. 角色就是人格就像你一回家的时候，你一进屋里面，你已经是儿子，是姑娘啦，给老爸老妈倒怀水吧，你还觉得你是老总呢？还拿派呢？就像今天一样，你们往这儿一坐，你们之间是什么，同学，是朋友。还有下属最忌讳的就是领导向他询问情况的时候，什么我不知道，我不清楚，该你知道的你凭什么不知道
[光速与宇宙]进行光速飞行的一些问题 comsci 问题
在人类整体进入宇宙时代，即将开展深空宇宙探索之前，我有几个猜想想告诉大家仅仅是猜想。。。未经官方证实 1：要在宇宙中进行光速飞行，必须首先获得宇宙中的航行通行证，而这个航行通行证并不是我们平常认为的那种带钢印的证书，是什么呢？下面我来告诉
oracle undo解析 cwqcwqmax9 oracle
oracle undo解析2012-09-24 09:02:01 我来说两句作者：虫师收藏我要投稿 Undo是干嘛用的？ &nb
java中各种集合的详细介绍 dashuaifu java 集合
一，java中各种集合的关系图 Collection 接口的接口对象的集合 ├ List 子接口 &n
卸载windows服务的方法 dcj3sjt126com windows service
卸载Windows服务的方法在Windows中，有一类程序称为服务，在操作系统内核加载完成后就开始加载。这里程序往往运行在操作系统的底层，因此资源占用比较大、执行效率比较高，比较有代表性的就是杀毒软件。但是一旦因为特殊原因不能正确卸载这些程序了，其加载在Windows内的服务就不容易删除了。即便是删除注册表中的相应项目，虽然不启动了，但是系统中仍然存在此项服务，只是没有加载而已。如果安装其他
Warning: The Copy Bundle Resources build phase contains this target's Info.plist dcj3sjt126com ios xcode
http://developer.apple.com/iphone/library/qa/qa2009/qa1649.html Excerpt: You are getting this warning because you probably added your Info.plist file to your Copy Bundle
2014之C++学习笔记（一） Etwo C++Etwo Etwo iterator 迭代器
已经有很长一段时间没有写博客了，可能大家已经淡忘了Etwo这个人的存在，这一年多以来，本人从事了AS的相关开发工作，但最近一段时间，AS在天朝的没落，相信有很多码农也都清楚，现在的页游基本上达到饱和，手机上的游戏基本被unity3D与cocos占据，AS基本没有容身之处。so。。。最近我并不打算直接转型
js跨越获取数据问题记录 haifengwuch jsonp json Ajax
js的跨越问题，普通的ajax无法获取服务器返回的值。第一种解决方案，通过getson，后台配合方式，实现。 Java后台代码： protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException { String ca
蓝色jQuery导航条 ini JavaScript html jquery Web html5
效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/39.htmHTML文件代码： <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml"> <head> <title>jQuery鼠标悬停上下滑动导航条 - 柯乐义<
linux部署jdk,tomcat,mysql kerryg jdk tomcat linux mysql
1、安装java环境jdk: 一般系统都会默认自带的JDK,但是不太好用，都会卸载了，然后重新安装。 1.1）、卸载：（rpm -qa :查询已经安装哪些软件包； rmp -q 软件包：查询指定包是否已
DOMContentLoaded VS onload VS onreadystatechange mutongwu jquery js
1. DOMContentLoaded 在页面html、script、style加载完毕即可触发，无需等待所有资源（image/iframe）加载完毕。（IE9+） 2. onload是最早支持的事件，要求所有资源加载完毕触发。 3. onreadystatechange 开始在IE引入，后来其它浏览器也有一定的实现。涉及以下 document , applet, embed, fra
sql批量插入数据 qifeifei 批量插入
hi，自己在做工程的时候，遇到批量插入数据的数据修复场景。我的思路是在插入前准备一个临时表，临时表的整理就看当时的选择条件了，临时表就是要插入的数据集，最后再批量插入到数据库中。 WITH tempT AS ( SELECT item_id AS combo_id, item_id, now() AS create_date FROM a
log4j打印日志文件如何实现相对路径到项目工程下 thinkfreer Web log4j 应用服务器日志
最近为了实现统计一个网站的访问量，记录用户的登录信息，以方便站长实时了解自己网站的访问情况，选择了Apache 的log4j,但是在选择相对路径那块卡主了，X度了好多方法(其实大多都是一样的内用，还一个字都不差的)，都没有能解决问题，无奈搞了2天终于解决了，与大家分享一下需求：用户登录该网站时，把用户的登录名,ip,时间。统计到一个txt文档里，以方便其他系统调用此txt。项目名
linux下mysql-5.6.23.tar.gz安装与配置笑我痴狂 mysql linux unix
1.卸载系统默认的mysql [root@localhost ~]# rpm -qa | grep mysql mysql-libs-5.1.66-2.el6_3.x86_64 mysql-devel-5.1.66-2.el6_3.x86_64 mysql-5.1.66-2.el6_3.x86_64 [root@localhost ~]# rpm -e mysql-libs-5.1