黄小斜

后端技术杂谈1：搜索引擎基础倒排索引

什么是倒排索引？

　　见其名知其意，有倒排索引，对应肯定，有正向索引。

正向索引（forward index），反向索引（inverted index）更熟悉的名字是倒排索引。

在搜索引擎中每个文件都对应一个文件ID，文件内容被表示为一系列关键词的集合（实际上在搜索引擎索引库中，关键词也已经转换为关键词ID）。例如“文档1”经过分词，提取了20个关键词，每个关键词都会记录它在文档中的出现次数和出现位置。

得到正向索引的结构如下：

“文档1”的ID > 单词1：出现次数，出现位置列表；单词2：出现次数，出现位置列表；…………。

“文档2”的ID > 此文档出现的关键词列表。

　　一般是通过key，去找value。

当用户在主页上搜索关键词“华为手机”时，假设只存在正向索引（forward index），那么就需要扫描索引库中的所有文档，找出所有包含关键词“华为手机”的文档，再根据打分模型进行打分，排出名次后呈现给用户。因为互联网上收录在搜索引擎中的文档的数目是个天文数字，这样的索引结构根本无法满足实时返回排名结果的要求。

所以，搜索引擎会将正向索引重新构建为倒排索引，即把文件ID对应到关键词的映射转换为关键词到文件ID的映射，每个关键词都对应着一系列的文件，这些文件中都出现这个关键词。

得到倒排索引的结构如下：

“关键词1”：“文档1”的ID，“文档2”的ID，…………。

“关键词2”：带有此关键词的文档ID列表。

　　从词的关键字，去找文档。

1.单词——文档矩阵

单词-文档矩阵是表达两者之间所具有的一种包含关系的概念模型，图1展示了其含义。图3-1的每列代表一个文档，每行代表一个单词，打对勾的位置代表包含关系。

　　　　　　　　　　　　　　　　　　　　　　　　图1 单词-文档矩阵

从纵向即文档这个维度来看，每列代表文档包含了哪些单词，比如文档1包含了词汇1和词汇4，而不包含其它单词。从横向即单词这个维度来看，每行代表了哪些文档包含了某个单词。比如对于词汇1来说，文档1和文档4中出现过单词1，而其它文档不包含词汇1。矩阵中其它的行列也可作此种解读。

搜索引擎的索引其实就是实现“单词-文档矩阵”的具体数据结构。可以有不同的方式来实现上述概念模型，比如“倒排索引”、“签名文件”、“后缀树”等方式。但是各项实验数据表明，“倒排索引”是实现单词到文档映射关系的最佳实现方式，所以本博文主要介绍“倒排索引”的技术细节。

2.倒排索引基本概念

文档(Document)：一般搜索引擎的处理对象是互联网网页，而文档这个概念要更宽泛些，代表以文本形式存在的存储对象，相比网页来说，涵盖更多种形式，比如Word，PDF，html，XML等不同格式的文件都可以称之为文档。再比如一封邮件，一条短信，一条微博也可以称之为文档。在本书后续内容，很多情况下会使用文档来表征文本信息。

文档集合(Document Collection)：由若干文档构成的集合称之为文档集合。比如海量的互联网网页或者说大量的电子邮件都是文档集合的具体例子。

文档编号(Document ID)：在搜索引擎内部，会将文档集合内每个文档赋予一个唯一的内部编号，以此编号来作为这个文档的唯一标识，这样方便内部处理，每个文档的内部编号即称之为“文档编号”，后文有时会用DocID来便捷地代表文档编号。

单词编号(Word ID)：与文档编号类似，搜索引擎内部以唯一的编号来表征某个单词，单词编号可以作为某个单词的唯一表征。

倒排索引(Inverted Index)：倒排索引是实现“单词-文档矩阵”的一种具体存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成：“单词词典”和“倒排文件”。

单词词典(Lexicon)：搜索引擎的通常索引单位是单词，单词词典是由文档集合中出现过的所有单词构成的字符串集合，单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。

倒排列表(PostingList)：倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息，每条记录称为一个倒排项(Posting)。根据倒排列表，即可获知哪些文档包含某个单词。

倒排文件(Inverted File)：所有单词的倒排列表往往顺序地存储在磁盘的某个文件里，这个文件即被称之为倒排文件，倒排文件是存储倒排索引的物理文件。

关于这些概念之间的关系，通过图2可以比较清晰的看出来。

3.倒排索引简单实例

倒排索引从逻辑结构和基本思路上来讲非常简单。下面我们通过具体实例来进行说明，使得读者能够对倒排索引有一个宏观而直接的感受。

假设文档集合包含五个文档，每个文档内容如图3所示，在图中最左端一栏是每个文档对应的文档编号。我们的任务就是对这个文档集合建立倒排索引。

　　　　　　　　　　　　　　　　　　　　　　　　　　图3 文档集合

　　中文和英文等语言不同，单词之间没有明确分隔符号，所以首先要用分词系统将文档自动切分成单词序列。这样每个文档就转换为由单词序列构成的数据流，为了系统后续处理方便，需要对每个不同的单词赋予唯一的单词编号，同时记录下哪些文档包含这个单词，在如此处理结束后，我们可以得到最简单的倒排索引（参考图3-4）。在图4中，“单词ID”一栏记录了每个单词的单词编号，第二栏是对应的单词，第三栏即每个单词对应的倒排列表。比如单词“谷歌”，其单词编号为1，倒排列表为{1,2,3,4,5}，说明文档集合中每个文档都包含了这个单词。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　图4 简单的倒排索引

　　之所以说图4所示倒排索引是最简单的，是因为这个索引系统只记载了哪些文档包含某个单词，而事实上，索引系统还可以记录除此之外的更多信息。图5是一个相对复杂些的倒排索引，与图4的基本索引系统比，在单词对应的倒排列表中不仅记录了文档编号，还记载了单词频率信息（TF），即这个单词在某个文档中的出现次数，之所以要记录这个信息，是因为词频信息在搜索结果排序时，计算查询和文档相似度是很重要的一个计算因子，所以将其记录在倒排列表中，以方便后续排序时进行分值计算。在图5的例子里，单词“创始人”的单词编号为7，对应的倒排列表内容为：（3:1），其中的3代表文档编号为3的文档包含这个单词，数字1代表词频信息，即这个单词在3号文档中只出现过1次，其它单词对应的倒排列表所代表含义与此相同。

　　　　　　　　　　　　　　　　　　　　　　　　　　　　图 5 带有单词频率信息的倒排索引

　　实用的倒排索引还可以记载更多的信息，图6所示索引系统除了记录文档编号和单词频率信息外，额外记载了两类信息，即每个单词对应的“文档频率信息”（对应图6的第三栏）以及在倒排列表中记录单词在某个文档出现的位置信息。

　　　　　　　　　　　　　　　　　　　　　　图6 带有单词频率、文档频率和出现位置信息的倒排索引

“文档频率信息”代表了在文档集合中有多少个文档包含某个单词，之所以要记录这个信息，其原因与单词频率信息一样，这个信息在搜索结果排序计算中是非常重要的一个因子。而单词在某个文档中出现的位置信息并非索引系统一定要记录的，在实际的索引系统里可以包含，也可以选择不包含这个信息，之所以如此，因为这个信息对于搜索系统来说并非必需的，位置信息只有在支持“短语查询”的时候才能够派上用场。

以单词“拉斯”为例，其单词编号为8，文档频率为2，代表整个文档集合中有两个文档包含这个单词，对应的倒排列表为：{(3;1;<4>)，(5;1;<4>)},其含义为在文档3和文档5出现过这个单词，单词频率都为1，单词“拉斯”在两个文档中的出现位置都是4，即文档中第四个单词是“拉斯”。

图6所示倒排索引已经是一个非常完备的索引系统，实际搜索系统的索引结构基本如此，区别无非是采取哪些具体的数据结构来实现上述逻辑结构。

有了这个索引系统，搜索引擎可以很方便地响应用户的查询，比如用户输入查询词“Facebook”，搜索系统查找倒排索引，从中可以读出包含这个单词的文档，这些文档就是提供给用户的搜索结果，而利用单词频率信息、文档频率信息即可以对这些候选搜索结果进行排序，计算文档和查询的相似性，按照相似性得分由高到低排序输出，此即为搜索系统的部分内部流程，具体实现方案本书第五章会做详细描述。

4. 单词词典

　　单词词典是倒排索引中非常重要的组成部分，它用来维护文档集合中出现过的所有单词的相关信息，同时用来记载某个单词对应的倒排列表在倒排文件中的位置信息。在支持搜索时，根据用户的查询词，去单词词典里查询，就能够获得相应的倒排列表，并以此作为后续排序的基础。
       对于一个规模很大的文档集合来说，可能包含几十万甚至上百万的不同单词，能否快速定位某个单词，这直接影响搜索时的响应速度，所以需要高效的数据结构来对单词词典进行构建和查找，常用的数据结构包括哈希加链表结构和树形词典结构。
4.1   哈希加链表
       图7是这种词典结构的示意图。这种词典结构主要由两个部分构成：

主体部分是哈希表，每个哈希表项保存一个指针，指针指向冲突链表，在冲突链表里，相同哈希值的单词形成链表结构。之所以会有冲突链表，是因为两个不同单词获得相同的哈希值，如果是这样，在哈希方法里被称做是一次冲突，可以将相同哈希值的单词存储在链表里，以供后续查找。

　　在建立索引的过程中，词典结构也会相应地被构建出来。比如在解析一个新文档的时候，对于某个在文档中出现的单词T，首先利用哈希函数获得其哈希值，之后根据哈希值对应的哈希表项读取其中保存的指针，就找到了对应的冲突链表。如果冲突链表里已经存在这个单词，说明单词在之前解析的文档里已经出现过。如果在冲突链表里没有发现这个单词，说明该单词是首次碰到，则将其加入冲突链表里。通过这种方式，当文档集合内所有文档解析完毕时，相应的词典结构也就建立起来了。

在响应用户查询请求时，其过程与建立词典类似，不同点在于即使词典里没出现过某个单词，也不会添加到词典内。以图7为例，假设用户输入的查询请求为单词3，对这个单词进行哈希，定位到哈希表内的2号槽，从其保留的指针可以获得冲突链表，依次将单词3和冲突链表内的单词比较，发现单词3在冲突链表内，于是找到这个单词，之后可以读出这个单词对应的倒排列表来进行后续的工作，如果没有找到这个单词，说明文档集合内没有任何文档包含单词，则搜索结果为空。

4.2   树形结构
       B树（或者B+树）是另外一种高效查找结构，图8是一个 B树结构示意图。B树与哈希方式查找不同，需要字典项能够按照大小排序（数字或者字符序），而哈希方式则无须数据满足此项要求。
       B树形成了层级查找结构，中间节点用于指出一定顺序范围的词典项目存储在哪个子树中，起到根据词典项比较大小进行导航的作用，最底层的叶子节点存储单词的地址信息，根据这个地址就可以提取出单词字符串。

　　　　　　　　　　　　　　　　　　　　　　　　　　图8 B树查找结构

总结

单词ID：记录每个单词的单词编号；
单词：对应的单词；
文档频率：代表文档集合中有多少个文档包含某个单词
倒排列表：包含单词ID及其他必要信息
DocId：单词出现的文档id
TF：单词在某个文档中出现的次数
POS：单词在文档中出现的位置
以单词“加盟”为例，其单词编号为6，文档频率为3，代表整个文档集合中有三个文档包含这个单词，对应的倒排列表为{(2;1;<4>),(3;1;<7>),(5;1;<5>)}，含义是在文档2，3，5出现过这个单词，在每个文档的出现过1次，单词“加盟”在第一个文档的POS是4，即文档的第四个单词是“加盟”，其他的类似。
这个倒排索引已经是一个非常完备的索引系统，实际搜索系统的索引结构基本如此。

1.python实现二分查找（力扣刷题）踏雪1352 leetcode 算法 python
二分查找（BinarySearch），也称为折半查找，是一种高效的查找算法，适用于在有序数组中查找特定元素。其基本思想是通过将查找范围逐步减半来快速定位目标值。题目力扣704题二分查找力扣35题搜索插入位置力扣34题在排序数组中查找元素的第一个和最后一个位置力扣69题x的平方根力扣367题有效的完全平方数1.力扣704题二分查找题目给定一个n个元素有序的（升序）整型数组nums和一个目标值targ
hot100_74. 搜索二维矩阵 TTXS123456789ABC #BS_算法矩阵线性代数
hot100_74.搜索二维矩阵思路给你一个满足下述两条属性的mxn整数矩阵：每行中的整数从左到右按非严格递增顺序排列。每行的第一个整数大于前一行的最后一个整数。给你一个整数target，如果target在矩阵中，返回true；否则，返回false。示例1：输入：matrix=[[1,3,5,7],[10,11,16,20],[23,30,34,60]],target=3输出：true示例2：输入
构建多维度用户特征矩阵，开发基于Flink CEP的高风险用户识别模型千叶真尹 linq c#
基于FlinkSQLCEP构建多维度用户特征矩阵与高风险用户识别模型，需结合实时特征计算、动态规则管理和复杂事件检测能力。以下是分步骤实现方案（关键点引用搜索结果中的技术方案）：一、多维度用户特征矩阵构建1.数据源整合实时行为流：通过FlinkSQL连接Kafka，定义用户行为表（如登录、交易事件）：SQLCREATETABLEuser_behavior(user_idSTRING,event_t
不同类型的网站选择不同的服务器，那么应该怎么选择服务器呢？咕噜分发企业签名-APP加固-彭于晏服务器运维
制作网站。但做一个盈利的网站并不是那么简单。服务器的选择与网站的性质密切相关。不同类型的网站选择不同的服务器。那么什么样的服务器更适合网站呢？1、站群现在，有很多站长都是站长，因为站长是一种可以在短时间内显著提高搜索引擎优化效果的方法。一个站点集群的特点之一是需要多个独立的ip，独立的服务器可以满足这一要求。特别是对于站群的独立服务器，大部分独立IP将达到数百个。2、对外贸易各外贸网站规模大、流量
Ubuntu 配置备忘录 weixin_30262255 开发工具 git java
OS:Ubuntu12.04（win7的virtualbox）试了好多版本，virtualbox安装不能全屏，VB4.0.20+Ubuntu12.04各种妥源配置：通过修改/etc/apt/source.list实现，源的话不同版本的Ubuntu不一样，网上搜索的时候注意下，一搜一大把（上海，搜狐的源挺好使）代理配置：使用公司网络需要加代理设置，不然使用browser和apt-get都会出问题ap
Spring boot 解决 Plugin ‘org.springframework.boot:spring-boot-maven-plugin:‘ not found 人与神 spring boot maven java
打开pom.xmlCtrl+F搜索spring-boot-starter-parent复制下面一行的版本号`版本号`例如：org.springframework.bootspring-boot-starter-parent3.2.0将复制的内容粘贴到报错的下面org.springframework.bootspring-boot-maven-plugin3.2.0
【WPF开发】控件介绍-TextBox（文本输入框）暮雪倾风 C#WPF 软件开发 wpf windows c#
一、基本介绍1.TextBox控件作用TextBox控件是WPF中用于接收和显示用户单行或多行文本输入的基本控件。它通常用于实现用户输入文本的场景，例如登录界面的用户名和密码输入框，搜索框，或者用于显示和编辑文本内容的场景。2.UI设计技巧在设计UI时，合理使用TextBox控件可以提升用户体验和界面的美观度：布局和位置：根据设计的整体风格和布局，合理放置TextBox，使其与其他控件和元素协调一
不要再搜索字符画了，手把手教你自己使用Python实现图片转字符画 Haku Coder python 开发语言
Python实现图片转字符画本文所涉及以下知识点：Windows命令行操作Python基础pillow库的使用argparse库的使用（官方参考文献）PIL是一个python图像处理库，是本次使用的重点工具，可以使用pipinstallpillow命令来安装pillow（PIL）库。图片转字符画的原理字符画是一系列字符的组合，我们可以把字符看作是比较大块的像素，一个字符能表现一种颜色（为了简化可以
PHP实现站内搜索的开源利器——WindSearch rock365337 WindSearch php 开源搜索引擎
WindSearch是一个基于中文分词，由纯PHP开发全文检索引擎，可快速搭建PHP站点的站内搜索，他没有任何繁琐的安装配置、不需要维护调优、不占用服务器内存、可与PHP项目完美融合在一起。github地址：https://github.com/rock365/windsearch必须极速安装~使用composer安装：composerrequirerock365/windsearch或使用Git
【C++】二分算法介绍＋图片（ programming expert 算法 c++数据结构
二分答案（BinarySearchforAnswer）是一种在单调性基础上通过二分搜索来逼近问题解的算法。它常用于解决一些最优化问题，特别是那些可以通过“判定问题”来验证答案是否可行的问题。以下是对二分答案算法的详细介绍以及一个C++代码示例。二分答案算法的基本原理‌确定单调性‌：首先，必须确保问题的解在某个范围内是单调的，即随着某个参数的变化，问题的解呈现单调递增或递减的性质。‌设计判定函数‌：
高级SQL技术在Python项目中的应用：更进一步的数据分析与集成 Neo Evolution Python sql python 数据分析数据结构学习数据库
引言在第一篇中，我们深入探讨了ORM框架SQLAlchemy的高级用法以及性能优化策略。然而，要充分释放数据库的潜力，我们还需要掌握更多高级SQL特性，并将其与强大的数据分析工具生态系统有效集成。本篇将聚焦于窗口函数、CTE递归查询、JSON操作、全文搜索以及与Pandas的无缝集成，раскрывая高级SQL在数据分析领域的强大威力。窗口函数与分析查询：洞察数据背后的模式窗口函数是现代SQL标
PHP实现站内搜索的开源利器——WindSearch
WindSearch是一个基于中文分词，由纯PHP开发全文检索引擎，可快速搭建PHP站点的站内搜索，他没有任何繁琐的安装配置、不需要维护调优、不占用服务器内存、可与PHP项目完美融合在一起。github地址：https://github.com/rock365/windsearch必须极速安装~使用composer安装：composerrequirerock365/windsearch或使用Git
使用 pgvector 实现 PostgreSQL 语义搜索和 RAG：完整指南 llzwxh888 postgresql 数据库 python
使用pgvector实现PostgreSQL语义搜索和RAG：完整指南1.引言在当今的数据驱动世界中，能够高效地搜索和检索相关信息变得越来越重要。传统的关系型数据库虽然在结构化数据管理方面表现出色，但在处理非结构化数据和语义搜索时往往力不从心。本文将介绍如何使用pgvector扩展来增强PostgreSQL数据库，实现语义搜索和检索增强生成（RAG）功能，从而大大提升数据检索的效率和准确性。2.p
一个完全免费、私有且本地运行的搜索聚合器-FreeAskInternet 星霜笔记开源关注简介免费源码笔记
什么是FreeAskInternetFreeAskInternet是一个完全免费、私有且本地运行的搜索聚合器，使用LLM生成答案，无需GPU。用户可以提出一个问题，系统将使用searxng进行多引擎搜索，并将搜索结果组合到ChatGPT3.5LLM中，并根据搜索结果生成答案。所有进程都在本地运行，不需要GPU或OpenAI或GoogleAPI密钥。特征️完全免费（不需要任何API密钥）完全本地化（
使用SearxNG自建搜索引擎API的详细指南 — 探索多样的搜索可能性 mmlihaio 搜索引擎数据库服务器 python
引言在当今信息泛滥的时代，找到有效的搜索工具显得尤为重要。SearxNG是一种自托管的元搜索引擎，能够整合多种搜索引擎以提供更多样、更精准的搜索结果。本篇文章将介绍如何使用SearxNG的API进行自定义搜索，并提供实用的代码示例。主要内容SearxNG简介SearxNG是一款开源的元搜索引擎，用户可以根据自己的需求自定义搜索结果。其支持多达135种搜索引擎，使其在满足多样化的搜索需求方面展现出强
开源元搜索引擎SearXNG：使用Docker详细搭建部署与使用 JayGboy 搜索引擎 docker 容器 searxng
SearXNG是一款基于Python开发的开源免费互联网元搜索引擎，于2021年从SearX分叉而来。它聚合了来自如Google、Bing等众多搜索引擎及不同数据库的结果，集成超100种公开搜索引擎资源，覆盖综合、新闻、图片等11大类。SearXNG极其注重隐私保护，不会追踪用户或建立档案，采用随机浏览器档案、以实例IP为来源、不使用Cookie等措施。它支持用户自定义搜索引擎，可根据喜好调整默认
清华大学第5弹: 《DeepSeek与AI幻觉》 - 清华大学DeepSeek全套资料完整版 - 持续更新 - PDF免费下载 jiswordsman 人工智能 pdf
由清华大学新闻与传播学院与人工智能学院双聘教授沈阳教授团队倾力打造的《DeepSeek与AI幻觉》，全面呈现，共计38页。《DeepSeek与AI幻觉》报告探讨了AI幻觉的成因、评测方法及其影响，并以DeepSeek模型为例，分析数据偏差、知识固化等问题如何导致幻觉现象。报告还提出缓解策略，如联网搜索、提示词优化，并探讨AI幻觉在科学创新和艺术创作中的潜在价值。点击链接免费下载《DeepSeek与
Unity 文字过长末尾改成省略号 akuojustdoit C#&unity 游戏开发自学游戏 unity 游戏引擎
策划提了个需求是文字超过两行的话那第二行的末尾改成省略号，然后省略剩下的文字搜索后看到了一篇文章https://blog.csdn.net/zzxiang1985/article/details/82225615赋值后调用一次就好，省事了publicvoidSetTextWithEllipsis(TexttextComponent,stringvalue){vargenerator=newText
大模型产品Deepseek（八）、数据嵌入+知识库管理+联网搜索，实现精准的知识查询伯牙碎琴大模型知识库数据嵌入联网搜索大模型 DeepSeek
如何将数据嵌入到DeepSeek中以实现精准的知识查询1.目标DeepSeek是一个强大的基于大模型的知识查询工具，能够通过数据嵌入和智能查询功能提供精确的答案。本文将详细介绍如何在DeepSeek中进行数据嵌入，以便最大化其在实际应用中的价值。2.推荐使用的PageAssist插件为了实现更好的数据处理和查询体验，DeepSeek推荐使用PageAssist插件。该插件能自动将网页内容转换成De
考研冲刺 | 972背诵知识清单是希望川大972信息检索图书馆学情报学档案学四川大学考研 972 知识清单
文章目录前言第一章信息检索概述第二章信息检索的方法与技术第三章搜索引擎第四章国内重要的综合性信息检索系统第五章国外重要的综合性信息检索系统第六章专业性书目信息检索系统第七章专类信息检索第八章移动搜索第九章网络信息检索与利用中的有关问题第十章信息检索的主要应用前言参考书目：《信息检索（第三版）》黄如花本清单的序号上接667知识点|经过三年实战检验的667知识清单本知识清单可基本解决辨析题和问答题（共
leetcode329. 矩阵中的最长递增路径（Python3、c++） AndyLiu1997 Leetcode做题记录 leetcode python 数据结构算法 c++
文章目录leetcode329.矩阵中的最长递增路径方法：深度优先搜索DFS+记忆化思路：代码：Python3：cpp：结果：leetcode329.矩阵中的最长递增路径给定一个整数矩阵，找出最长递增路径的长度。对于每个单元格，你可以往上，下，左，右四个方向移动。你不能在对角线方向上移动或移动到边界外（即不允许环绕）。示例1:输入:nums=[[9,9,4],[6,6,8],[2,1,1]]输出:
【ELK】【Elasticsearch】数据查询方式日月星宿～ elk elk
1.简单查询（URISearch）通过URL参数直接进行查询，适合简单的搜索场景。示例：bash复制GET/index_name/_search?q=field_name:search_value说明：index_name：索引名称。field_name：字段名称。search_value：搜索值。特点：简单易用，适合快速测试。功能有限，不支持复杂的查询逻辑。2.DSL查询（QueryDSL）使用
dify工作流+deepseek开启联网搜索 deepseek
序本文主要研究一下如何使用dify工作流+deepseek开启联网搜索步骤创建工作流创建应用-->创建空白应用-->工作流-->编排开始节点，设置一个名为query的文本添加节点，选择工具websearchapi，去https://app.serply.io/注册得到APIKEY填写进去，之后设置输入变量为开始节点的query添加节点，选择LLM，deepseek-r1:8b，设置SYSTEM为根
S32DS设置新人码农 tools S32DS
目录自定义模版修改默认文件注释自定义模版Window->Perferences；General->Keys，搜索template,找到C/C++ContentAssit添加自己的快捷键；C/C++->Editor->Templates，S32DS提供了部分模版，可以添加自己的模版；应用并保存设置后，回到编辑区，输入自定义模版名称，按快捷键即可自动添加自定义模版；修改默认文件注释Window->Pe
强烈推荐的3款低代码爬虫，程序员必备朱卫军 AI 低代码爬虫网络爬虫
网络爬虫是一种常见的数据采集技术，你可以从网页、APP上抓取任何想要的公开数据，当然需要在合法前提下。爬虫使用场景也很多，比如：搜索引擎机器人爬行网站，分析其内容，然后对其进行排名，比如百度、谷歌价格比较网站，部署机器人自动获取联盟卖家网站上的价格和产品描述，比如什么值得买市场研究公司，使用爬虫从论坛和社交媒体（例如，进行情感分析）提取数据。与屏幕抓取不同，屏幕抓取只复制屏幕上显示的像素，网络爬虫
DeepSeek 学习路线图 CarlowZJ 学习 deepseek
以下是基于最新搜索结果整理的DeepSeek学习路线图，涵盖从基础到高级的系统学习路径，帮助你全面掌握DeepSeek的使用和应用开发。一、基础知识与预备技能1.数学基础线性代数：掌握矩阵运算和向量空间，这是深度学习的核心。概率统计：理解贝叶斯理论和概率分布，用于模型训练和推理。微积分：了解优化算法中的梯度下降等概念。2.编程基础Python：掌握Python编程，这是深度学习和AI开发的主要语言
枚举算法刷题笔记【蓝桥杯】 call me by ur name 算法刷题笔记算法
枚举枚举算法是我们在日常中使用到的最多的一个算法，它的核心思想就是:枚举所有的可能。枚举法的本质就是从所有候选答案中去搜索正确的解,使用该算法需要满足两个条件：(1)可预先确定候选答案的数量；(2)候选答案的范围在求解之前必须有一个确定的集合。枚举算法简单粗暴，他暴力的枚举所有可能，尽可能地尝试所有的方法。虽然枚举算法非常暴力，而且速度可能很慢，但确实我们最应该优先考虑的！因为枚举法变成实现最简单
让浏览器AI起来：基于大模型Agent的浏览器自动化工具深度学习机器优质项目大语言模型计算机杂谈人工智能自动化语言模型开源
最近有个非常火的项目，利用大模型Agent驱动浏览器完成各种操作，如网页搜索、爬虫分析、机票酒店预定、股票监控等，号称全面替代所有在浏览器上的操作，试用方式还是比较简单的，以下将进行简单介绍。快速开始通过pip安装：pipinstallbrowser-use安装web自动化框架：playwrightinstallPlaywright微软开源的一个浏览器自动化框架，主要用于浏览器自动化执行web测试
php命令执行绕过,[投稿]Webshell下命令执行限制及绕过方法科技怪人 php命令执行绕过
0x00前言上传webshell后，执行命令时或许没法执行了，这时我们该分析下原理并想出绕过方式，防守方也必须根据绕过方式想想更强的防御.0x01phpwebshell执行命令原理phpwebshell(以下简称webshell)下是怎么执行系统命令的？我们找一个webshell分析下搜索关键字定位到以下代码Defaultfunctionexecute($cfe){$res='';if($cfe)
010-searx一个可定制的搜索引擎 syuukawa_jj 区块链 dapp blockstack web3 blockchain
本篇文章主要分享一个基于Blockstack的DApp-searx,一个可定制的搜索引擎。1-链接官网地址：https://searx.world/Github地址：https://github.com/agnelvishal/sarchy2-首页展示3-搜索展示4-高级设置可以在高级设置中设定搜索的分类。搜索的内容会根据选择的分类进行显示。对于“可定制的”意思到底是什么，我还不是很清楚，并且官网
基本数据类型和引用类型的初始值 3213213333332132 java基础
package com.array; /** * @Description 测试初始值 * @author FuJianyong * 2015-1-22上午10:31:53 */ public class ArrayTest { ArrayTest at; String str; byte bt; short s; int i; long
摘抄笔记--《编写高质量代码：改善Java程序的151个建议》白糖_ 高质量代码
记得3年前刚到公司，同桌同事见我无事可做就借我看《编写高质量代码：改善Java程序的151个建议》这本书，当时看了几页没上心就没研究了。到上个月在公司偶然看到，于是乎又找来看看，我的天，真是非常多的干货，对于我这种静不下心的人真是帮助莫大呀。看完整本书，也记了不少笔记
【备忘】Django 常用命令及最佳实践 dongwei_6688 django
注意：本文基于 Django 1.8.2 版本生成数据库迁移脚本（python 脚本） python manage.py makemigrations polls 说明：polls 是你的应用名字，运行该命令时需要根据你的应用名字进行调整查看该次迁移需要执行的 SQL 语句（只查看语句，并不应用到数据库上）： python manage.p
阶乘算法之一N! 末尾有多少个零周凡杨 java 算法阶乘面试效率
&n
spring注入servlet g21121 Spring注入
传统的配置方法是无法将bean或属性直接注入到servlet中的，配置代理servlet亦比较麻烦，这里其实有比较简单的方法，其实就是在servlet的init()方法中加入要注入的内容： ServletContext application = getServletContext(); WebApplicationContext wac = WebApplicationContextUtil
Jenkins 命令行操作说明文档 510888780 centos
假设Jenkins的URL为http://22.11.140.38:9080/jenkins/ 基本的格式为 java 基本的格式为 java -jar jenkins-cli.jar [-s JENKINS_URL] command [options][args] 下面具体介绍各个命令的作用及基本使用方法 1. &nb
UnicodeBlock检测中文用法布衣凌宇 UnicodeBlock
/** * 判断输入的是汉字 */ public static boolean isChinese(char c) { Character.UnicodeBlock ub = Character.UnicodeBlock.of(c);
java下实现调用oracle的存储过程和函数 aijuans java orale
1.创建表：STOCK_PRICES 2.插入测试数据： 3.建立一个返回游标： PKG_PUB_UTILS 4.创建和存储过程：P_GET_PRICE 5.创建函数： 6.JAVA调用存储过程返回结果集 JDBCoracle10G_INVO
Velocity Toolbox antlove 模板 tool box velocity
velocity.VelocityUtil package velocity; import org.apache.velocity.Template; import org.apache.velocity.app.Velocity; import org.apache.velocity.app.VelocityEngine; import org.apache.velocity.c
JAVA正则表达式匹配基础百合不是茶 java 正则表达式的匹配
正则表达式;提高程序的性能,简化代码,提高代码的可读性,简化对字符串的操作正则表达式的用途; 字符串的匹配字符串的分割字符串的查找字符串的替换正则表达式的验证语法 [a] //[]表示这个字符只出现一次 ,[a] 表示a只出现一
是否使用EL表达式的配置 bijian1013 jsp web.xml EL EasyTemplate
今天在开发过程中发现一个细节问题，由于前端采用EasyTemplate模板方法实现数据展示，但老是不能正常显示出来。后来发现竟是EL将我的EasyTemplate的${...}解释执行了，导致我的模板不能正常展示后台数据。网
精通Oracle10编程SQL(1-3)PLSQL基础 bijian1013 oracle 数据库 plsql
--只包含执行部分的PL/SQL块 --set serveroutput off begin dbms_output.put_line('Hello,everyone!'); end; select * from emp; --包含定义部分和执行部分的PL/SQL块 declare v_ename varchar2(5); begin select
【Nginx三】Nginx作为反向代理服务器 bit1129 nginx
Nginx一个常用的功能是作为代理服务器。代理服务器通常完成如下的功能：接受客户端请求将请求转发给被代理的服务器从被代理的服务器获得响应结果把响应结果返回给客户端实例本文把Nginx配置成一个简单的代理服务器对于静态的html和图片，直接从Nginx获取对于动态的页面，例如JSP或者Servlet，Nginx则将请求转发给Res
Plugin execution not covered by lifecycle configuration: org.apache.maven.plugin blackproof maven 报错
转：http://stackoverflow.com/questions/6352208/how-to-solve-plugin-execution-not-covered-by-lifecycle-configuration-for-sprin maven报错： Plugin execution not covered by lifecycle configuration:
发布docker程序到marathon ronin47 docker 发布应用
1 发布docker程序到marathon 1.1 搭建私有docker registry 1.1.1 安装docker regisry docker pull docker-registry docker run -t -p 5000:5000 docker-registry 下载docker镜像并发布到私有registry docker pull consol/tomcat-8.0
java-57-用两个栈实现队列&&用两个队列实现一个栈 bylijinnan java
import java.util.ArrayList; import java.util.List; import java.util.Stack; /* * Q 57 用两个栈实现队列 */ public class QueueImplementByTwoStacks { private Stack<Integer> stack1; pr
Nginx配置性能优化 cfyme nginx
转载地址：http://blog.csdn.net/xifeijian/article/details/20956605 大多数的Nginx安装指南告诉你如下基础知识——通过apt-get安装，修改这里或那里的几行配置，好了，你已经有了一个Web服务器了。而且，在大多数情况下，一个常规安装的nginx对你的网站来说已经能很好地工作了。然而，如果你真的想挤压出Nginx的性能，你必
[JAVA图形图像]JAVA体系需要稳扎稳打,逐步推进图像图形处理技术 comsci java
对图形图像进行精确处理，需要大量的数学工具，即使是从底层硬件模拟层开始设计，也离不开大量的数学工具包，因为我认为，JAVA语言体系在图形图像处理模块上面的研发工作，需要从开发一些基础的，类似实时数学函数构造器和解析器的软件包入手，而不是急于利用第三方代码工具来实现一个不严格的图形图像处理软件...... &nb
MonkeyRunner的使用 dai_lm android MonkeyRunner
要使用MonkeyRunner，就要学习使用Python，哎先抄一段官方doc里的代码作用是启动一个程序（应该是启动程序默认的Activity），然后按MENU键，并截屏 # Imports the monkeyrunner modules used by this program from com.android.monkeyrunner import MonkeyRun
Hadoop-- 海量文件的分布式计算处理方案 datamachine mapreduce hadoop 分布式计算
csdn的一个关于hadoop的分布式处理方案，存档。原帖：http://blog.csdn.net/calvinxiu/article/details/1506112。 Hadoop 是Google MapReduce的一个Java实现。MapReduce是一种简化的分布式编程模式，让程序自动分布到一个由普通机器组成的超大集群上并发执行。就如同ja
以資料庫驗證登入 dcj3sjt126com yii
以資料庫驗證登入由於 Yii 內定的原始框架程式, 採用綁定在UserIdentity.php 的 demo 與 admin 帳號密碼: public function authenticate() { $users=array( &nbs
github做webhooks：[2]php版本自动触发更新 dcj3sjt126com github git webhooks
上次已经说过了如何在github控制面板做查看url的返回信息了。这次就到了直接贴钩子代码的时候了。工具/原料 git github 方法/步骤在github的setting里面的webhooks里把我们的url地址填进去。钩子更新的代码如下： error_reportin
Eos开发常用表达式蕃薯耀 Eos开发 Eos入门 Eos开发常用表达式
Eos开发常用表达式 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2014年8月18日 15:03:35 星期一 &
SpringSecurity3.X--SpEL 表达式 hanqunfeng SpringSecurity
使用 Spring 表达式语言配置访问控制，要实现这一功能的直接方式是在<http>配置元素上添加 use-expressions 属性： <http auto-config="true" use-expressions="true"> 这样就会在投票器中自动增加一个投票器：org.springframework
Redis vs Memcache IXHONG redis
1. Redis中，并不是所有的数据都一直存储在内存中的，这是和Memcached相比一个最大的区别。 2. Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。 3. Redis支持数据的备份，即master-slave模式的数据备份。 4. Redis支持数据的持久化，可以将内存中的数据保持在磁盘中，重启的时候可以再次加载进行使用。 Red
Python - 装饰器使用过程中的误区解读 kvhur JavaScript jquery html5 css
大家都知道装饰器是一个很著名的设计模式，经常被用于AOP(面向切面编程)的场景，较为经典的有插入日志，性能测试，事务处理，Web权限校验， Cache等。原文链接：http://www.gbtags.com/gb/share/5563.htm Python语言本身提供了装饰器语法（@），典型的装饰器实现如下： @function_wrapper de
架构师之mybatis-----update 带case when 针对多种情况更新 nannan408 case when
1.前言. 如题. 2. 代码. <update id="batchUpdate" parameterType="java.util.List"> <foreach collection="list" item="list" index=&
Algorithm算法视频教程栏目记者 Algorithm 算法
课程：Algorithm算法视频教程百度网盘下载地址： http://pan.baidu.com/s/1qWFjjQW 密码: 2mji 程序写的好不好,还得看算法屌不屌！Algorithm算法博大精深。一、课程内容：课时1、算法的基本概念 + Sequential search 课时2、Binary search 课时3、Hash table 课时4、Algor
C语言算法之冒泡排序 qiufeihu c 算法
任意输入10个数字由小到大进行排序。代码： #include <stdio.h> int main() { int i,j,t,a[11]; /*定义变量及数组为基本类型*/ for(i = 1;i < 11;i++){ scanf("%d",&a[i]); /*从键盘中输入10个数*/ } for
JSP异常处理 wyzuomumu Web jsp
1.在可能发生异常的网页中通过指令将HTTP请求转发给另一个专门处理异常的网页中: <%@ page errorPage="errors.jsp"%> 2.在处理异常的网页中做如下声明： errors.jsp: <%@ page isErrorPage="true"%>，这样设置完后就可以在网页中直接访问exc