双子孤狼

Elasticsearch 中为什么选择倒排索引而不选择 B 树索引

前言
为什么全文索引不使用 B+ 树进行存储
全文检索
- 正排索引
- 倒排索引
- - 倒排索引如何存储数据
  - - FOR 压缩
    - RBM 压缩
- 倒排索引如何存储
- - 字典树（Tria Tree）
  - FST
  - - FSM
    - 构建 FST
总结

前言

索引可能大家都不陌生，在用关系型数据库时，一些频繁用作查询条件的字段我们都会去建立索引来提升查询效率。在关系型数据库中，我们一般都采用 B 树索引进行存储，所以 B 树索引也是我们接触比较多的一种索引数据结构，然而在 es 中，进行全文搜索的时候却并没有选择使用 B 树索引，而是采用的倒排索引。本文就让我们来看看 es 中的倒排索引是如何存储和检索的吧。

为什么全文索引不使用 B+ 树进行存储

关系型数据库，如 MySQL，其选择的是 B+ 树索引，如下图就是一颗简单的的 B+ 树示例：

上图中蓝色的表示索引值，白色的表示指针，最底层叶子节点除了存储索引值还会存储整条数据（InnoDB 引擎），而根节点和枝节点不会存储数据，B+ 树之所以这么设计就是为了使得根节点和枝节点能够存储更多的节点，因为搜索的时候从根节点开始搜索，每查询一个节点就是一次 IO 操作，所以一个节点能存储更多的索引值能减少磁盘 IO 次数。

如果有想更详细了解 B+ 树的，可以点击这里。

那么到这里我们就可以思考这个问题了，假如索引值本身就很大，那么 B+ 树是不是性能会急剧下降呢？答案是肯定的，因为当索引值很大的话，一个节点能存储的数据会大大减少（一个节点默认是 16kb 大小），B+ 树就会变得更深，每次查询数据所需要的 IO 次数也会更多。而且全文索引就是需要支持对大文本进行索引的，从空间上来说 B+ 树不适合作为全文索引，同时 B+ 树因为每次搜索都是从根节点开始往下搜索，所以会遵循最左匹配原则，而我们使用全文搜索时，往往不会遵循最左匹配原则，所以可能会导致索引失效。

总结起来 B+ 树不适合作为全文搜索索引主要有以下两个原因：

全文索引的文本字段通常会比较长，索引值本身会占用较大空间，从而会加大 B+ 树的深度，影响查询效率。
全文索引往往需要全文搜索，不遵循最左匹配原则，使用 B+ 树可能导致索引失效。

全文检索

在全文检索当中，我们需要对文档进行切词处理，切好之后再将切出来的词和文档进行关联，并进行索引，那么这时候我们应该如何存储关键字和文档的对应关系呢？

正排索引

可能大家都知道，在全文检索中（比如：Elasticsearch）用的是倒排索引，那么既然有倒排索引，自然就有正排索引。

正排索引又称之为前向索引（forward index）。我们以一篇文档为例，那么正排索引可以理解成他是用文档 id 作为索引关键字，同时记录了这篇文档中有哪些词（经过分词器处理），每个词出现的次数已经每个词在文档中的位置。

但是我们平常在搜索的时候，都是输入一个词然后要得到文档，所以很显然，正排索引并不适合于做这种查询，所以一般我们的全文检索用的都是倒排索引，但是倒排索引却并不适合用于聚合运算，所以其实在 es 中的聚合运算用的是正排索引。

倒排索引

倒排索引又称之为反向索引（inverted index）。和正排索引相反，倒排索引使用的是词来作为索引关键字，并同时记录了哪些文档中有这个词。

在这里我们以一个英文文档为例子，之所以选择用英文文档是因为英文分词比较简单，直接以空格进行分词即可，而中文分词相对比较复杂。

我们以 Elasticsearch 官网中下面两句话作为两位文档来分析：

Elasticsearch is the distributed search and analytics engine at the heart of the Elastic Stack.
Elasticsearch provides near real-time search and analytics for all types of data.

根据上面两句话，假设我们可以得到下面这样的一个索引结构：

term index	term dictionary	Posting list TF
term 索引	elasticsearch	[1,2]
term 索引	search	[1,2]
term 索引	elastic	[1]
term 索引	provides	[2]

其中：

term index：顾名思议，这个是为 term（经过分词后的每个词）建立的索引，也就是通过这个索引可以快速找到当前 term 的位置，从而找到对应的 Posting list。因为在 es 中，会为每个字段都建立索引（默认存储在内存中），所以当我们的数据量非常大的时候，就需要能快速定位到这个词对应的索引所在的内存位置，所以就单独为每个 term 建立了索引，这个索引一般可以选择哈希表或者 B+ 树进行索引存储。
term dictionary：记录了文档中去重后的所有词（经过分词器处理）。
Posting list TF：记录了含有当前词的文档以及当前词出现在文档的位置（偏移量），该项信息是一个数组，上面表格中为了简单只列举了文档 id，实际上这里会存储很多信息。

这时候假如我们搜索 Elasticsearch Elastic 这样的关键字，那么会经过以下步骤：

对输入的关键字进行分词处理，得到两个词：elasticsearch 和 elastic（经过分词器之后大写字母都会转化成小写字母）。
然后分别用这两个词进行搜索，搜索之后，发现 elasticsearch 在两个文档中都有出现，而 elastic 只在文档一中出现。
最终的搜索结果就是文档一和文档二都返回，但是因为文档一两个词都命中了，所以相关度（分数）更高，于是文档一会排在文档二前面，这就是算分的过程。不过需要注意的是，实际的这种相关度分数算法不会这么简单，而是有专门的算法来计算，命中词多的并不一定会出现在前面。

倒排索引如何存储数据

知道了倒排索引的搜索过程，那么倒排索引的数据又是如何存储的呢？

回答这个问题之前我们先来看另一个问题，那就是建立索引的目的是什么？最直接的目的肯定是为了加快检索速度，而为了达到这个目的，那么在不考虑其他因素的情况下，必然是需要占用的空间越少越好，而为了减少占用空间，可能就需要压缩之后再进行存储，而压缩之后又涉及到解压缩，所以采用的压缩算法也需要能达到快速压缩和解压的目的。

FOR 压缩

FOR 压缩算法即 Frame Of Reference。这种算法比较简单，也有一定的局限性，因为其对存储的文档 id 有一定要求。

假设现在有一亿个文档，对应的文档 id 就是从 1 开始自增。假设现在关键字 elasticsearch 存在于 1000W 个文档中，而这 1000W 个文档恰好就是从 1 到 1000W，那么假如不采用任何压缩算法，直接进行存储需要占用多少空间？

int 类型占用了 4 个字节，而 1000W 这个数量级需要 2 的 24 次方，也就是说如果用二进制来存储，在不考虑符号位的情况下也需要 24 个 bit 才能存储，而因为 Posting list TF 是一个数组，所以为了能解析出数据，文档 id=1 的数据也需要用 24 个 bit 来进行存储，这样就会极大的浪费了空间。

为了解决这个问题，我们就需要使用 FOR 算法，FOR 算法并不直接存储文档 id，而是存储差值，像这种这么规律的文档 id，差值都是 1，而 1 转成二进制就可以只使用 1 个 bit 进行存储，这样就只需要 1000W 个 bit 的空间来进行存储就够了，相比较直接存储原始文档 id 的情况下，这种场景采用 FOR 算法大大减少了空间。

上面举的这个例子是比较理想的情况，然而实际上这种概率是比较小的，那我们再来看下面这一组文档 id：

1,9,15,45,68,323,457

这个数组计算差值后得到下面这个数组：

8,6,30,23,255,134

这个时候如果还是直接用普通差值的算法，虽然也能节省空间，但是却并不是最优的一种解决方案，那么这个时候有没有一种更高效的方法来进行存储呢？

我们观察下这个差值数组，发现这个数组可以进一步拆分成两组：

[8,6,30,23]：这一组最大值为 30，只需要 5 个比特就能进行存储。
[255,134]：这一组最大值为 255，需要 8 个比特就能存储。

这么拆分之后，原始数据需要用 32*7=224 个比特（原始数据直接用 int 存储），普通差值需要 8*6=48 个比特，而经过分组差值拆分之后只需要 5*4+8*2=36 个比特，进一步压缩了空间，这种优势随着数据量的增加会更加明显。

但是不管采用哪种方案都有一个问题，那就是进行差值或者拆分之后，怎么还原数据，解压的时候怎么知道差值数组内的元素占用空间大小？

所以对每一个数据，还需要一块一个字节的空间大小来存储当前数组内元素占用的比特数，所以分组并不是越细越好，假如对每一个差值元素都单独存储，那么反而会比不分组更浪费空间，反之，如果每个分组内的元素足够多，那么存储占用空间的这一个字节反带来的影响就会更小或者忽略不计。

RBM 压缩

上面例子中介绍的差值都不会大相径庭，那么假如我们差值计算之后得到的数组，其每个元素差别都很大呢？比如说下面这个文档 id 数组：

1000,62101,131385,132052,191173,196658

这个数组大家可以去计算一下差值，计算之后会发现一个大一个小，两个差值之间差距很大，所以这种方式就不适合于用 FOR 压缩，所以我们就需要有另外的压缩算法来提升效率，这就是 RBM 压缩。

RBM 压缩算法即 Roaring Bitmap，是在 2016 年由 S. Chambi、D. Lemire、O. Kaser 等人在论文《Better bitmap performance with Roaring bitmaps》与《Consistently faster and smaller compressed bitmaps with Roaring》中提出来的。

RBM 压缩算法的核心思想是：将 32 位无符号整数按照高 16 位进行划分容器，即最多可能有 65536 个 container。因为 65536 实际上就是 2 的 16 次方，而一个无符号 int 类型正好是需要 32 位进行存储，划分为高低位正好两边都是 16 位，也就是最多 65536 个。

划分之后根据高 16 位去找 container（比如高 16 位计算的结果是 1 就去找 container_1，2 就去找 container_2，依次类推），找到之后如果发现容器不存在，那么就会新建一个容器，并且把低 16 位存入容器内，如果容器存在，就直接将低 16 位存入容器。

这样就会出现一个现象：那就是容器最多有 65536 个，而每个容器内的元素也恰好最多是 65536 个元素。

也就是上面的数组经过计算就会得到以下容器（container_1 没有元素）：

如果说大家觉得上面的高低 16 位不好理解，那么可以这么理解，我们把数组中的元素全部除以 65536，对其取模，每得到一个模就创建一个容器，而其余数就放入对应的模所对应的容器中。因为一个 int 类型就是 2 的 32 次方，正好是 65536 的平方。

经过运算之后得到容器，那么容器中的元素又该如何进行存储呢？可以选择直接存储，也可以选择其他更高效的存储方式。在 RBM 算法中，总共有三种容器类型，分别采用不同的方法来存储容器中的元素：

ArrayContainer

ArrayContainer 采用 short 数组来进行存储，因为每个容器中的元素最大值就是 65535，采用 2 个字节进行存储。这种存储方式的特点是随着元素个数的增多，所需空间会一直增大。

BitmapContainer

BitmapContainer 采用位图的方式进行存储，也就是固定创建一个 65536 长度的容器，容器中每个元素只用一个比特进行存储，某一个位置有元素则存储 1，没有元素则存储为 0。这种存储方式的特点是空间固定就是占用 65536 个比特，也就是大小固定为 8kb。

RunContainer

RunContainer 比较特殊，在特定场景下会使用，比如文档 id 从 1-100 是连续的，那么采用这种容器就可以直接存 1,99，表示 1 后面有 99 个连续的数字，再比如 1,2,3,4,5,6,10,11,12,13 可以被压缩为 1,5,10,3，表示 1 后面有 5 个连续数字，10 后面有 3 个连续数字。

至于每次存储采用什么容器，需要进行一下判定，比如 ArrayContainer，当存储的元素少于 4096 个时，他会比 BitmapContainer 占用更少空间，而当大于 4096 个元素时，采用 ArrayContainer 所需要的空间就会大于 8kb，那么采用 BitmapContainer 就会占用更少空间。

倒排索引如何存储

前面我们讲了 es 中的倒排索引采用的是什么压缩算法进行压缩，那么压缩之后的数据是如何落地到磁盘的呢？采用的是什么数据结构呢？

字典树（Tria Tree）

字典树又称之为前缀树（Prefix Tree），是一种哈希树的变种，可以用于搜索时的自动补全、拼写检查、最长前缀匹配等。

字典树有以下三个特点：

根节点不包含字符，除根节点外的其余每个节点都只包含一个字符。
从根节点到某一节点，将路径上经过的所有字符连接起来，即为该节点对应的字符串。
每个节点的所有子节点包含的字符都不相同。

下图所示就是在数据结构网站上依次输入以下单词（AFGCC、AFG、ABP、TAGCC）后生成的一颗字典树：

上图中可以发现根节点没有字母，除了根节点之外其余节点有白色和绿色两种颜色之分，这两种颜色的节点有什么区别呢？

绿色的节点表示当前节点是一个 Final 节点，也就是说当前节点是某一个单词的结束节点，搜索的时候当发现末尾节点是一个 Final 节点则表示当前字母存在，否则表示不存在。

比如我现在搜索 ABP，从根节点往下找的时候，最后发现 P 是一个 Final 节点，那就表示当前树中存在字符串 ABP，如果搜索 AFGC，虽然也能找到这些字母，但是 C 并不是一个 Final 节点，所以字符串 AFGC 并不存在。

不过字典树存在一个问题，上图中就可以体现出来，比如第二列中的后缀 FGCC 和第三列中的 GCC 其实最后三个字符是重复的，但是这些重复的字符串都单独存储了，并没有被复用，也就是说字典树没有解决后缀共用问题，只解决了前缀共用（这也是字典树又被称之为前缀树的原因）。当数据量达到一定级别的时候，只共享前缀不共享后缀也会带来很多空间的浪费，那么如何来解决这个问题呢？

FST

要解决上面字典树的缺陷其实思路也很简单，就是除了利用字符串的前缀，同时也将相同的后缀进行利用，这就是 FST，在了解 FST 之前，我们先了解另一个概念，那就是 FSM，即：Finite State Transducer。

FSM

FSM，即 Finite State Machine，翻译为：有限状态机。如果大家有了解过设计模式中的状态模式的话，那么应该会对状态机有一定了解。有限状态机顾明思议就是状态可以全部被列举出来，然后随着不同的操作在不同的状态之间流程。

如下图所示就是一个简易的有限状态机（假设一个人一天做的事就是下面的所有状态，那么状态之间可以切换流转，下图中的数字表示状态的转换条件）：

有限状态机主要有以下两个特点：

状态是有限的，可以被全部列举出来。
状态与状态之间可以流转。

而我们今天所需要学习的 FST，其实就是通过 FSM 演化而来。

继续回到我们上面的那颗字典树，那么假如现在我们换成 FST 来存储，会得到如下的数据结构：

上面这幅图是怎么得到的呢？字母后的数字又代表了什么含义呢？有些节点有数字，有些是空白又有什么区别呢？这幅图又是如何区分 Final 节点呢？接下来我们就一步步来来构建一个 FST。

构建 FST

首先我们知道，既然现在讲的是存储索引，所以除了 key 之外自然得有 value，否则是没有意义的，所以上图中其实字母就代表了索引关键字，也就是 key，而后面的数字代表了存储的文档 id（最终会转换成二进制存储），然而这个每个数字代表的 id 又可能是不完整的，这个我们下面会解释原因。

首先我们收到第一个存储索引的的键值对 AFGCC/5，得到如下图：

上图中红色代表开始节点，深灰色代表结束节点，加粗的线条代表其后面的节点是一个 Final 节点。这里有一个问题，那就是 5 为什么要存储在第一条线（没有存储数字的线上实际上是一个 null 值），实际上我存储在后面的任意一条线都可以，因为最终搜索的时候会把整条线路上所有的数字加起来得到最终的 value，这也就是上面我为什么说每一条线上的 value 可能是不完整的，因为一个 value 可能会被拆成好几个数字相加，并且存储在不同的线上。

首先这个 5 为什么要存储在第一段其实是为了提高复用率，因为越往前复用的机会可能就会越大。

继续存储第二个索引键值对 AFG/10，这时候得到下图：

这时候我们发现，G 后面的节点存储了一个 5，其他线段上并没有存储数字，这是为什么呢？因为 10=5+5，而前面第一段已经存储了一个 5，后面一个 5 存储在任何一段线上都会影响到我们的第一个键值对 AFGCC/5，所以这时候就只能把他存储在当前索引 key 所对应的 Final 节点上（源码中有一个属性 output），因为搜索的时候，如果路过不属于自己的 Final 节点上的 value，是不会相加的，所以当我们搜索第一个索引值 AFGCC 的时候，是不会把 G 后面的 Final 节点中的 value 取出来相加的。
接下来继续存储第三个索引键值对 ABP/2，这时候得到下图：

这时候因为 ABP 字符串和前面共用了 A，而 A 对应的 value 是 5，已经比 2 大了，所以只要共用 A，那么是无论如何也无法存储成功的，所以就只能把第一个节点 5 拆成 2+3，原先 A 的位置存储 2，那么后面的 3 遵循前面的原则，越靠前存储复用的概率越大，所以存在第二段线也就是字符 F 对应的位置，这时候就都满足条件了。

最后我们来存储最后一个索引键值对 TAGCC/6，最终得到如下图：

这时候因为 GCC 这个后缀和前面是共用的，而恰好 GCC 之后的线上都没有存储 value，所以直接把这个 6 存储在第一段线即可，注意，如果这里再次发生冲突，那么就需要再次重新分配每一段 value，到这里我们就得到和上图中网站内生成的一样的 FST 了。

总结

本文主要讲解了在 Elasticsearch 中是如何利用倒排索引来进行数据检索的，并讲述了倒排索引中的 FOR 和 RBM 两种压缩算法的原理以及使用场景，最后对比了字典树（前缀树）和 FST 两种数据结构存储的区别，并最终得出了为什么 es 中选择 FST 而不是选择字典树来进行存储索引数据的原因。

你可能感兴趣的:(Elasticsearch,倒排索引,FST,FOR,压缩,RBM压缩,字典树)

【目标检测】机场内部目标检测数据集4106张YOLO+VOC格式
数据集格式：VOC格式+YOLO格式压缩包内含：3个文件夹，分别存储图片、xml、txt文件JPEGImages文件夹中jpg图片总计：4106Annotations文件夹中xml文件总计：4106labels文件夹中txt文件总计：4106标签种类数：7标签名称:["Ground_vehicles","Horizontal_sign","Runaway_limit","Taxiway","Ver
[特殊字符] 实时数据洪流突围战：Flink+Paimon实现毫秒级分析的架构革命（附压测报告）——日均百亿级数据处理成本降低60%的工业级方案 Lucas55555555 flink 大数据
引言：流批一体的时代拐点据阿里云2025白皮书显示，实时数据处理需求年增速达240%，但传统Lambda架构资源消耗占比超运维成本的70%。某电商平台借助Flink+Paimon重构实时数仓后，端到端延迟从分钟级压缩至800ms，计算资源节省5.6万核/月。技术红利窗口期：2025年ApachePaimon1.0正式发布，支持秒级快照与湖仓一体，成为替代Iceberg的新范式一、痛点深挖：实时数仓
如何为加壳保护后的程序提供调试支持深盾科技安全开发语言
在软件开发领域，加壳保护是一种常见的安全手段，用于防止程序被逆向分析。然而，当程序崩溃时，开发人员需要定位原始错误位置，这就与加壳保护产生了天然的矛盾。本文将从加壳原理出发，为大家介绍兼容调试的解决方案。一、加壳的基本功能1.加密/压缩加壳最常见的功能就是对程序的整个代码段和数据段进行压缩或加密。这样做的目的是防止静态反编译，但在程序运行过程中，代码段和数据段是明文状态，所以不会对调试造成影响。2
.NET nupkg包的深度解析与安全防护指南深盾科技 .net
在.NET开发领域，nupkg包是开发者们不可或缺的工具。它不仅是代码分发和资源共享的核心载体，还贯穿了开发、构建、部署的全流程。今天，我们将深入探讨nupkg包的核心功能、打包发布流程以及安全防护措施，帮助你在.NET开发中更加得心应手。nupkg包的核心功能nupkg是NuGet包的文件格式，本质上是一个ZIP压缩包，包含编译后的程序集（.dll文件）、调试符号（.pdb文件）、描述文件（.n
three前置课程知识
学习中文网(1.threejs文件包下载和目录简介|Three.js中文网)threejs官方文件包所有版本：https://github.com/mrdoob/three.js/releases更新迭代较快，要选择对应版本使用---下载zip压缩包Threejs官网中文文档链接：https://threejs.org/docs/index.html#manual/zh/重要的内容docs包:文档
linux/ubuntu启动引导过程详细分析奇妙之二进制 #linux ubuntu postgresql
文章目录**一、固件初始化阶段（BIOS/UEFI）****1.BIOS（基本输入输出系统）模式****2.UEFI（统一可扩展固件接口）模式****二、引导加载程序阶段（GRUB2）****1.GRUB2的加载过程****2.GRUB配置解析****3.内核参数传递****三、内核加载与初始化****1.内核解压缩与启动****2.initramfs（初始内存文件系统）加载****3.根文件系统
Android 图像处理 - Bitmap 图像处理观察记录（基本图像复制、带目录创建的图像复制、字节流处理的图像复制、并发图像复制、单线程池顺序图像复制）
Bitmap图像处理观察记录1、基本图像复制从应用内部存储目录读取test.png使用BitmapFactory解码为Bitmap对象将Bitmap重新压缩保存为newTest.png操作成功，compress返回trueFilefile=newFile(getFilesDir(),"test.png");StringabsolutePath=file.getAbsolutePath();Bitm
C++系列（十一）：文件操作神技 --- 从文本到二进制，彻底玩转数据持久化！傅里叶的耶 C++语言系列（教程 +实战）c++文本操作
引言在瞬息万变的程序世界中，内存数据如同沙堡般脆弱——程序关闭的瞬间，所有精心计算的成果、用户定制的配置、酣战已久的游戏进度都归于虚无。正是这种数据易逝性，让文件操作成为C++开发者必须掌握的核心生存技能。当你的应用需要记住用户偏好，当科学计算需要导出万亿级结果，当游戏需要保存玩家征程，文件I/O便是连接代码与现实世界的终极桥梁。通过fstream三剑客（ofstream/ifstream/fst
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
Elasticsearch混合搜索深度解析（下）：执行机制与完整流程 GeminiJM ES学习笔记 elasticsearch jenkins 大数据
引言在上篇中，我们发现了KNN结果通过SubSearch机制被保留的关键事实。本篇将继续深入分析混合搜索的执行机制，揭示完整的处理流程，并解答之前的所有疑惑。深入源码分析1.SubSearch的执行机制1.1KnnScoreDocQueryBuilder的实现KNN结果被转换为KnnScoreDocQueryBuilder，这个类负责在查询阶段重新执行KNN搜索：//server/src/main
银河麒麟V10离线安装Docker checkQQ 安装部署记录 Devops工具使用 Liunx运维工具 docker 容器运维
场景：内网环境，无法连接公网，需要在麒麟系统部署一个docker环境运行容器。一、准备docker离线安装包：Indexoflinux/static/stable/x86_64/https://download.docker.com/linux/static/stable/x86_64/选择合适的版本，这里个人选择的20.10.14二、上传压缩包到服务器后进行解压tar--strip-compon
统信UOS安装Oracle 11g的客户端 u011189649 oracle 数据库
统信UOS安装Oracle11g的客户端一个积分的下载地址https://download.csdn.net/download/u011189649/89791511解压客户端压缩文件到/db/#首先执行xhost+xhost+#上传linux.x64_11gR2_client.zip文件至/db/目录;#如果上传不了就在局域网搭个http服务，然后用wget下载#wgethttp://ip/li
医疗金融预测与语音识别中的模型优化及可解释性技术突破智能计算研究中心其他
内容概要随着人工智能技术的纵深发展，模型优化与可解释性技术正在重塑医疗诊断、金融预测及语音识别领域的应用范式。在医疗领域，基于自适应学习的动态参数调整机制，结合迁移学习的跨场景知识复用，显著提升了疾病筛查模型的泛化能力；而金融预测场景中，联邦学习框架通过分布式数据协作，在保障隐私安全的前提下，实现了风险预测模型的多维度优化。语音识别领域则依托边缘计算架构，将模型压缩技术与实时推理引擎结合，有效解决
字典树前缀匹配 hi error.cn 经验分享
字典树前缀匹配什么是字典树（Trie）字典树（Trie），又称单词查找树或键树，是一种有序树结构的数据结构，常用于字符串关联查找的应用场景中。其主要特点是每个节点代表一个字符，并且从根到子节点的路径上的字符连起来构成所有在字典中的前缀。由于这种特性，字典树特别适合进行前缀匹配和自动补全等操作。字典树的基本结构字典树由节点（Node）和边（Edge）组成。每个节点表示一个字符或为空终结符，而边则代表
二、基础-python基础编程[基础语法、控制语句、数据类型] HongXu_CaiYi python相关 python 开发语言
目录体系划分基础语法注释&帮助变量&数据类型&类型转换变量数据类型类型转换运算符输入&输出控制台输入输出控制【分支if、循环while|for、pass】分支控制if循环控制while循环控制forpass语句数据类型操作数值类型表现形式进制转换常用操作布尔类型字符串类型使用与分类常用操作连接切片查找计算类转换类填充压缩分割拼接判定列表类型概念&定义常用操作迭代器补充元组概念与定义常用操作字典概念
Android OkHttp使用与底层机制详解你过来啊你 android okhttp
OkHttp是Square公司开发的一个高效、功能强大的HTTP客户端库，因其简洁的API、灵活的拦截器链、内置连接池、透明GZIP压缩、响应缓存以及对HTTP/2和WebSocket的支持，已成为Android和Java应用开发中事实上的标准网络库。一、OkHttp的核心使用1.基本请求流程//1.创建OkHttpClient实例(通常全局共享一个实例)OkHttpClientclient=ne
linux打包指令和移动指令
在Linux中，常用的文件夹打包命令是tar，它可以将文件夹压缩打包成.tar、.tar.gz、.tar.bz2等格式的文件。以下是具体用法：1.基础打包（不压缩，生成.tar文件）将文件夹folder打包为folder.tar：tar-cvffolder.tarfolder/参数说明：-c：创建新的归档文件（打包）。-v：显示打包过程（verbose，可选，方便查看进度）。-f：指定打包后的文件
零代码玩转大模型！LLaMA Factory：你的专属模型精修师 jane_xing 人工智能 llama
你是否曾对大语言模型（LLM）的强大能力心驰神往，却苦于以下难题？想定制专属模型？微调代码看不懂，环境配置太复杂…硬件资源有限？动辄需要数张A100，普通设备望而却步…中文任务不给力？原生模型中文理解弱，效果难达预期…部署门槛高？模型优化、压缩、服务化步步是坎？好消息是：LLaMAFactory来拯救你啦！它就像一家功能齐全的“模型精修店”，让你无需深厚AI功底，也能轻松定制、优化和部署大模型！一
汽车加气站操作工分类有几种学视线123 其他
2025年汽车加气站操作工分类及专业要求一、按能源类型分类CNG操作工•专业范围：20MPa高压气体操作•特殊要求：需掌握压缩机群控技术LNG操作工•专业范围：-162℃低温储罐管理•特殊要求：BOG再液化系统操作资质氢气操作工•专业范围：70MPa高压加氢•特殊要求：氢脆防护专项培训LPG操作工•专业范围：丙烷/丁烷混合气体•特殊要求：钢瓶残液处理认证二、按岗位职能分类加注操作岗•核心技能：标准
前沿交叉：Fluent与深度学习驱动的流体力学计算体系 m0_75133639 流体力学深度学习人工智能航空航天 fluent 流体力学材料科学 CFD
基础模块流体力学方程求解1、不可压缩N-S方程数值解法（有限差分/有限元/伪谱法）·Fluent工业级应用：稳态/瞬态流、两相流仿真（圆柱绕流、入水问题）·Tecplot流场可视化与数据导出2、CFD数据的AI预处理·基于PCA/SVD的流场数据降维·特征值分解与时空特征提取深度学习核心3.物理机理嵌入的神经网络架构·物理信息神经网络（PINN）：将N-S方程嵌入损失函数（JAX框架实现）·神经常
解决Minizip压缩后解压时的头部错误问题超喜欢下雨天日常 c++7-zip
最近，在处理文件压缩的任务时，我遇到了一个有趣的问题。使用Minizip库进行文件压缩后，在解压过程中收到了一个关于"头部错误"的警告。尽管这个警告看似令人担忧，但解压操作最终仍然能够成功完成文件的解压。这引发了我的好奇心，我决定深入探究这个问题。首先，想分享一下我使用的压缩代码：boolXXXCompressor::compressData(conststd::string&input_file
SkyWalking + Logstash全链路追踪系统详细实施方案 @淡定 skywalking
SkyWalking+Logstash全链路追踪系统详细实施方案一、系统架构与数据流向核心流程：数据采集：SkyWalkingAgent埋点收集调用链路数据日志增强：应用程序通过MDC注入TraceID日志收集：Logstash采集应用日志并发送至Elasticsearch数据存储：SkyWalking指标数据与日志数据分别存储可视化分析：SkyWalkingUI展示链路追踪，Kibana分析日志
简说scp命令伊成其它服务器 linux 运维
简单介绍scp的全称是：SecureCopyProtocol（安全复制协议），是Linux中用于在网络中安全传输文件的命令行工具。它基于SSH协议，用于在本地服务器和远程服务器之间，或者两台远程服务器之间复制文件或目录。scp基本语法格式如下：scp[选项]源路径目标路径常用选项说明：-r：递归复制整个目录。-P：指定非默认的SSH端口号，默认为22。这里注意为大写的P。-C：启用压缩，提高传输效
自建ELK vs 云商日志服务：成本对比分析亲爱的非洲野猪 elk
在当今数据驱动的时代，日志管理已成为企业IT基础设施中不可或缺的一部分。面对日益增长的日志数据，许多团队都在纠结：是自建ELK（Elasticsearch、Logstash、Kibana）堆栈，还是直接使用云服务商提供的日志服务？本文将从成本角度对这两种方案进行详细对比分析。自建ELK方案成本分析1.硬件/基础设施成本服务器成本：至少需要3个节点（生产环境推荐）实现高可用中等规模部署：3台16核6
【spring boot】三种日志系统对比：ELK、Loki+Grafana、Docker API ladymorgana 日常工作总结 spring boot elk grafana
文章目录**方案1：使用ELK（Elasticsearch+Logstash+Kibana）****适用场景****搭建步骤****1.修改SpringBoot日志输出****2.创建DockerCompose文件****3.配置Logstash****4.启动服务****方案2：使用Loki+Grafana****适用场景****搭建步骤****1.修改SpringBoot日志驱动****2.配
四旋翼无人机SIMULINK建模
四旋翼无人机SIMULINK建模，PSO_SA优化PID参数reverse.m作用：将History表中的string形式的key值转换为赋给九个全局变量temp00，…,temp08运行sum1.slx，可以直接观察此组参数的波形。History作用：映射表，将一组参数（temp00,…,temp08）映射到这组参数的ITAE指标。trojectory.m作用：定义一条路径并进行路径压缩，通过不
Semantic text 就是那么强大，还附带一包（ BBQ ）薯片！配有可配置的分块设置和索引选项。 Elastic 中国社区官方博客 Elasticsearch AI 大数据 elasticsearch 搜索引擎全文检索人工智能 ai 图搜索
作者：来自ElasticKathleenDeRusso语义文本搜索现在可以自定义，支持可配置的分块设置和索引选项，用于自定义向量量化，使semantic_text在专业用例中更强大。Elasticsearch拥有大量新功能，帮助你为你的用例构建最佳搜索解决方案。深入查看我们的示例笔记本以了解更多信息，开始免费云试用，或者立即在本地机器上体验Elastic。随着Elasticsearch8.18和9
YOLOv11模型轻量化挑战技术文章大纲程序猿全栈の董（董翔） github YOLOv11
模型轻量化的背景与意义目标检测模型YOLOv11的性能与应用场景轻量化的必要性：边缘设备部署、实时性需求、计算资源限制轻量化面临的挑战：精度与速度的权衡、模型压缩方法的选择YOLOv11的轻量化技术方向网络结构优化：深度可分离卷积、分组卷积、瓶颈设计模型剪枝：结构化剪枝与非结构化剪枝策略知识蒸馏：教师-学生模型框架与特征匹配方法量化与低比特压缩：FP16/INT8量化与二值化网络轻量化实现的具体方
Elasticsearch 高可用实战：架构设计与场景化解决方案辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch wpf 大数据全文检索搜索引擎 restful java
Elasticsearch高可用实战：架构设计与场景化解决方案本文深入探讨Elasticsearch在高并发、大数据量场景下的高可用架构设计，结合电商搜索、日志分析等真实案例，提供可落地的技术方案与Java实现。一、高可用架构设计原则1.分布式架构核心要素客户端负载均衡层协调节点数据节点-分片1数据节点-分片2数据节点-分片3副本分片副本分片副本分片2.高可用黄金法则冗余设计：至少3节点集群+1副
Elasticsearch RESTful API入门：基础搜索与查询DSL 辣呼呼的哈哈 Elasticsearch 入门到精通 elasticsearch restful 大数据搜索引擎全文检索 spring boot
ElasticsearchRESTfulAPI入门：基础搜索与查询DSL本文为Elasticsearch初学者详细解析RESTfulAPI的核心操作与查询DSL语法，包含大量实战示例及最佳实践。一、Elasticsearch与RESTfulAPI简介Elasticsearch（ES）作为分布式搜索分析引擎，其RESTfulAPI是与集群交互的核心方式。通过HTTP协议实现：✅索引文档的CRUD操作
插入表主键冲突做更新 a-john
有以下场景：用户下了一个订单，订单内的内容较多，且来自多表，首次下单的时候，内容可能会不全（部分内容不是必须，出现有些表根本就没有没有该订单的值）。在以后更改订单时，有些内容会更改，有些内容会新增。问题：如果在sql语句中执行update操作，在没有数据的表中会出错。如果在逻辑代码中先做查询，查询结果有做更新，没有做插入，这样会将代码复杂化。解决： mysql中提供了一个sql语
Android xml资源文件中@、@android:type、@*、？、@+含义和区别 Cb123456 @+@?@*
一.@代表引用资源 1.引用自定义资源。格式：@[package:]type/name android：text="@string/hello" 2.引用系统资源。格式：@android:type/name android:textColor="@android:color/opaque_red"
数据结构的基本介绍天子之骄数据结构散列表树、图线性结构价格标签
数据结构的基本介绍数据结构就是数据的组织形式，用一种提前设计好的框架去存取数据，以便更方便，高效的对数据进行增删查改。正确选择合适的数据结构，对软件程序的高效执行的影响作用不亚于算法的设计。此外，在计算机系统中数据结构的作用也是非同小可。例如常常在编程语言中听到的栈，堆等，就是经典的数据结构。经典的数据结构大致如下：一：线性数据结构 (1)：列表 a
通过二维码开放平台的API快速生成二维码一炮送你回车库 api
现在很多网站都有通过扫二维码用手机连接的功能，联图网(http://www.liantu.com/pingtai/)的二维码开放平台开放了一个生成二维码图片的Api,挺方便使用的。闲着无聊，写了个前台快速生成二维码的方法。 html代码如下:(二维码将生成在这div下) ? 1 &nbs
ImageIO读取一张图片改变大小 3213213333332132 java IO image BufferedImage
package com.demo; import java.awt.image.BufferedImage; import java.io.File; import java.io.IOException; import javax.imageio.ImageIO; /** * @Description 读取一张图片改变大小 * @author FuJianyon
myeclipse集成svn（一针见血） 7454103 eclipse SVN MyEclipse
&n
装箱与拆箱----autoboxing和unboxing darkranger J2SE
4.2　自动装箱和拆箱基本数据(Primitive)类型的自动装箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0开始提供的功能。虽然为您打包基本数据类型提供了方便，但提供方便的同时表示隐藏了细节，建议在能够区分基本数据类型与对象的差别时再使用。 4.2.1　autoboxing和unboxing 在Java中，所有要处理的东西几乎都是对象(Object)
ajax传统的方式制作ajax aijuans Ajax
//这是前台的代码 <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <% String path = request.getContextPath(); String basePath = request.getScheme()+
只用jre的eclipse是怎么编译java源文件的？ avords java eclipse jdk tomcat
eclipse只需要jre就可以运行开发java程序了，也能自动编译java源代码，但是jre不是java的运行环境么，难道jre中也带有编译工具？还是eclipse自己实现的？谁能给解释一下呢问题补充：假设系统中没有安装jdk or jre，只在eclipse的目录中有一个jre，那么eclipse会采用该jre，问题是eclipse照样可以编译java源文件，为什么呢？ &nb
前端模块化 bee1314 模块化
背景：前端JavaScript模块化，其实已经不是什么新鲜事了。但是很多的项目还没有真正的使用起来，还处于刀耕火种的野蛮生长阶段。 JavaScript一直缺乏有效的包管理机制，造成了大量的全局变量，大量的方法冲突。我们多么渴望有天能像Java（import），Python (import)，Ruby(require)那样写代码。在没有包管理机制的年代，我们是怎么避免所
处理百万级以上的数据处理 bijian1013 oracle sql 数据库大数据查询
一.处理百万级以上的数据提高查询速度的方法： 1.应尽量避免在 where 子句中使用!=或<>操作符，否则将引擎放弃使用索引而进行全表扫描。 2.对查询进行优化，应尽量避免全表扫描，首先应考虑在 where 及 o
mac 卸载 java 1.7 或更高版本征客丶 java OS
卸载 java 1.7 或更高 sudo rm -rf /Library/Internet\ Plug-Ins/JavaAppletPlugin.plugin 成功执行此命令后，还可以执行 java 与 javac 命令 sudo rm -rf /Library/PreferencePanes/JavaControlPanel.prefPane 成功执行此命令后，还可以执行 java
【Spark六十一】Spark Streaming结合Flume、Kafka进行日志分析 bit1129 Stream
第一步，Flume和Kakfa对接，Flume抓取日志，写到Kafka中第二部，Spark Streaming读取Kafka中的数据，进行实时分析本文首先使用Kakfa自带的消息处理（脚本）来获取消息，走通Flume和Kafka的对接 1. Flume配置 1. 下载Flume和Kafka集成的插件，下载地址：https://github.com/beyondj2ee/f
Erlang vs TNSDL bookjovi erlang
TNSDL是Nokia内部用于开发电信交换软件的私有语言，是在SDL语言的基础上加以修改而成，TNSDL需翻译成C语言得以编译执行，TNSDL语言中实现了异步并行的特点，当然要完整实现异步并行还需要运行时动态库的支持，异步并行类似于Erlang的process（轻量级进程），TNSDL中则称之为hand，Erlang是基于vm(beam)开发，
非常希望有一个预防疲劳的java软件, 预防过劳死和眼睛疲劳,大家一起努力搞一个 ljy325 企业应用
　非常希望有一个预防疲劳的java软件，我看新闻和网站，国防科技大学的科学家累死了，太疲劳，老是加班，不休息，经常吃药，吃药根本就没用，根本原因是疲劳过度。我以前做java,那会公司垃圾，老想赶快学习到东西跳槽离开，搞得超负荷，不明理。深圳做软件开发经常累死人，总有不明理的人，有个软件提醒限制很好，可以挽救很多人的生命。相关新闻：（1）IT行业成五大疾病重灾区：过劳死平均37.9岁
读《研磨设计模式》-代码笔记-原型模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * Effective Java 建议使用copy constructor or copy factory来代替clone()方法： * 1.public Product copy(Product p){} * 2.publi
配置管理---svn工具之权限配置 chenyu19891124 SVN
今天花了大半天的功夫，终于弄懂svn权限配置。下面是今天收获的战绩。安装完svn后就是在svn中建立版本库，比如我本地的是版本库路径是C:\Repositories\pepos。pepos是我的版本库。在pepos的目录结构 pepos component webapps 在conf里面的auth里赋予的权限配置为 [groups]
浅谈程序员的数学修养 comsci 设计模式编程算法面试招聘
浅谈程序员的数学修养
批量执行 bulk collect与forall用法 daizj oracle sql bulk collect forall
BULK COLLECT 子句会批量检索结果，即一次性将结果集绑定到一个集合变量中，并从SQL引擎发送到PL/SQL引擎。通常可以在SELECT INTO、 FETCH INTO以及RETURNING INTO子句中使用BULK COLLECT。本文将逐一描述BULK COLLECT在这几种情形下的用法。有关FORALL语句的用法请参考：批量SQL之 F
Linux下使用rsync最快速删除海量文件的方法 dongwei_6688 OS
1、先安装rsync：yum install rsync 2、建立一个空的文件夹：mkdir /tmp/test 3、用rsync删除目标目录：rsync --delete-before -a -H -v --progress --stats /tmp/test/ log/这样我们要删除的log目录就会被清空了，删除的速度会非常快。rsync实际上用的是替换原理，处理数十万个文件也是秒删。
Yii CModel中rules验证规格 dcj3sjt126com rules yii validate
Yii cValidator主要用法分析： yii验证rulesit 分类： Yii yii的rules验证 cValidator主要属性 attributes ,builtInValidators,enableClientValidation,message,on,safe,skipOnError
基于vagrant的redis主从实验 dcj3sjt126com vagrant
平台: Mac 工具: Vagrant 系统: Centos6.5 实验目的: Redis主从实现思路制作一个基于sentos6.5, 已经安装好reids的box, 添加一个脚本配置从机, 然后作为后面主机从机的基础box 制作sentos6.5+redis的box mkdir vagrant_redis cd vagrant_
Memcached(二)、Centos安装Memcached服务器 frank1234 centos memcached
一、安装gcc rpm和yum安装memcached服务器连接没有找到，所以我使用的是make的方式安装，由于make依赖于gcc，所以要先安装gcc 开始安装，命令如下，[color=red][b]顺序一定不能出错[/b][/color]：建议可以先切换到root用户，不然可能会遇到权限问题：su root 输入密码...... rpm -ivh kernel-head
Remove Duplicates from Sorted List hcx2013 remove
Given a sorted linked list, delete all duplicates such that each element appear only once. For example,Given 1->1->2, return 1->2.Given 1->1->2->3->3, return&
Spring4新特性——JSR310日期时间API的支持 jinnianshilongnian spring4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
浅谈enum与单例设计模式 247687009 java 单例
在JDK1.5之前的单例实现方式有两种(懒汉式和饿汉式并无设计上的区别故看做一种)，两者同是私有构造器，导出静态成员变量，以便调用者访问。第一种 package singleton; public class Singleton { //导出全局成员 public final static Singleton INSTANCE = new S
使用switch条件语句需要注意的几点 openwrt c break switch
1. 当满足条件的case中没有break，程序将依次执行其后的每种条件（包括default）直到遇到break跳出 int main() { int n = 1; switch(n) { case 1: printf("--1--\n"); default: printf("defa
配置Spring Mybatis JUnit测试环境的应用上下文 schnell18 spring mybatis JUnit
Spring-test模块中的应用上下文和web及spring boot的有很大差异。主要试下来差异有：单元测试的app context不支持从外部properties文件注入属性 @Value注解不能解析带通配符的路径字符串解决第一个问题可以配置一个PropertyPlaceholderConfigurer的bean。第二个问题的具体实例是：
Java 定时任务总结一 tuoni java spring timer quartz timertask
Java定时任务总结一.从技术上分类大概分为以下三种方式： 1.Java自带的java.util.Timer类，这个类允许你调度一个java.util.TimerTask任务; 说明： java.util.Timer定时器，实际上是个线程，定时执行TimerTask类 &
一种防止用户生成内容站点出现商业广告以及非法有害等垃圾信息的方法 yangshangchuan rank 相似度计算文本相似度词袋模型余弦相似度
本文描述了一种在ITEYE博客频道上面出现的新型的商业广告形式及其应对方法，对于其他的用户生成内容站点类型也具有同样的适用性。最近在ITEYE博客频道上面出现了一种新型的商业广告形式，方法如下： 1、注册多个账号（一般10个以上）。 2、从多个账号中选择一个账号，发表1-2篇博文