双数组Trie树算法的优化及其应用研究

双数组Trie树算法的优化及其应用研究

王思力^1,2 张华平^1,2 王斌¹

¹中国科学院计算技术研究所北京 100080

¹中国科学院研究生院北京 100039

[1]Email: {wangxiaofei,zhanghp,wangbin}@software.ict.ac.cn

摘要：本文对双数组Trie树(Double-Array Trie)算法在构造方面提出了一种优化策略，即在用Trie树构造数组的时候，优先处理分支结点数更多的结点。这种优化策略可以使该算法在保证数据查找效率不变的同时，进一步减少数据稀疏，提高了空间利用率。同时我们基于该优化算法实现了一个词典管理程序，与利用其他索引机制的词典进行实验对比。实验结果充分说明，利用优化的双数组Trie 树(Double-Array Trie)算法的词典不仅在查询速度上优于用其他索引机制的词典，而且存储数据的空间占用也比较小。

关键词：双数组；Trie树；词典；自动分词

中图分类号：TP391.1

Optimization on Double-Array Trie and Its Application Research

WANG Xiao-Fei^1,2 ZHANG Hua-Ping^1,2 WANG Bin¹

Institution of Computing Technology, The Chinese Academy of Sciences, Beijing , 100080, China

Graduate School of the Chinese Academy of Sciences, Beijing , 100080, China

Email: {wangxiaofei,zhanghp,wangbin}@software.ict.ac.cn

Abstract: This paper gives an improved strategy for the algorithm of Double-Array Trie in its construction, which processes the node with most child nodes first when constructing the array. This strategy can reduce the data sparseness without reducing the search efficiency, which is good for space use. Meanwhile, we implement a program of dictionary base on the improved Double-Array Trie and compare it with those of other index mechanism. The results adequately show that the improved Double-Array-Trie algorithm has a much higher search speed than other mechanisms and it needs a smaller space for data store.

Keywords: Double-Array; TRIE; lexicon; word segmentation;

1．引言

对于大量数据的存储和搜索，目前通常都采用索引结构来实现。一般常用的索引结构包括线性索引表、倒排表、散列(Hash)表以及各种搜索树。

线性索引是一种静态的索引结构，不利于更新，每当做依次更新时需要改变索引表中各个索引项的位置。倒排表也是静态索引，它与线性索引表一样，搜索其中数据的时候都只能顺序搜索或者折半搜索。

散列(Hash)方法则是在表项的存储位置与它的关键码之间建立一个确定的对应函数关系Hash()，使每个关键码与结构中的一个存储位置相对应。搜索时只需要对表项的关键码进行函数计算，求得的函数值即是表项的存储位置，避免了多次关键码比较，因此搜索速度比较快。由于有可能经过散列函数的计算，把不同的关键码映射到同一个散列地址上，也就是产生冲突(一般较常用的解决冲突的办法是利用Hash桶，将地址相同的关键码放入一个桶内，然后再在桶内进行查找)。所以对于散列方法来说，散列函数的设计很关键，应该选择一个计算简单并且地址分布比较均匀的散列函数，尽量减少冲突。 Douglas C. Schmidt提出过一种完美Hash函数（Perfect Hash Function）生成算法^[1]，该算法生成的Hash函数能保证得到的Hash值没有冲突，也就是说每一个Hash值都是唯一的。但是这种算法目前来说还有缺陷，实验显示，关键词总数为300时生成的Hash表大小为1042，还只是关键词总数的3倍多一点；当关键词增长到685时，Hash表大小会增长到3833，是关键词总数的5倍还不止。由此可知，当数据量较大时用该算法生成的Hash表会很大，空间浪费会很严重。并且数据量较大时，生成一个完美Hash函数是很费时间的。

搜索树包括B_树、B+树、Trie树等以及它们的各种变形。不同的树根据自身的特点应用于不同的数据环境中。索引树的数据结构相对来说比其他索引结构要复杂，但是好的搜索树算法用在合适的环境下可以具有很高的查询效率。

本文首先介绍了前人提出的双数组Trie树(Double-Array Trie)算法，然后介绍我们在该算法基础上进行的优化改进。同时，在应用研究方面，我们利用优化的双数组Trie树(Double-Array Trie)算法实现了一个词典管理程序。最后通过与当前其他两种最常用的词典机制进行实验比较，证明双数组Trie树(Double-Array Trie)优化算法不仅具备非常高的查找效率，而且空间利用率也比较理想。

2．双数组Trie树（Double –Array Trie）算法及其优化

Trie树是搜索树的一种，它在本质上是一个确定的有限状态自动机，每个结点代表一个状态，根据输入变量的不同，进行状态转移。如图1：

图1. Trie树结构

用Trie树搜索一个关键码的时间与关键码自身及其长度有关，最快是O(1)，即在第一层即可判断是否搜索到，最坏的情况是O(n)，n为Trie树的层数。由于很多时候Trie树的大多数结点分支很少，因此Trie树结构空间浪费比较多。

为了减少Trie树结构的空间浪费，同时保证Trie树查询的效率，有研究者提出了用三个线性数组表示Trie树的方法，并在此基础上进一步改进，用两个数组来表示Trie树，也就是双数组Trie树(Double-Array Trie)^[2]。

双数组Trie(Double-Array Trie)的数据结构是两个整数数组，一个是，一个是。这个算法的本质就是将Trie树结构简化为两个线性数组，如图2所示：

图2. 双数组Trie树结构图

数组和数组中的元素是一一对应的，数组中的每一个元素相当于Trie树的一个节点，其值做状态转移的基值，值相当于校验值，用于检查该状态是否存在。对于从状态s到状态t的一个转移，必须满足如下两个条件：

其中c是输入变量。

令为数组下标，和均为0时表示该位置为空，为负值时表示该状态为一个可结束状态。两个数组的构造方法如下：

对于状态、、 … ，状态A在数组中下标为i，，令A的值，满足条件：

…,

也就是说，的值只要能使的直接子结点都能放入数组即可。的值确定以后，状态、、 … 在数组中的下标随即确定，分别为 , ，同时。

数组构造完成之后，要查找一个关键码，只需判断是否等于，如果是，则表示在Trie树中搜索到，否则，搜索返回失败。

双数组Trie树（Double-Array Trie）算法有效的降低了Trie树结构的空间浪费，但是利用该算法生成的数组中仍然还会存在较大的数据稀疏。为了进一步减少数组空间浪费，我们对构造数组的算法进行优化，在构造数组的时候加入一种排序策略，即每一次都先处理当前分支结点最多的结点。

我们考虑到在双数组Trie树算法中，每一个结点在数组中的位置，都是由其父亲结点也就是上一状态的值决定。而一个结点其值的确定取决于数组的当前空闲位置以及该结点的直接子结点。一个结点的直接子结点越多，该结点在找值时所遇到的冲突也就越多。因此优先处理分支较多的结点，有利于减少冲突，避免数组增长过大，减少数据稀疏。

优化后的双数组Tire树构造算法如下：

1．初始化活动结点列表，把第一层结点加入该列表。

2．如果活动结点列表不为空，则在活动结点列表中选取直接子结点数最多的结点为当前结点。否则算法结束，数组构造完成。

3．访问该结点，决定其在数组中的值，确定各直接子结点在数组中的位置，令各直接子结点在数组中的值为当前结点的数组下标。

4．将当前结点的直接子结点加入活动结点列表。重复步骤2。

如图3：

图3. Trie树

以前的构造数组时的遍历顺序：深度优先或者广度优先。

加入优化策略之后的遍历顺序：S-A-C-B-F-D-E-G-H-I-J-K-L

构造完成后，查询算法如下：

1．读入输入变量。

2．

If then

next state :=

else fail

endif

3．若不为负，重复步骤1。否则，为一个可结束状态。

3．双数组Trie树（Double –Array Trie）优化算法的应用

该算法可用于一些时间效率要求较高的大型数据处理。比如用于词典的构造和查询。在自然语言处理中，需要经常在词典中进行查询以获取词语信息，尤其是对于需要分词的汉语，对词典的查找经常占到整个信息处理过程的50%以上。因此，一个高效的索引结构对于提高自然语言处理系统的速度来说其重要性可想而知。

目前用于组织词典的索引方法主要有两种，一种是Trie索引树，一种是散列(Hash)表结构。基于Trie索引树的词典机制一般是对词的首字计算hash值，建立首字hash表，然后建立Trie索引树。检索时只需沿树链进行逐字匹配，不需预知待查词的长度，查找一个词所需的时间只与该词的长度有关，因而应用在汉语自动分词中速度较快。但是由于单词树枝比较多，所以Trie索引树的空间浪费比较严重。在文献[3]中的实验结果表明，Trie树结构的词典占用空间要比下面提到的基于Hash索引的词典占用空间大上将近一倍。

基于Hash索引的词典机制就是构造一种Hash函数来计算词语的Hash值，将Hash值相同的词语放入一个桶内，检索时先计算待查词的Hash值，然后进入相应的Hash桶内进行二分查找。常用的有首字Hash和两字Hash法。

首字Hash是利用首字生成Hash值，将Hash值相同的词放在同一个Hash桶中，然后在桶中进行二分查找。两字Hash则是在首字Hash基础上的一种改进。目前两字Hash有两种方法，一是对词语的前两个字依次顺次建立Hash索引，构成深度为2的Trie子树，对剩余的字符串再进入相应的Hash桶内进行二分查找^[5]；二是中科院计算所ICTCLAS系统[^7]中采用的根据前两字内码计算Hash值，建立一级Hash索引表，然后进入Hash值相同的表中进行二分查找。

采用Hash索引机制的词典查找时间复杂度为O( )，N为Hash值相同的词条数最大值。

我们采用优化后的双数组Trie（Double-Array Trie）树算法实现了一个词典管理程序。下面我们举例说明如何用这种优化算法组织词典。

设一个词表为：“aa，aab，aad，，bc，be，bed，cd”，则该词表对应的Trie树如下：

图4：词表Trie树结构

数组初始化均为0，构造数组时结点访问顺序如结点序号。由于无论英文字母还是汉字在计算机中都由内码唯一表示，所以可用内码一一映射成序列码。假定各字母的序列码为a-1，b-2，c-3，d-4，e-5。因为词表中所有状态首字母“a，b，c”的序列码分别是1,2,3，所以必须把数组中这三个位置留给首字母。同时，因为叶子结点的表示是用该结点数组下标乘以-1作为其在数组中的值，而可结束状态表示是该结点数组值乘以-1。为了使二者不产生混淆，所以每个具有可结束状态的非叶子结点其数组值不能等于其数组下标。

访问结点2：该结点状态b，序列码为2，对应数组下标为2。有两个分支结点，两个转移的变量序列码为3，5。所以取1即可，因为。令， = =2，结点6和7的数组下标为6和4。

访问结点3：该结点状态为a，序列码为1，对应数组下标为1。只有一个状态转移的输入变量a，序列码为1，可取4，因为。令，则结点4的数组下标为5，；

访问结点4：该结点状态为aa，已知其数组下标为5，由两个分支结点，两个转移的输入变量序列码分别为2，4。可取6，因为。又因为该结点是一个可结束状态，所以令，两个分支结点9和10的数组下标分别为和，；

访问结点5：该结点状态为c，序列码为3，对应数组下标为3。有一个状态转移的输入变量d，序列码为4，可取3，因为。令，子结点8的数组下标可知为7，；

访问结点6：该结点状态为be，已知对应数组下标为6，有一个状态转移的输入变量d，序列码为4，可取5，因为。又因为该结点是一个可结束状态，所以令，其子结点11的数组下标为9，；

对于其他没有子结点的叶子结点，其值用-1乘以相应的数组下标即可。

最后可以得到：

={4，1，3，-4，-6，-5，-7，-8，-9，-10}

={0，0，0，2，1，2，3，5，6，5}

数组构造完成后就可以进行查询了。如果要查字符串bec是否词表中的一个词，首先由状态b的序列号2得到为1，接下来的输入变量是e，序列号为5，，为2，所以be是一个状态，可以继续。因为为-5，接下来的输入变量c序列号为3，，为5，不是be的数组下标6，所以bec不是词表中的一个词。如果查的是bed，d的序列号为4，，为6，同时等于-9，所以可以判断bed是词表中的一个词。

由上述查询过程可以知道，双数组Trie（Double-Array Trie）树优化算法的查询只需要进行简单的整数相加即可。查询开销只与查询词长度有关，算法时间复杂度为O(n)，n为查询词的词长。下面我们通过实验来说明这个算法的空间和时间效率。

4．实验比较及结果分析

为了更好的证明优化的双数组Trie（Double-Array Trie）树算法性能，我们采用了另外两种词典算法在相同环境下进行比较。一种算法是ICTCLAS系统采用的两字Hash词典机制；另一种是普通的Trie树词典机制。实验硬件环境是CPU 1.5G (AMD Athlon XP 1800+)，内存 512M ，操作系统为windows xp，所用词典总共包括75784个词条。

我们一共进行了下面三项实验：

1．分别用未加入优化策略的双数组Trie树（Double-Array Trie）算法与优化后的双数组Trie树（Double-Array Trie）算法生成词典的双数组文件，比较空间利用率。

实验结果为：未加入优化策略生成的数组长度为140438，加入优化策略后生成的数组长度为114624，数组长度减少了2万5千多。而且可知，当词典条数越多时，采用优化策略算法提高的空间利用率也会越高。

2．比较两字Hash索引机制算法和优化的双数组Trie树（Double-Array Trie）算法查找词语的速度。为了更接近真实语言环境，我们首先分别用二者把词典中所有的词查一遍，再分别对语料库中出现的所有词进行查询。采用的语料库为已经切分好的人民日报1998年1月份语料，大小为8.04MB。实验结果如下：

从实验结果可以看出，双数组Trie（Double-Array Trie）树优化算法的查询速度明显要比两字Hash算法快。

3．比较普通Trie树算法和双数组Trie（Double-Array Trie）树优化算法用于最大匹配自动分词的速度。在这里我们采用正向最大匹配法，语料库文本均为未切分的人民日报98年语料。

文本1：98年1月语料大小为4,092,478字节

文本2：98年2月语料大小为4,153,811字节

文本3：98年4月语料大小为4,666,292字节

由上述结果可以得出Trie树算法的平均速度为6.8MB/秒，而优化后的双数组Trie树（Double-Array Trie）算法的平均速度为12MB/秒，几乎比前者高出了一倍。

5．总结

从理论上和最后的实验结果都充分说明了优化的双数组Trie树（Double-Array Trie）算法不仅在查询时间上相比Trie树有了进一步的提高，而且克服了Trie树空间浪费严重的缺点。

但是这种结构也有它本身的缺点，由数组的构造过程可以看出，每一个结点在base数组中值的确定，在一定程度上是由其分支结点决定的。而相应的base值又决定了其各个直接子结点在数组中的位置。因此，在增加数据或者删除数据的时候，往往需要对与之相关的其他数据都进行调整，调整算法参见文献[2]。如果数据经常变动，不仅用于调整数组的时间开销增大，而且当数据增加比较多时，由于调整带来的数据稀疏会越来越大，数组本身也会变得很大。

对于这种情况，我们采取的策略是当数组增大到一定程度，就重新构造一遍数组。由于重新构造数组也需要时间，所以这种算法不适用于数据变动非常频繁同时对时间效率要求又高的情况。但是对于自然语言处理中词典一般变更较少而实时性要求较高的这类情况，优化的双数组Trie树（Double-Array Trie）算法是非常有用的。

在目前研究的基础上，我们将进一步研究如何把优化的双数组Trie树算法适用于其他领域。在不同的应用领域里根据需求争取有不同的改进。

参考文献

[1] Douglas C. Schmidt. GPERF:A Perfect Hash Function Generator[Z] 1999

[2] Theppitak Karoonboonyanan. An Implementation of Double-Array Trie[Z],

http://linux.thai.net/~thep/datrie/datrie.html 2003

[3] Jun-Ichi Aoe, Katsushi Morimoto, Takashi Sato, An Efficient Implementation of Trie Structures[J], Software-Practice and Experience. 1992,22(9):695-721.

[4] Aoe, J. An Efficient Digital Search Algorithm by Using a Double-Array Structure. IEEE Transactions on Software Engineering. 1989,15(9):1066-1077.

[5]李庆虎，陈玉健，孙家广。一种中文分词词典新机制——双字哈希机制[J]，中文信息学报 2002 17(4):13-18

[6]殷人昆，陶永雷，谢若阳，盛绚华。数据结构（用面向对象方法与c++描述）[M]，北京，清华大学出版社 1999

[7]刘群，张华平，俞鸿魁，程学旗。基于层次隐马模型的汉语语法分析[J]。计算机研究与发展，2004.8

[8]路志英，林孔元，郭祺，段广玉。中文切分词典的最大匹配索引法[J]。天津大学学报，1999,32(5):599-603

[9]孙茂松，左正平，黄昌宁。汉语自动分词词典机制的实验研究[J]。中文信息学报，2000,14(1):31-36

[10]杨文峰，陈光英，李星。基于PATRICIA tree的汉语自动分词词典机制[J]。中文信息学报，2001,15(3):44-49

[11]马哲，姚敏。一种改进的基于PATRICIA树的汉语自动分词词典机制[J]。华南理工大学学报（自然科学版）,2004.32(增刊):28-31

基金项目：973项目(2004CB318109)；国家242信息安全计划资助课题成果( 2005C 36)；中科院计算所知识创新工程(20056550)

作者简介：王思力，男，1981年生，硕士研究生，主要研究方向为自然语言处理，中文信息检索。张华平，男，1978年生，博士研究生，主要研究方向为中文信息处理与信息抽取。王斌，男，1972年生，硕士生导师，主要研究方向为信息检索、信息分类、信息过滤、中文信息处理等。

你可能感兴趣的:(trie)

Python 网页控制自动化 getEdgeDriver chenchihwen 服务器 mysql 运维
透过python使用edge执行自动化时，原来的代码出现报错了执行报错啦：messageinfo如下显示HTTPSConnectionPool(host='msedgedriver.azureedge.net',port=443):Maxretriesexceededwithurl:/130.0.2849/edgedriver_win64.zip(CausedbyNewConnectionErro
Open3D 手动裁剪点云【2025最新版】点云侠 python点云处理几何学 python 3d 计算机视觉算法
目录一、概述1、主要函数2、基础操作二、代码实现三、结果展示四、相关链接博客长期更新，本文最近更新时间为：2025年1月18日。一、概述 Open3d中的VisualizerWithEditing类提供了图形用户交互功能。draw_geometries_with_editing([pcd])函数提供了顶点选择和裁剪功能。1、主要函数defdraw_geometries_with_editing(
Linux中yum问题 xin-zfyyz linux 运维服务器
出现错误Loadedplugins:fastestmirrorLoadingmirrorspeedsfromcachedhostfileCouldnotretrievemirrorlisthttp://mirrorlist.centos.org/?release=7&arch=x86_64&repo=os&infra=stockerrorwas14:curl#6-"Couldnotresolveh
Sonatype Nexus OSS 构建私有docker 仓库 UTF杠8 docker 容器运维开源
1.DockerEngine配置{"builder":{"gc":{"defaultKeepStorage":"20GB","enabled":true}},"dns":["8.8.8.8","114.114.114.114"],"experimental":false,"features":{"buildkit":true},"insecure-registries":["localhost:3
＜论文＞如何将RAG和时序大模型相结合？ CM莫问文献简录人工智能深度学习算法时间序列 RAG 大模型
一、摘要本文介绍论文发表于2024年的论文《RetrievalAugmentedTimeSeriesForecasting》，该论文提出了将RAG技术应用于时序大模型的策略，提升了时序大模型的性能。译文：检索增强生成（RAG）是现代大型语言模型系统的核心组件，特别是在需要最新信息以准确响应用户查询或查询超出训练数据范围的情况下。时间序列基础模型（TSFM）的出现，如Chronos，以及在各种时间序
深入理解 MultiQueryRetriever：提升向量数据库检索效果的强大工具 nseejrukjhad 数据库 python
深入理解MultiQueryRetriever：提升向量数据库检索效果的强大工具引言在人工智能和自然语言处理领域，高效准确的信息检索一直是一个关键挑战。传统的基于距离的向量数据库检索方法虽然广泛应用，但仍存在一些局限性。本文将介绍一种创新的解决方案：MultiQueryRetriever，它通过自动生成多个查询视角来增强检索效果，提高结果的相关性和多样性。MultiQueryRetriever的工
python比较字符串是否一样,Python如何确定两个字符串是否相同鲁东学子 python比较字符串是否一样
I'vetriedtounderstandwhenPythonstringsareidentical(akasharingthesamememorylocation).Howeverduringmytests,thereseemstobenoobviousexplanationwhentwostringvariablesthatareequalsharethesamememory:importsy
基于深度学习的多模态信息检索 SEU-WYL 深度学习dnn 深度学习人工智能
基于深度学习的多模态信息检索（MultimodalInformationRetrieval,MMIR）是指利用深度学习技术，从包含多种模态（如文本、图像、视频、音频等）的数据集中检索出满足用户查询意图的相关信息。这种方法不仅可以处理单一模态的数据，还可以在多种模态之间建立关联，从而更准确地满足用户需求。1.多模态信息检索的挑战异构数据表示：多模态数据通常具有不同的特征和表示形式（如文本的词嵌入与图
nvm下载node报错: Error retrieving “http://npm.taobao.org/mirrors/node/latest/SHASUMS256.txt“: HTTP Statu 你不讲 wood javascript 开发语言前端 node.js
nvm下载node报错:Errorretrieving“http://npm.taobao.org/mirrors/node/latest/SHASUMS256.txt”:HTTPStatus404使用nvm下载node出现以下报错:原因是淘宝镜像源已经下架,所以访问资源报404错误找到nvm安装的路径:修改setting.txt配置文件为以下内容:root:D:\NVM_node\nvmpath
python并发与并行（十一） ———— 让asyncio的事件循环保持畅通，以便进一步提升程序的响应能力 bug404_ python并发与并行 python 开发语言
前一篇blog说明了怎样把采用线程所实现的项目逐步迁移到asyncio方案上面。迁移后的run_tasks协程，可以将多份输入文件通过tail_async协程正确地合并成一份输出文件。importasyncio#OnWindows,aProactorEventLoopcan'tbecreatedwithin#threadsbecauseittriestoregistersignalhandlers
说说百度大模型算法工程师二面经历 AI小白熊百度算法人工智能大模型面试 ai 自然语言处理
百度大模型算法工程师面试题应聘岗位：百度大模型算法工程师面试轮数：第二轮整体面试感觉：偏简单面试过程回顾1.自我介绍在自我介绍环节，我清晰地阐述了个人基本信息、教育背景、工作经历和技能特长，展示了自信和沟通能力。2.Leetcode题具体题意记不清了，但是类似【208.实现Trie(前缀树)】题目内容Trie（发音类似“try”）或者说前缀树是一种树形数据结构，用于高效地存储和检索字符串数据集中的
茴香豆：搭建RAG 智能助理不才妹妹人工智能 windows linux
RAGRAG（RetrievalAugmentedGeneration）技术，通过检索与用户输入相关的信息片段，并结合外部知识库来生成更准确、更丰富的回答。解决LLMs在处理知识密集型任务时可能遇到的挑战,如幻觉、知识过时和缺乏透明、可追溯的推理过程等。提供更准确的回答、降低推理成本、实现外部记忆。1.在茴香豆Web版中创建自己领域的知识问答助手1.1配置镜像环境进入开发机后，从官方环境复制运行I
OPENAI中RAG实现原理以及示例代码用PYTHON来实现 dzend aigc python 开发语言 ai
OPENAI中RAG实现原理以及示例代码用PYTHON来实现1.引言在当今人工智能领域，自然语言处理（NLP）是一个非常重要的研究方向。近年来，OPENAI发布了许多创新的NLP模型，其中之一就是RAG（Retrieval-AugmentedGeneration）模型。RAG模型结合了检索和生成两种方法，可以用于生成与给定问题相关的高质量文本。本文将介绍RAG模型的实现原理，并提供使用Python
langchain `as_retriever` 方法大多_C langchain java 服务器
as_retriever方法是一个用于将VectorStore对象转换为VectorStoreRetriever对象的便捷方法。VectorStoreRetriever是一个检索类，用于从向量存储中查找和检索最相关的文档。这个方法接受多个可选参数来配置检索的行为。用法介绍参数search_type(Optional[str]):定义检索器应该执行的搜索类型。选项包括："similarity":默认
Django 缓存 weixin_43640594 django 缓存 python
缓存⑴数据库缓存settings中添加CACHES={'default':{'BACKEND':'django.core.cache.backends.db.DatabaseCache','LOCATION':'my_cache_table','TIMEOUT':300,'OPTIONS':{'MAX_ENTRIES':300,'CULL_FREQUENCY':2,}}}参数说明BACKEND引擎
CURD是啥？蟹堡王首席大厨
最近在看一些关于后台开发相关的文章的时候，一时想不起来CURD是啥？，上网搜了搜：crud是指在做计算处理时的增加(Create)、读取(Retrieve)、更新(Update)和删除(Delete)几个单词的首字母简写。crud主要被用在描述软件系统中数据库或者持久层的基本操作功能。以上来自百度百科的词条。crud操作，表示是增删改查.c[create]/r[read]/u[update]/d[
trie算法云无心以出岫算法 #acwing 算法 c++数据结构
Trie（字典树、前缀树）是一种用于高效存储和检索字符串的数据结构。主要特点和优势：高效的前缀查询：能够快速判断一个字符串的前缀是否存在，以及查找具有特定前缀的所有字符串。节省空间：对于有共同前缀的字符串，只存储共同前缀部分一次，避免了重复存储。插入和查找的时间复杂度通常为O(m)，其中m是要插入或查找的字符串的长度。基本结构：Trie由节点组成，每个节点可能有多个子节点，通常用数组或哈希表来表示
【AI大模型应用开发】【LangChain系列】2. 一文全览LangChain数据连接模块：从文档加载到向量检索RAG，理论+实战+细节同学小张大模型 python 人工智能 langchain python 笔记经验分享 prompt embedding
大家好，我是【同学小张】。持续学习，持续干货输出，关注我，跟我一起学AI大模型技能。本文学习LangChain中的数据连接（Retrieval）模块。该模块提供文档加载、切分，向量存储、检索等操作的封装。最后，结合RAG基本流程、LangChainPrompt模板和输入输出模块，我们将利用LangChain实现RAG的基本流程。文章目录0.模块介绍1.Documentloaders文档加载模块1.
python利用向量数据库chroma实现RAG检索增强生成 Cachel wood LLM和AIGC 阿里云云计算 python flask 开发语言 RAG chroma
文章目录向量数据库chroma简介RAG简介RAG示例向量数据库chroma简介向量数据库chroma教程RAG简介RAG的全称是Retrieval-AugmentedGeneration，中文翻译为检索增强生成。它是一个为大模型提供外部知识源的概念，这使它们能够生成准确且符合上下文的答案，同时能够减少模型幻觉。知识更新问题最先进的LLM会接受大量的训练数据，将广泛的常识知识存储在神经网络的权重中
关于centos7仓库归档导致yum源更新失败问题Could not retrieve mirrorlist http://mirrorlist.centos.org?arch=x86_64 飘然渡沧海自己新建项目遇到问题 linux centos
关于centos7仓库归档导致yum源更新失败问题，报错Loadedplugins:fastestmirrorDeterminingfastestmirrorsCouldnotretrievemirrorlisthttp://mirrorlist.centos.org?arch=x86_64&release=7&repo=sclo-rherrorwas14:curl#6-"Couldnotreso
Kafka 如何保证数据不丢失？不重复优秀后端工程师 Java程序员 kafka linq 分布式
1.高可用型配置：acks=all，retries>0retry.backoff.ms=100(毫秒)(并根据实际情况设置retry可能恢复的间隔时间)优点：这样保证了producer端每发送一条消息都要成功，如果不成功并将消息缓存起来，等异常恢复后再次发送。缺点：这样保证了高可用，但是这会导致集群的吞吐量不是很高，因为数据发送到broker之后，leader要将数据同步到fllower上，如果网
docker网站水彩橘子 docker 运维 linux
1、安装docker环境curl-sSLhttps://get.daocloud.io/docker|shvi/etc/docker/daemon.json添加如下{"insecure-registries":["harbor.wtown.com"],"registry-mirrors":["http://hub-mirror.c.163.com"]}启动systemctldaemon-reloa
仿论坛项目--第三部分习题 HUT_Tyne265 前端 javascript 数据库
1.关于前缀树的特征描述不正确的是：根节点不包含字符，除根节点以外的每个节点，只包含一个字符。从根节点到某一个节点，路径经过的字符连接起来，为该节点对应的字符串。每个节点的所有子节点，包含的字符串不相同。每个节点，最多只能包含2个节点。解析：这些描述都是关于前缀树（Trie）的一些基本特点。前缀树是一种树形结构，用于高效地存储字符串数据，常用于自动补全或拼写检查等应用。在前缀树中：根节点通常不包含
07-02 Filtering（过滤）&& 07-03 Sorting（排序）汤姆•猫 XPO .net linq 数据库 XPO
07-02Filtering（过滤）XPOallowsyouto:XPO允许您：filterdataitemsinadatastorepriortoretrievingdata,在检索数据之前过滤数据存储中的数据项，filterthealreadyretrievedpersistentobjectsontheclientside.在客户端过滤已检索到的持久对象。FilterDataontheSer
扫会那花安全会议
S&PSession9:WebNDSSSession1A:IoTNDSSSession3B:AuthenticationUSENIXSession:UnderstandingHowHumansAuthenticateS&PSession9:Webhttps://dblp.uni-trier.de/db/conf/sp/sp2018.htmlFP-STALKER:TrackingBrowserFin
kafka ---- producer与broker配置详解以及ack机制详解 husterlichf #kafka kafka java 分布式
一、producer配置1、bootstrap.serverskafkabroker集群的ip列表，格式为：host1:port1,host2:port2,…2、client.id用于追踪消息的源头3、retries当发送失败时客户端会进行重试，重试的次数由retries指定，默认值是2147483647，即Integer.MAX_VALUE；在重试次数耗尽和delivery.timeout.ms
Bert系列：论文阅读Rethink Training of BERT Rerankers in Multi-Stage Retrieval Pipeline 凝眸伏笔 nlp 论文阅读 bert reranker retrieval
一句话总结：提出LocalizedContrastiveEstimation(LCE)，来优化检索排序。摘要预训练的深度语言模型(LM)在文本检索中表现出色。基于丰富的上下文匹配信息，深度LM微调重新排序器从候选集合中找出更为关联的内容。同时，深度lm也可以用来提高搜索索引，构建更好的召回。当前的reranker方法并不能完全探索到检索结果的效果。因此，本文提出了LocalizedContrast
《经济学人》精读6：Retail Property VictorLiNZ
VacantSpacesTheglobalpropertybusinesstriestoadapttoe-commerceManyretailpropertieswillslumpbutothershavebrighterprospectsDec14th2017|NEWYORKFIFTHAVENUEinNewYorkisthemostexpensivestretchofretailproperty
centos中yum安装时提示Cannot find a valid baseurl for repo: base/7/x86_64 出现仓库源问题 Zww0891 服务器 BUG centos linux 运维
引言centos中yum安装时报Cannotfindavalidbaseurlforrepo:base/7/x86_64错误如下已加载插件：fastestmirrorLoadingmirrorspeedsfromcachedhostfileCouldnotretrievemirrorlisthttp://mirrorlist.centos.org/?release=7&arch=x86_64&re
WeKnow-RAG：智能自适应的检索增强生成方法步子哥人工智能
在当今快速发展的人工智能领域，检索增强生成（Retrieval-AugmentedGeneration，RAG）方法逐渐成为一种新兴的解决方案。CobusGreyling在他最新的文章中深入探讨了WeKnow-RAG，这一方法通过结合知识图谱和网络搜索技术，极大地提升了大型语言模型（LLMs）在复杂查询中的表现。知识图谱的力量知识图谱（KnowledgeGraphs,KGs）作为信息检索的重要工具
统一思想认识永夜-极光思想
1.统一思想认识的基础,才能有的放矢原因: 总有一种描述事物的方式最贴近本质,最容易让人理解. 如何让教育更轻松,在于找到最适合学生的方式. 难点在于,如何模拟对方的思维基础选择合适的方式. &
Joda Time使用笔记 bylijinnan java joda time
Joda Time的介绍可以参考这篇文章： http://www.ibm.com/developerworks/cn/java/j-jodatime.html 工作中也常常用到Joda Time，为了避免每次使用都查API，记录一下常用的用法： /** * DateTime变化（增减） */ @Tes
FileUtils API eksliang FileUtils FileUtils API
转载请出自出处：http://eksliang.iteye.com/blog/2217374 一、概述这是一个Java操作文件的常用库，是Apache对java的IO包的封装，这里面有两个非常核心的类FilenameUtils跟FileUtils，其中FilenameUtils是对文件名操作的封装;FileUtils是文件封装，开发中对文件的操作，几乎都可以在这个框架里面找到。非常的好用。
各种新兴技术不懂事的小屁孩技术
1:gradle Gradle 是以 Groovy 语言为基础，面向Java应用为主。基于DSL（领域特定语言）语法的自动化构建工具。现在构建系统常用到maven工具，现在有更容易上手的gradle，搭建java环境: http://www.ibm.com/developerworks/cn/opensource/os-cn-gradle/ 搭建android环境： http://m
tomcat6的https双向认证酷的飞上天空 tomcat6
1.生成服务器端证书 keytool -genkey -keyalg RSA -dname "cn=localhost,ou=sango,o=none,l=china,st=beijing,c=cn" -alias server -keypass password -keystore server.jks -storepass password -validity 36
托管虚拟桌面市场势不可挡蓝儿唯美
用户还需要冗余的数据中心，dinCloud的高级副总裁兼首席营销官Ali Din指出。该公司转售一个MSP可以让用户登录并管理和提供服务的用于DaaS的云自动化控制台，提供服务或者MSP也可以自己来控制。在某些情况下，MSP会在dinCloud的云服务上进行服务分层，如监控和补丁管理。 MSP的利润空间将根据其参与的程度而有所不同，Din说。 “我们有一些合作伙伴负责将我们推荐给客户作为个
spring学习——xml文件的配置 a-john spring
在Spring的学习中，对于其xml文件的配置是必不可少的。在Spring的多种装配Bean的方式中，采用XML配置也是最常见的。以下是一个简单的XML配置文件： <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.or
HDU 4342 History repeat itself 模拟 aijuans 模拟
来源：http://acm.hdu.edu.cn/showproblem.php?pid=4342 题意：首先让求第几个非平方数，然后求从1到该数之间的每个sqrt(i)的下取整的和。思路：一个简单的模拟题目，但是由于数据范围大，需要用__int64。我们可以首先把平方数筛选出来，假如让求第n个非平方数的话，看n前面有多少个平方数，假设有x个，则第n个非平方数就是n+x。注意两种特殊情况，即
java中最常用jar包的用途 asia007 java
java中最常用jar包的用途 jar包用途axis.jarSOAP引擎包commons-discovery-0.2.jar用来发现、查找和实现可插入式接口，提供一些一般类实例化、单件的生命周期管理的常用方法.jaxrpc.jarAxis运行所需要的组件包saaj.jar创建到端点的点到点连接的方法、创建并处理SOAP消息和附件的方法，以及接收和处理SOAP错误的方法. w
ajax获取Struts框架中的json编码异常和Struts中的主控制器异常的解决办法百合不是茶 js json编码返回异常
一:ajax获取自定义Struts框架中的json编码出现以下问题: 1,强制flush输出 json编码打印在首页 2, 不强制flush js会解析json 打印出来的是错误的jsp页面却没有跳转到错误页面 3, ajax中的dataType的json 改为text 会
JUnit使用的设计模式 bijian1013 java 设计模式 JUnit
JUnit源代码涉及使用了大量设计模式 1、模板方法模式（Template Method）定义一个操作中的算法骨架，而将一些步骤延伸到子类中去，使得子类可以不改变一个算法的结构，即可重新定义该算法的某些特定步骤。这里需要复用的是算法的结构，也就是步骤，而步骤的实现可以在子类中完成。
Linux常用命令（摘录） sunjing crond chkconfig
chkconfig --list 查看linux所有服务 chkconfig --add servicename 添加linux服务 netstat -apn | grep 8080 查看端口占用 env 查看所有环境变量 echo $JAVA_HOME 查看JAVA_HOME环境变量安装编译器 yum install -y gcc
【Hadoop一】Hadoop伪集群环境搭建 bit1129 hadoop
结合网上多份文档，不断反复的修正hadoop启动和运行过程中出现的问题，终于把Hadoop2.5.2伪分布式安装起来，跑通了wordcount例子。Hadoop的安装复杂性的体现之一是，Hadoop的安装文档非常多，但是能一个文档走下来的少之又少，尤其是Hadoop不同版本的配置差异非常的大。Hadoop2.5.2于前两天发布，但是它的配置跟2.5.0，2.5.1没有分别。 &nb
Anychart图表系列五之事件监听白糖_ chart
创建图表事件监听非常简单：首先是通过addEventListener('监听类型',js监听方法)添加事件监听，然后在js监听方法中定义具体监听逻辑。以钻取操作为例，当用户点击图表某一个point的时候弹出point的name和value，代码如下： <script> //创建AnyChart var chart = new AnyChart(); //添加钻取操作&quo
Web前端相关段子 braveCS web前端
Web标准：结构、样式和行为分离使用语义化标签 0）标签的语义：使用有良好语义的标签，能够很好地实现自我解释，方便搜索引擎理解网页结构，抓取重要内容。去样式后也会根据浏览器的默认样式很好的组织网页内容，具有很好的可读性，从而实现对特殊终端的兼容。 1）div和span是没有语义的：只是分别用作块级元素和行内元素的区域分隔符。当页面内标签无法满足设计需求时，才会适当添加div
编程之美-24点游戏 bylijinnan 编程之美
import java.util.ArrayList; import java.util.Arrays; import java.util.HashSet; import java.util.List; import java.util.Random; import java.util.Set; public class PointGame { /**编程之美
主页面子页面传值总结 chengxuyuancsdn 总结
1、showModalDialog returnValue是javascript中html的window对象的属性,目的是返回窗口值,当用window.showModalDialog函数打开一个IE的模式窗口时,用于返回窗口的值主界面 var sonValue=window.showModalDialog("son.jsp"); 子界面 window.retu
[网络与经济]互联网+的含义 comsci 互联网+
互联网+后面是一个人的名字 = 网络控制系统互联网+你的名字 = 网络个人数据库每日提示:如果人觉得不舒服,千万不要外出到处走动,就呆在床上,玩玩手游,更不能够去开车,现在交通状况不
oracle 创建视图 with check option daizj 视图 view oralce
我们来看下面的例子： create or replace view testview as select empno,ename from emp where ename like ‘M%’ with check option; 这里我们创建了一个视图，并使用了with check option来限制了视图。然后我们来看一下视图包含的结果： select * from testv
ToastPlugin插件在cordova3.3下使用 dibov Cordova
自己开发的Todos应用，想实现“ 再按一次返回键退出程序 ”的功能，采用网上的ToastPlugins插件，发现代码或文章基本都是老版本，运行问题比较多。折腾了好久才弄好。下面吧基于cordova3.3下的ToastPlugins相关代码共享。 ToastPlugin.java package&nbs
C语言22个系统函数 dcj3sjt126com c function
C语言系统函数一、数学函数下列函数存放在math.h头文件中Double floor(double num) 求出不大于num的最大数。Double fmod(x, y) 求整数x/y的余数。Double frexp(num, exp); double num; int *exp; 将num分为数字部分（尾数）x和以2位的指数部分n，即num=x*2n，指数n存放在exp指向的变量中，返回x。D
开发一个类的流程 dcj3sjt126com 开发
本人近日根据自己的开发经验总结了一个类的开发流程。这个流程适用于单独开发的构件，并不适用于对一个项目中的系统对象开发。开发出的类可以存入私人类库，供以后复用。以下是开发流程： 1. 明确类的功能，抽象出类的大概结构 2. 初步设想类的接口 3. 类名设计（驼峰式命名） 4. 属性设置(权限设置) 判断某些变量是否有必要作为成员属
java 并发 shuizhaosi888 java 并发
能够写出高伸缩性的并发是一门艺术在JAVA SE5中新增了3个包 java.util.concurrent java.util.concurrent.atomic java.util.concurrent.locks 在java的内存模型中，类的实例字段、静态字段和构成数组的对象元素都会被多个线程所共享，局部变量与方法参数都是线程私有的，不会被共享。
Spring Security（11）——匿名认证 234390216 Spring Security ROLE_ANNOYMOUS 匿名
匿名认证目录 1.1 配置 1.2 AuthenticationTrustResolver 对于匿名访问的用户，Spring Security支持为其建立一个匿名的AnonymousAuthenticat
NODEJS项目实践0.2[ express,ajax通信...] 逐行分析JS源代码 Ajax nodejs express
一、前言通过上节学习，我们已经 ubuntu系统搭建了一个可以访问的nodejs系统，并做了nginx转发。本节原要做web端服务及 mongodb的存取，但写着写着，web端就
在Struts2 的Action中怎样获取表单提交上来的多个checkbox的值 lhbthanks java html struts checkbox
第一种方法：获取结果String类型在 Action 中获得的是一个 String 型数据，每一个被选中的 checkbox 的 value 被拼接在一起，每个值之间以逗号隔开(,)。所以在 Action 中定义一个跟 checkbox 的 name 同名的属性来接收这些被选中的 checkbox 的 value 即可。以下是实现的代码：前台 HTML 代码：
003.Kafka基本概念 nweiren hadoop kafka
Kafka基本概念：Topic、Partition、Message、Producer、Broker、Consumer。 Topic：消息源（Message）的分类。 Partition： Topic物理上的分组，一
Linux环境下安装JDK roadrunners jdk linux
1、准备工作创建JDK的安装目录： mkdir -p /usr/java/ 下载JDK，找到适合自己系统的JDK版本进行下载： http://www.oracle.com/technetwork/java/javase/downloads/index.html 把JDK安装包下载到/usr/java/目录，然后进行解压： tar -zxvf jre-7
Linux忘记root密码的解决思路 tomcat_oracle linux
1：使用同版本的linux启动系统，chroot到忘记密码的根分区passwd改密码　　2：grub启动菜单中加入init=/bin/bash进入系统，不过这时挂载的是只读分区。根据系统的分区情况进一步判断. 　　3: grub启动菜单中加入 single以单用户进入系统. 　　4:用以上方法mount到根分区把/etc/passwd中的root密码去除　　例如: 　　ro
跨浏览器 HTML5 postMessage 方法以及 message 事件模拟实现 xueyou jsonp jquery 框架 UI html5
postMessage 是 HTML5 新方法，它可以实现跨域窗口之间通讯。到目前为止，只有 IE8+, Firefox 3, Opera 9, Chrome 3和 Safari 4 支持，而本篇文章主要讲述 postMessage 方法与 message 事件跨浏览器实现。postMessage 方法 JSONP 技术不一样，前者是前端擅长跨域文档数据即时通讯，后者擅长针对跨域服务端数据通讯，p