小竹zz

内存数据库中的索引技术

　　引言

　　传统的数据库管理系统把所有数据都放在磁盘上进行管理，所以称作磁盘数据库（DRDB: Disk-Resident Database）。磁盘数据库需要频繁地访问磁盘来进行数据的操作，磁盘的读写速度远远小于CPU处理数据的速度，所以磁盘数据库的瓶颈出现在磁盘读写上。

　　基于此，内存数据库的概念被提出来了。内存数据库(MMDB:Main Memory Database，也叫主存数据库)^[1]，就是将数据全部或者大部分放在内存中进行操作的数据库管理系统，对查询处理、并发控制与恢复的算法和数据结构进行重新设计，以更有效地使用CPU周期和内存。相对于磁盘，内存的数据读写速度要高出几个数量级，将数据保存在内存中相比从磁盘上访问能够极大地提高应用的性能。

　　近十几年来，内存的发展一直遵循摩尔定律^[2]，内存的价格一直下降，而内存的容量一直在增加。现在的主流服务器，几百GB或者几TB的内存都很常见，内存的发展使得内存数据库得以实现。

　　由于内存数据库与传统的磁盘数据库在设计和架构上都大不相同，所以传统的数据库索引不适用于内存数据库。研究者为改进内存数据库的索引结构做了相当多的研究跟工作。其中，影响较大的索引有早期的T树、基于缓存敏感(cacheconscious)的CSS/CSB+树，Trie-tree和Hash等等。本文就这几种有代表性的索引算法进行研究和分析，为进一步改进内存数据库索引算法和提高索引性能打下坚实的基础。

　　2、T-tree

　　2.1 T-tree

　　T-tree是针对主存访问优化的索引技术^[3]。T-tree是一种一个节点中包含多个索引条目的平衡二叉树，T-tree的索引项无论是从大小还是算法上都比B-tree精简得多。T-tree的搜索算法不分搜索的值在当前的节点还是在内存中的其他地方，每访问到一个新的索引节点，索引的范围减少一半。

图2-1T-Tree的结点

　　T-tree索引用来实现关键字的范围查询。T-tree是一棵特殊平衡的二叉树（AVL），它的每个节点存储了按键值排序的一组关键字。T-tree除了较高的节点空间占有率，遍历一棵树的查找算法在复杂程度和执行时间上也占有优势。现在T-tree己经成为内存数据库中最主要的一种索引方式。

　　T-tree具有以下特点：1）左子树与右子树之差不超过1，2）在一个存储节点可以保存多个键值，它的最左与最右键值分别为这个节点的最小与最大键值，它的左子树仅仅包含那些键值小于或等于最小键值的一记录，同理右子树只包括那些键值大于或等于最大键值的记录，3）同时拥有左右子树的节点被称为内部节点，只拥有一个子树的节点被称为半叶节点，没有子树的节点被称为叶子，4）为了保持空间的利用率，每一个内部节点都需要包含一个最小数目的键值。由此可知T-tree是一个每个结点含有多个关键字的平衡二叉树，每个节点内的关键字有序排列，左子树都要比根节点关键字小，右子树都要比根节点关键字大。

　　在上述T-tree结点结构中，包含如下信息:

　　(1)balance(平衡因子)，其绝对值不大于1，balance=右子树高度-左子树高度；

　　(2)Left_child_ptr和Right_child_ptr分别表示当前结点的左子树和右子树指针；

　　(3)Max_Item表示结点中所能容纳的键值的最大数；

　　(4)Key[0]至K[Max_Item-1]为结点内存放的关键字；

　　(5)nItem是当前节点实际存储的关键字个数。

　　对于T-tree有如下特征：

　　(1)与AVL树相似，T-tree中任何结点的左右子树的高度之差最大为1；

　　(2)与AVL树不同，T-tree的结点中可存储多个键值，并且这些键值排列有序；

　　(3)T-tree结点的左子树中容纳的键值不大于该结点中的最左键值；右子树中容纳的键值不小于该结点中的最右键值；

　　(4)为了保证每个结点具有较高的空间占用率，每个内部结点所包含的键值数目必须不小于某个指定的值，通常为(Max_Item-2)(Max_Item为结点中最大键值目)。

　　2.2 T-tree索引的操作

　　用T-tree作为索引方式主要完成三个工作：查找，插入，删除。其中插入和删除都是以查找为基础。下面分别介绍三种操作的流程。

　　2.2.1 查找

　　T-tree的查找类似于二叉树，不同之处主要在于每一结点上的比较不是针对结点中的各个元素值，而是首先检查所要查找的目标键值是否包含在当前结点的最左键值和最右键值所确定的范围内，如果是的话，则在当前结点的键值列表中使用二分法进行查找；如果目标键值小于当前结点的最左键值，则类似地搜索当前结点的左孩子结点；如果目标键值大于当前结点的最右键值，则类似地搜索当前结点的右孩子结点。

　　2. 2.2 插入

　　T-tree的插入是以查找为基础，应用查找操作定位目标键值插入位置，并记下查找过程所遇到的最后结点。如果查找成功，判断此结点中是否有足够的存储空间。如果有，则将目标键值插入结点中；否则将目标键值插入此结点，然后将结点中的最左键值插入到它的左子树中(此时是递归插入操作)，之后结束；否则分配新结点，并插入目标键值；然后根据目标键值与结点的最大最小键值之间的关系，将新分配的结点链接为结点的左孩子或右孩子；对树进行检查，判断T-tree的平衡因子是否满足条件，如果平衡因子不满足则执行旋转操作。

　　2.2.3 删除

　　T-tree的删除操作也是以查找为基础，应用查找操作定位目标键值。如果查找失败，则结束；否则令N为目标键值所在的结点，并从结点N中删除目标键值；删除节点后，如果结点N为空，则删除结点N，并对树的平衡因子进行检查，判断是否需要执行旋转操作；如果结点N中的键值数量少于最小值，则根据N的平衡因子决定从结点N的左子树中移出最大的键值或者右子树中移出最小值来填充。

　　2.3 T-tree索引实现关键技术

　　实现T-tree索引即要实现T-tree的查找，插入和删除。其中又以查找为基础，对T-tree的维护也就是T-tree的旋转为关键。当由于插入或删除键值导致树的失衡，则要进行T-tree的旋转。使之重新达到平衡。

　　在插入情况下，需要依次对所有沿着从新创建结点到根结点路径中的结点进行检查，直到出现如下两种情况之一时中止：某个被检查结点的两个子树高度相等，此时不需要执行旋转操作；某个被检查结点的两个子树的高度之差大于1，此时对该结点仅需执行一次旋转操作即可。

　　在删除情况下，类似地需要依次对所有沿着从待删除结点的父结点到根结点路径中的结点进行检查，在检查过程中当发现某个结点的左右子树高度之差越界时，需要执行一次旋转操作。与插入操作不同的是，执行完旋转操作之后，检查过程不能中止，而是必须一直执行到检查完根结点。

　　由此可以看出，对于插入操作，最多只需要一次旋转操作即可使T-tree恢复到平衡状态；而对于删除操作则可能会引起向上的连锁反应，使高层结点发生旋转，因而可能需要进行多次旋转操作。

　　为了对T-tree进行平衡，需要进行旋转操作，旋转是T-tree中最关键也是最难的的操作，下面介绍T-tree旋转的技术。旋转可分为四种情况：由左孩子的左子树的插入（或者删除）引起的旋转记为LL旋转，类似有LR，RR及RL旋转。插入时的情况与删除类似。

　　3、CSS/CSB+树

　　3.1 CSS-trees

　　3.1.1 Introduction

　　CSS-trees(Cache-SensitiveSearch Trees),可以提供比二分查找更为迅速的查询操作而又不需大量额外的空间^[4]。该技术在在一个以排好序的数组顶端存储一个目录结构，且该目录结构的节点大小与机器cache-line大小相匹配。将该目录结构存储在数组中而无需存储内部节点的指针，子节点可通过数组偏移量定位，这与B+-trees不同。

　　3.2 FULL CSS-Tree

　　构造一棵结点包含m个键值的查询树，树的深度是d，那么一直到d-1的深度这棵树是一棵完全(m+1)-查询树，而在d层叶子结点从左往右分布。一棵m=4的实例树图3-1所示，其中方块数就是结点数，且每个结点有四个键值。

　　CSS-Tree的结点可以存储在数组中，如图3-2所示：

　　3.2.1 构造FULL CSS-Tree

　　将一个已排好序的数组构造一棵相应的Full CSS-Tree，首先将数组分为两部分，并且在叶子节点和数组元素间建立匹配。然后从最后一个内部节点开始，将节点直接左子树的最大键值作为节点入口。对于某一些内部节点，也就是最深层最后一个叶子节点的祖先，可能完全键值，可以用数组前半部分最后的一个元素来填充这些键值，所以在某些内部节点会有一些复制的键值。尽管要增量更新一棵Full CSS-Tree树是很困难的，但构造这样一棵树花费并不大。实验表明对于有着两千五百万键值的数组，构造其相应的Full CSS-Tree花费的时间不足一秒。

　　3.2.2 查询Full CSS-Tree

　　从根节点开始，每次都查询一个内部节点，利用二分查找来决定查找哪一个分支，重复上述行为直到叶子节点，最后将叶子节点与排好序的数组进行匹配。

　　在节点内所有的查询都由if-else构成，在内部节点进行二分查找时，一直比较左边的键值是否不小于要查询的键值，当找到第一个比要查询的键值小时，停止比较并进入右边的分支（如果找不到这样的值，就进入最左边的分支）。这样可以保证当在节点中有复制的值时，我们可以在所有复制的键值中找到最左边的键值。

　　3.3 LevelCSS-Tree

　　对于每个节点有m个记录的Full CSS-Tree，有严格的m个键值，所有的记录都会被利用到。对于m=2^t，我们定义每个节点只有只有m-1条记录，并且有一个分支因子m。一棵Level CSS-Tree树比一棵相应的Full CSS-Tree树的深度大，因为分支因子是m而不是m+1，然后对于每一个节点，需要的同伴数更少。若N为一个已排好序的数组元素所对应的节点数，Level CSS-Tree有log_mN层，而Full CSS-Tree有log_m+1N层。每个节点的同伴数是t，而Full CSS-tree是t*(1+2/(m+1))，所以Level CSS-tree的总的同伴数是log_mN*t=log₂N,而Full CSS-tree是log_m+1N*t*(1+2/(m+1))=log₂N*log_m+1m*(1+2(m+1)).因此，Level CSS-Tree所需的companion数比Full CSS-tree少。另一方面，Level CSS-Tree需要log_mN个cache accesses，遍历log_mN个节点，而Full CSS-Tree需log_m+1N。

　　构建一棵Level CSS-Tree与Full CSS-Tree类似，我们也可以利用每个节点的空槽，来存储最后一个分支的最大值，来避免遍历整棵子树来获取最大元素值。查询一棵Level CSS-Tree也与查询Full CSS-Tree类似，唯一的不同就是子节点偏移量的计算。

　　3.4 CSB+-Tree

　　3.4.1 Introduction

　　尽管CSS-Tree相比二分查找和T-Trees查询性能更好，但是它是用于决策支持的有着相对静态数据的工作负载设计的。CSB+-Tree(CacheSensitive B+-Trees)^[⁴^],是B+-Trees的变体，连续存储给定节点的子节点，并且只存储节点的第一个子节点的地址，其他子节点的地址可以通过相对这个子节点的偏移量计算获得。由于只存储一个子节点的指针，cache的利用率是很高的，与B+-Tree类似，CSB+-Tree支持增量更新。

　　CSB+-Tree有两种变体，分段CSB+-Tree(SegmentedCSB+-tree)和完全CSB+-tree(FullCSB+-Tree).分段CSB+-Tree将子节点分段，在同一段的子节点连续存储，在每个节点中，只有每一段的起始地址才会被存储。当有分裂时，分段CSB+-Tree可以减少复制开销，因为只有一个分段需要移动。完全CSB+-Tree为整个节点重新分配空间，因此减少了分裂开销。

　　3.4.2 CSB+-Tree上的操作

　　1） Bulkload.

　　对于CSB+-Tree树，一个有效的bulkload方法就是一层一层的建立索引结构。为每一个叶节点分配空间，计算在高层需要的节点数，并给该层分配连续的存储空间。通过将低层每一个节点的最大值填入高层的节点，并设置每一个高层节点的第一个子节点指针。重复上述操作直到高层只有一个节点，且这个节点为根节点。因为同一层的所有节点是连续的，所以构造节点组无需额外的复制操作。

　　2） Search

　　查询CSB+-Tree与查询B+-Tree类似，当最右边节点的键值K比要查询的键值小，给第一个子节点增加K的偏移量来获得子节点的地址。例如，K是节点的第三个键值，可以用一个c语句找到子节点：child=first_child+3，其中child和first_child是节点的指针。

　　3） Insertion

　　对CSB+-Tree的插入操作也与B+-Tree类似，首先要查找键值的插入口，一旦定位至相应叶节点，判断该叶节点是否有足够的空间，如果有，就简单的将键值放置在该叶节点中，否则，需要分裂该叶节点。

　　当需要分裂叶节点时，基于父节点是否有足够的空间存放键值会产生两种情况。假设父节点p有足够的空间，令f为p的第一个子节点的指针，g为f指向的节点组，构建一个新的比g多了一个节点的节点组g’，将g中所有的节点复制到g’，g中要分裂的节点在g’中变为两个节点，更新p中第一个子节点的指针f，使它指向g’，并且重新分配g。

　　当父节点没有额外的空间并且自身需要分裂时，问题显得更为复杂。令f为p中第一个节点的指针，需要构建新的节点组g’，将g中的节点均分至g’和g中，p中一半的键值转移至g’中。为了将p分裂为p和p’，包含p的节点组需要像第一种情况一样进行复制，或者，如果节点组也是满的，我们需要递归的分裂p的父节点。父节点再重复上述操作。

　　4）Deletion

　　删除操作类似于插入操作，一般的，简单的定位数据入口并且加以删除。无需调整树保证50%的occupancy^[5]

　　3.4.3 Segmented CSB+-Tree

　　考虑128字节的cache-line，CSB+-Tree中每个节点最多有30个键值，意味着每个节点可以有31个子节点，那么一个节点组最大可达31*128近4KB，因此每一个分裂，需要复制4KB的数据来创建一个节点组，若cache-line更大，分裂一个节点的开销将会更大。

　　修改节点结构可以减少分裂时的复制操作。可以将子节点分段，将每一段的地址存储在节点中，每一段形成了一个节点组，只有在同一段的子节点被连续存储。第一种考虑是固定每一个分段的大小，填充第一个分段的节点，一旦第一个分段满了，就将节点放在第二个分段。若一个节点落在第二个分段，我们只需将第二个分段的节点复制到新的段中，而无需管第一个分段，若新的节点落在第一个分段(已经满了)，我们需要将数据从第一个分段移至第二个分段，在上述例子中，针对随机插入，分裂产生的数据复制将会减少至1/2(1/2+3/4)*4KB=2.5KB.另一种就是允许每个分段的大小不同，最终将节点分为两段。当有节点插入时，为这个节点所属的分段创建一个新的分段，并更新相应分段的大小。在这种方法中，严格来说每次插入只涉及到一个分段(但当父节点也需要分裂，此时两个分段都要复制)，若一个新的节点等可能的落入其中一个分段，一个分裂产生的数据复制量为1/2*4KB=2KB，这种方法可以进一步的减少数据复制量。有两个分段的SegmentedCSB+Tree如图3-3所示(每个叶节点只有两个键值)：

　　分段CSB+-Tree可支持所有对树的操作，方法与非分段CSB+-Tree类似，然而，查找每个节点的右孩子比起非分段的CSB+-Tree的开销大，因为需要找到孩子所在的分段。

　　3.4.4 FULLCSB+-Tree

　　在FULLCSB+-Tree中，节点分裂的开销比CSB+-Tree小。在CSB+-Tree中，当节点分裂时，需要将节点组整个复制到新的组中，而在FullCSB+-Tree中，只需访问节点组的一半。对于这种转移操作的源地址和目的地址有大的交叉，访问的cache-line的数目限制在s内。FULLCSB+-Tree在分裂上的平均时间开销是0.5s，而CSB+-Tree需时2s。

　　3.5 时间空间分析

　　假定键值、子节点指针、元组ID有着相同的空间大小K，n为叶节点数，c为cache-line的字节数，t为分段CSB+-Tree的分段数。每个节点的槽值为m，其中m=c/K，假定节点大小与cache-line相同，各个参数及其相应的值如图3-4所示：

　　图3-5显示了各种方法间分支因子、键值差异数、cache未命中数、每个节点其他差异的比较。B+-Tree的分支因子比CSS-Tree小，而CSB+-Tree存储的子节点指针少，所需的分支因子与CSS-Tree相近。这导致每个方法的cache未命中次数不一样。节点的分支因子越大，cache未命中次数相应的越小。在CSB+-Tree每增加一个分段，分支因子就会减少2，这是由于需要一个槽来存储子节点指针，另一个槽来存储新增分段的大小。一般而言，B+-Tree中节点的70%空间是满的，需要相应的调整分支因子大小。^[6]

图 3-5 CSB+-Tree查询时间分析

　　图3-6显示了在分裂时预期要访问的cache-line数。由于复制时源地址和目的地址有交叉，所以FullCSB+-Tree所需的数目小。分裂开销是插入操作总开销的一部分，另一部分是定位优叶子节点产生的查询开销。分裂开销相对独立于树的深度，这是由于大多数的分裂都发生在叶节点。然而，当树的规模越来越大时，相应的查询产生的开销也会增大。CSB+-Tree的分裂开销比B+-Tree大，但是插入产生的总开销还与树的规模有关。

^{图3-7 显示了不同算法的空间需求。假定所有节点70%的空间是满的^[6]，且分别计算内部节点和叶节点的空间大小，假定每个叶节点有2个兄弟节点指针。内部节点空间大小等于叶节点空间乘以1/(q-1)(q为分支因子),这里不比较CSS-Tree，因为CSS-Tree不可能部分满。}

　　4 Trie-tree索引

　　4.1 Trie-tree

　　Trie-Tree^[7]又称单词查找树或键树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。

　　4.1.1 Trie-tree性质

　　它有三个基本的性质：

　　1）根节点不包含字符，除根节点以外每一个节点都只包含一个字符

　　2）从根节点到某一节点，路径上经过的的字符连接起来，为改节点对应的字符串。

　　3）每个节点的所有子节点包含的字符都不相同。

　　图4-1 展示了一个基本的tire-tree结构

　　图4-1 tire-tree

　　4.1.2 Trie树的基本实现

　　字母树的插入、删除和查找都非常简单，用一个一重循环即可，即第i次循环找到前i个字母所对应的子树，然后进行相应的操作。实现这棵字母树，我们用最常见的数组保存（静态开辟内存）即可，当然也可以开动态的指针类型（动态开辟内存）。至于结点对儿子的指向，一般有三种方法：

　　1）对每个结点开一个字母集大小的数组，对应的下标是儿子所表示的字母，内容则是这个儿子对应在大数组上的位置，即标号；

　　2）对每个结点挂一个链表，按一定顺序记录每个儿子是谁；

　　3）使用左儿子右兄弟表示法记录这棵树。

　　三种方法，各有特点。第一种易实现，但实际的空间要求较大；第二种，较易实现，空间要求相对较小，但比较费时；第三种，空间要求最小，但相对费时且不易写。

　　4.1.2.1 实现方法

　　搜索字典^[8]项目的方法为：

　　1) 从根结点开始一次搜索；

　　2) 取得要查找关键词的第一个字母，并根据该字母选择对应的子树并转到该子树继续进行检索；

　　3) 在相应的子树上，取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。

　　4) 迭代过程……

　　5) 在某个结点处，关键词的所有字母已被取出，则读取附在该结点上的信息，即完成查找。

　　其他操作类似处理

　　4.1.2.2 Trie原理

　　Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。

　　4.1.3 Trie树的高级实现Double-Array 实现

　　可以采用双数组（Double-Array）实现,如图1.3。利用双数组可以大大减小内存使用量，具体实现

　　两个数组，一个是base[]，另一个是check[]。设数组下标为i，如果base[i], check[i]均为0，表示该位置为空。如果base[i]为负值，表示该状态为终止态（即词语）。check[i]表示该状态的前一状态。

　　定义 1. 对于输入字符 c,从状态 s 转移到状态 t,双数组字典树满足如下条件(图4-2):

check[base[s] + c] = s
base[s] + c = t

　　从定义1中，我们能得到查找算法，对于给定的状态 s 和输入字符 c ：

t := base[s] + c;
if check[t] = s then
    next state := t
else
    fail
endif

　　我们知道双数组的实现方法是当状态有新转移时才分配空间给新状态，或可以表述为只分配需要转移的状态的空间。当遇到无法满足上述条件时再进行调整，使得其 base 值满足上述条件，这种调整只影响当前节点下一层节点的重分配，因为所有节点的地址分配是靠 base 数组指定的起始下标所决定的。插入的操作，假设以某字符开头的 base 值为i，第二个字符的字符序列码依次为c₁, c₂, c₃…c_n，则肯定要满足base[i+c₁], check[i+c₁], base[i+c₂], check[i+c₂], base[i+c₃], check[i+c₃]…base[i+c_n],check[i+c_n]均为0。

图4-3 Double Array 实现

　　假设，Tire里有n个节点，字符集大小为m，则DATrie的空间大小是n+cm，c是依赖于Trie稀疏程度的一个系数。而多路查找树的空间大小是nm。
　　注意，这里的复杂度都是按离线算法（offline algorithm）计算的，即处理时已经得到整个词库。在线算法（online algorithm）的空间复杂度还和单词出现的顺序有关，越有序的单词顺序空间占用越小。
　　查找算法的复杂度和被查找的字符串长度相关的，这个复杂度和多路查找树是一样的。
　　插入算法中，如果出现重分配的情况，我们要附加上扫描子节点的时间复杂度，还有新base值确定的算法复杂度。假如这儿我们都是用暴力算法（for循环扫描），那插入算法时间复杂度是O(nm + cm²)。。

　　实际编码过程中，DATrie代码难度大过多路查找树，主要是状态的表示不如树结构那样的清晰，下标很容易搞混掉。
　　有个地方需要注意的是，base值正数表示起始偏移量，负数表示该状态为终止态，所以在查找新base值时，要保证查到的值是正数。
如：空Trie状态下，插入d时，因为第一个空地址是1，所以得到base=1-4=-3，这样base正负的含义就被破坏了。

　　4.1.4 Trie树的应用

　　Trie是一种非常简单高效的数据结构，但有大量的应用实例。

　　（1）字符串检索

　　事先将已知的一些字符串（字典）的有关信息保存到trie树里，查找另外一些未知字符串是否出现过或者出现频率。例如：

　　1）给出N个单词组成的熟词表，以及一篇全用小写英文书写的文章，请你按最早出现的顺序写出所有不在熟词表中的生词。

　　2）给出一个词典，其中的单词为不良单词。单词均为小写字母。再给出一段文本，文本的每一行也由小写字母构成。判断文本中是否含有任何不良单词。例如，若rob是不良单词，那么文本problem含有不良单词。

　　（2）字符串最长公共前缀

　　Trie树利用多个字符串的公共前缀来节省存储空间，反之，当我们把大量字符串存储到一棵trie树上时，我们可以快速得到某些字符串的公共前缀。

　　例如：给出N个小写英文字母串，以及Q个询问，即询问某两个串的最长公共前缀的长度是多少？

　　解决方案：首先对所有的串建立其对应的字母树。此时发现，对于两个串的最长公共前缀的长度即它们所在结点的公共祖先个数，于是，问题就转化为了离线（Offline）的最近公共祖先（LeastCommon Ancestor，简称LCA）问题。

　　而最近公共祖先问题同样是一个经典问题，可以用下面几种方法：

　　1）利用并查集（Disjoint Set），可以采用采用经典的Tarjan算法；

　　2）求出字母树的欧拉序列（Euler Sequence）后，就可以转为经典的最小值查询（Range Minimum Query，简称RMQ）问题

　　（3）排序

　　Trie树是一棵多叉树，只要先序遍历整棵树，输出相应的字符串便是按字典序排序的结果。例如：给你N个互不相同的仅由一个单词构成的英文名，让你将它们按字典序从小到大排序输出。

　　（4）作为其他数据结构和算法的辅助结构，如后缀树，AC自动机等

　　4.1.5 Trie树复杂度分析

　　（1）插入、查找的时间复杂度均为O(N)，其中N为字符串长度。

　　（2）空间复杂度是26^n级别的，非常庞大（可采用双数组实现改善）。

　　4.1.6 总结

　　Trie树是一种非常重要的数据结构，它在信息检索，字符串匹配等领域有广泛的应用，同时，它也是很多算法和复杂数据结构的基础，如后缀树，AC自动机等。

　　4.2 TrieMemory

　　Trie Memory^[9]是一种在内存中存储和检索信息的方式，这种方式的优点是访问速度快，具有冗余存储信息的优点，主要的缺点是存储空间利用率很低。

　　4.2.1 基本的Trie Memory模型

　　假设我们需要跟踪一系列的单词集合，这些集合是字母组成的序列。这些单词序列有各种各样的长度，我们必须记住的是这些字母组成的有限序列在这个集合中。总得来说，我们需要判断一个序列是不是这个集合的成员。
　　刚开始trie仅仅是register组成的一个集合，除此之外还有两个register，一个是α另一个是δ，每一个register都有cell来存储整个字母表，如果我们要存储“space”的话，每个register必须拥有27个cell。
每一个cell都有空间来存储其它register在内存中的地址，trie中的cell还没有用来存储信息，通常包含的是register α的地址信息。一个cell如果包含了非register α的register地址，则它表示存储了信息，这些信息代表了这个cell的名称，“A”表示A cell,“B”表示B cell。下一个register的地址在序列中。
　　下面用一个例子(图2.1)来说明，为了让例子简单些，我们使用字母表的前5个字符来表示整体。然后用▽表示“space”，假设我们想存储DAB,BAD,BADE,BE,BED,BEAD,CAB,CAD和A，接下来用图来说明整个流程。在图中每一行代表一个register，每个register有6个cell,最后一行代表第三个特殊的register叫做portal register,是我们进入系统内存的通道它除了是入口外，也和其它register是一样的。其它register是编号的。register α将会选择它们。刚开始的时候 register α是register 2。

图4-4 基本Tire Memory模型

　　为了存储DAB，我们引入地址“2”进入portal register的D 单元格，然后我们移动到register 2然后引入地址“3”到A单元格，然后我们进入到register 3后把地址“4”放入单元格B，最后我们移动到register 4 并且把地址“1”放入▽单元，它是终止参数，至此DAB存储结束。然后我们转到第二个单词BAD，引入地址“5”进入portal register的B单元格来表示字母B，然后到register 5的A单元格写入地址“6”，再到register 6的D单元格写入地址“7”，最后到register 7的▽单元格写入地址“1”。当我们开始存储BADE时，我们发现B,A,D已经在trie中了，因此我们沿着已经存在的BAD的路径到register 7然后引入地址“8”到单元格E中去，然后把地址“1”放入register 8的▽单元。

　　4.2.2 Register的类型

　　在刚才提到的结构中我们可以把register分为4种类型：

　　1）α(address) register来指向下一个存储信息的地址

　　2）δ(deletion) register

　　3）ν(next) register，下一步将要存储的信息(在空内存中，它是portal register)

　　4）χ(exterior)类型χ是所有register中还没有接受存储信息并且没有被指向为下一个存储位置的register。

　　5）ο(occupied)类型ο是存有信息的register

　　4.2.3 Trie的读和写

　　在上述的所有的register中除了χ都在trie中，存储和读取操作现在能够被简单的公平的定义如下。

　　4.2.3.1 写操作

　　1）把第i个参数字符传入下一个register，如果是第一个字符，则是portal register

　　2）选择对应字符串的的cell,如果第i个参数字符是字母表的第j个字符，选择第j个cell。

　　3）检测来自第i个单元的联结

　　4）如果这种联结使得register α：

　　a）通过αregister把联结投射到链接的头部，这样就可以存储信息。

　　b)投射从αregister到链接头部的联结来创建一个“next”register(ν)

　　c)最后，把所有的从ν发出来的联结指向αregister。

　　5）如果源于第j个cell的联结指向非 αregister的话，移动到那个register去：

　　a）如果是第一个register，这参数是一个存储集合的成员(结束流程)。

　　b）如果不是register 1的话，i加1并且转到第二步去。

　　4.2.3.2 读操作

　　使用相同的流程，但是不要使用投射，不要投射任何关系，如果联结指向register 1，则这个参数是存储集合的一个成员，如果任何点的联结指向αregister,换句话说这个参数不是存储集合的成员。

　　5 HASH索引

　　HASH就是把关键词直接映射为存储地址，达到快速寻址的目的，即Addr=H(key)，其中key为关键词；H为哈希函数。主要有以下几种常用的哈希函数：

　　1)除留余数法(DivisionMethod)，H(key)=keyMOD p，p一般为质数；

　　2)随机数法(RandomMethod)，H(key)=random(key)，random为随机函数；

　　3)平方取中法(MidsquareMethod)。

　　HASH索引结构不需要额外的存储空间，并且能够在O(1)的时间复杂度下准确定位到所查找的数据，将磁盘数据库中的数据查找时间代价优化至最小。Hash索引结构由于以上优点在磁盘数据库中广泛的运用。经历长久的研究，先后发展出了链接桶哈希(chainedbucket hash)^[10]，可扩展哈希(extendible hash)^[11]、线性哈希(linearhash)^[12]和修正的线性哈希(modified linear hash)^[13]。但是这些哈希算法虽然针对内存数据库进行了少许优化，但是与传统数据库中所用的哈希算法没有明显不同。到了2007年，KennethA. Ross提出了基于现代处理器的Hash预取算法^[14]将SIMD指令集融入到Hash算法中，才真正从内存索引的角度改进了哈希算法，提升数据组织的效率。

　　5.1 链接桶哈希

　　链接桶哈希（图5-1）是一个静态的结构，可用于内存中与磁盘中。因为它是静态结构，不用对数据进行重组织，所以它速度很快。但这也是它的缺陷，面对动态数据，就显得不合适了，因为链接桶哈希必须在使用之前知道哈希表的大小，而这恰恰很难预测。如果预测的表大小过小，其性能会大受影响；如果过大，空间浪费较为严重。最好情况下，它只有一些空间的浪费，用来存放指向下一个桶的指针。

　　5.2 可扩展哈希

　　可扩展哈希（图5-2）引入了目录文件的概念，采用可随数据增长的动态哈希表，因此克服了链接桶哈希的缺陷，其哈希表大小不需要预先知道，一个哈希节点包含多个项，当节点数量溢出时将其分裂为两个节点。目录按2的指数倍增长，当一个节点装满而且到达了一个特定的目录大小目录就会倍增。哈希函数为每个键计算一个K位的二进制序列，桶的数量总是使用从序列第一位或者最后一位算起的若干位[]。但是可扩展哈希的一个问题是任意一个节点都会引起目录的分裂，当哈希函数不够随机时，目录很可能增长的很巨大。

　　5.3 线性哈希

　　线性哈希（图5-3）也使用动态的哈希表，但是同可扩展哈希有较大差别。线性哈希选择桶数总是使存储块的平均记录保持与容量成一个固定的比例。而且哈希桶不总是可以分裂，允许有溢出块。当插入的记录没有对应的桶，将其哈希值首位改为0，再次插入，否则直接插入对应桶或其溢出块中。当记录数量比容量达到一个阈值，增加一个桶，再分配。相对于可扩展哈希，线性哈希的增长较为缓慢，重组织的次数和代价都较小。同时，线性散列不需要存放数据桶指针的专门目录项，且能更自然的处理数据桶已满的情况，允许更灵活的选择桶分裂的时机。

　　5.4 修正的线性哈希

　　修正的线性哈希相对于线性哈希主要面向内存环境。通过使用更大的连续节点替代目录，普通的线性哈希由于有空节点而浪费空间。而且，除非有一个巧妙的方案解决潜在的虚拟内存映射机制问题，不然每次目录增长时那个连续的节点都要被拷贝到一个更大的内存块。修正的线性哈希采用跟可扩展哈希一样的目录，除了目录为线性增长的，链接的是单个项目的节点和分配内存是从一个常规的内存池。这个算法节点分裂的准则是基于性能，举例来说，监控哈希链的平均长度比监控存储利用率能够更直接的控制平均搜索和更新时间^[13]。

　　5.5 Hash预取算法

　　Hash预取算法面向的是键和哈希值都是32位的场景，特地对内存环境进行了优化。此算法使用乘法散列，这种方法十分普遍、计算高效，更重要的是适用于矢量，达到了一次计算多个哈希函数的目的^[14]。针对现代处理器的SIMD架构，将键值与哈希值共同放在一个指令当中，达到大大减少指令数的目的，令每次所需的数据长度恰好等于L2的cacheline，大大降低了性能代价，在内存环境中，大大提高了cache的性能。

　　参考文献：

　　[1] Garcia-Molina H, Salem K. Main memorydatabase systems: An overview[J]. Knowledge and Data Engineering, IEEETransactions on, 1992, 4(6): 509-516.

　　[2] Moore G E. Cramming more components ontointegrated circuits[J]. 1965.

　　[3] Lehman T J, Carey M J. A study of indexstructures for main memory database management systems[C]//Conference on VeryLarge Data Bases. 1986, 294.

　　[4] Jun Rao,Kenneth A. Ross:CacheConscious Indexing for Decision-Support in Main Memory,VLDB 1999: 78-89

　　[5]RaghuRamakrishnan. Database Management Systems. McGraw-Hill, 1997.

　　[6] AndrewYao. On random 2-3 trees. Acta Informatica, 9:159{170, 1978.

　　[7]Black,Paul E. (2009-11-16). "trie". Dictionary of Algorithms and Data Structures. NationalInstitute of Standards and Technology. Archived from the original on2010-05-19.

　　[8] Knuth,Donald(1997). "6.3: Digital Searching".The Art of ComputerProgramming Volume 3: Sorting and Searching.Addison-Wesley.p.492.

　　[9] FREDKIN E.Tire Memory[J]. Communication of theACM,1960,3(9):490-499.

　　[10] Knuth D. The Art of ComputerProgramming 1: Fundamental Algorithms 2: Seminumerical Algorithms 3: Sortingand Searching[J]. 1968.

　　[11] Fagin R, Nievergelt J, Pippenger N, et al.Extendible hashing—a fast access method for dynamic files[J]. ACM Transactionson Database Systems (TODS), 1979, 4(3): 315-344.

　　[12] Litwin W. Linear Hashing: a new tool forfile and table addressing[C]//VLDB. 1980, 80: 1-3.

　　[13] Lehman T J, Carey M J. A study of indexstructures for main memory database management systems[C]//Conference on VeryLarge Data Bases. 1986, 294.

　　[14] Ross K A. Efficient Hash Probes on ModernProcessors[C]//ICDE. 2007: 1297-1301.

你可能感兴趣的:(内存数据库,索引)

算法笔记——前缀树、贪心算法（更新ing....... 不吃香菜的码农左神算法笔记算法数据结构贪心算法 leetcode 堆栈
前缀树、贪心算法一、前缀树1.什么是前缀树2.如何生成前缀树二、贪心算法1.拼接字符串2.金条问题3.项目会议时间问题4.项目收益最大化4.随时获得数据流的中位数一、前缀树1.什么是前缀树前缀树一般指字典树这是指一种结构而不是一类题（注意信息是在树的路上）典型应用是用于统计和排序大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查
庖丁解java(一篇文章学java) 庖丁解java java 开发语言 spring boot 后端
(大家不用收藏这篇文章,因为这篇文章会经常更新,也就是删除后重发)一篇文章学java,这是我滴一个执念...当然,真一篇文章就写完java基础,java架构,java业务实现,java业务扩展,根本不可能.所以,这篇文章,就是一个索引,索什么呢?请看下文...关于决定开始写博文的介绍(一切故事的起点源于这一次反省)中小技术公司的软扩展(微服务扩展是否有必要?)-CSDN博客SpringCloud(
力扣算法ing(9/100) 菥菥爱嘻嘻小白学习算法算法 leetcode 数据库 typescript
2.26438.找到字符串中所有字母的异位词438.找到字符串中所有字母异位词给定两个字符串s和p，找到s中所有p的异位词的子串，返回这些子串的起始索引。不考虑答案输出的顺序。示例1:输入:s="cbaebabacd",p="abc"输出:[0,6]解释:起始索引等于0的子串是"cba",它是"abc"的异位词。起始索引等于6的子串是"bac",它是"abc"的异位词。示例2:输入:s="abab
运维面试题（七） a_j58 运维
1.statefulset用来管理有状态的应用程序，有状态是什么意思？每一个pod都有一个固定的网络标识符，在整个生命周期中不会改变。每个实例都可以拥有自己的持久化存储卷，即使容器被删除并重新创建，存储卷仍然存在。StatefulSet确保了Pod按照顺序启动、更新和终止。2.主键是什么，它与索引有什么关系？主键确保表中每一行数据都可以被唯一标识，避免数据重复。主键通常会自动创建一个唯一索引，加快
硬核项目 KV 存储，轻松拿捏面试官！程序员老舅 C++Linux后端 KV存储 C++C++后端开发 Redis 内存索引 C++数据结构
硬核项目KV存储，轻松拿捏面试官！在简历上如何写这个项目？项目概述基于Bitcask模型，兼容Redis数据结构和协议的高性能KV存储引擎设计细节采用Key/Value的数据模型，实现数据存储和检索的快速、稳定、高效存储模型：采用Bitcask存储模型，具备高吞吐量和低读写放大的特征持久化：实现了数据的持久化，确保数据的可靠性和可恢复性索引：多种内存索引结构，高效、快速数据访问并发控制：使用锁机制
MongoDB慢日志查询及索引创建 laolitou_1024 中间件微服务数据库 mongodb
MongoDB的慢日志（SlowQueryLog）对于运维和程序员来说都非常重要，因为它直接关系到数据库的性能和应用程序的稳定性。以下分享介绍下MongoDB慢日志查询及索引创建相关的一些笔记。一，准备1.使用db.currentOp()实时监控db.currentOp()可以查看当前正在执行的操作，适合捕捉瞬时的高CPU操作。db.currentOp()示例：过滤长时间运行的操作db.curre
StarRocks中优雅处理JSON与列表字段的初步示例 t.y.Tang 数据库 mysql json
StarRocks是一种兼容MySQL语法,自带对JSON,ARRAY等格式支持的数据库.文章目录一StarRocks是什么？与MySQL有何关系？二JSON格式的好处三JSON数组字段的应用和缺点四实例:StarRocks处理JSON数组的方法示例表结构场景1:筛选包含特定事件的用户场景2:提取数组中的嵌套字段场景3:展开数组为多行(UNNEST)场景4:复杂条件过滤(结合`$`索引)五,性能优
深度剖析linux内核万能--双向链表,Hash链表模版 Engineer-Bruce_Yang C语言-算法与数据结构编程 C语言在开发中的应用
我们都知道，链表是数据结构中用得最广泛的一种数据结构，对于数据结构，有顺序存储，数组就是一种。有链式存储，链表算一种。当然还有索引式的，散列式的，各种风格的说法，叫法层出不穷，但是万变不离其中，只要知道什么场合用什么样的数据结构，那就行了。那么，标题说的内核万能链表，其实就是内核链表，它到底和我们平常大学学的数据结构的链表有什么不同呢？？内核链表，是在linux内核里的一种普遍存在的数据结构，比如
数据结构-----队列磨十三数据结构算法 linux
顺序队列（Queue）一、队列核心概念1.基本特性先进先出（FIFO）：最早入队的元素最先出队操作限制：队尾（Rear）：唯一允许插入的位置队头（Front）：唯一允许删除的位置2.顺序队列结构typedefintDATATYPE;typedefstructqueue{DATATYPE*ptr;//存储空间基地址inttlen;//队列总容量inthead;//队头索引inttail;//队尾索引
docker（10、日志管理4）5、Graylog 日志系统(1、部署Graylog日志系统，2、Graylog管理日志) junior1206 k8s docker
部署Graylog日志系统Graylog是与ELK可以相提并论的一款几种式日志管理方案，支持数据收集、检索、可视化Dashboard。将实践用Graylog来管理Docker日志Graylog架构Graylog架构如下图所示：Graylog负责接收来自各种设备和应用的日志，并未用户提供Web访问接口。Elasticsearch用于索引和保存Graylog接收到的日志MongoDB负责保存Grayl
ArrayList 和 LinkedList区别重生之我在成电转码 java 多线程系统
一、底层实现特性ArrayListLinkedList数据结构动态数组（Object[]数组）双向链表（每个节点有前驱和后继）内存布局连续内存，空间利用率高非连续内存，空间占用大元素访问方式下标随机访问（基于索引）只能顺序遍历，找元素慢⏱二、时间复杂度对比（核心！）操作ArrayListLinkedList随机访问O(1)O(n)头部插入O(n)（全体后移）O(1)中间插入O(n)O(n)尾部插入
Java架构师成长之路 hweiyu00 分享 spring 微服务 spring cloud java
概述本教程主要从6个方面，全面讲解Java技术栈的知识。1.性能调优深入理解MySQL底层原理、索引逻辑，数据结构与算法。使用Explain进行优化分析MVCC原理剖析日志机制解析2.框架源码掌握Spring底层原理带你手写一个Spring解析IOC、AOP源码、以及事务原理3.并发编程剖析Java底层锁机制CAS、JUC工具使用、AQS源码分析以及并发的集合类的讲解4.分布式开发剖析分布式中使用
Java面试高频问题深度解析：JVM、锁机制、SQL优化与并发处理 Debug Your Career 面试 java 面试 jvm
问题列表Java中如何实现一个工作流引擎？Bean的作用域有哪些？JVM中的锁机制是如何工作的？三个方法分别被synchronized锁住，方法a调用方法b，b能获取到a的锁吗？会有什么问题？SQL优化时，EXPLAIN中需要关注哪些关键点？什么是覆盖索引？SELECT*一定不会命中索引吗？SELECT*和SELECT全字段在性能上有区别吗？什么是回表？它与索引有什么关系？100万数据分给10个线
香港站群服务器租用应该怎么选？莱卡云（Lcayun）服务器运维 linux 前端网络
在租用香港站群服务器时，应该综合考虑多个因素以确保选择到性价比最高、性能最优的服务器。以下是一些关键的选择要点：香港站群服务器就找莱卡云‌IP资源数量和质量‌：‌数量‌：站群服务器一般需要多个独立IP，以便将每个站点分布在不同的IP上，避免搜索引擎对同IP站点的关联性判断‌1。‌分散性‌：尽量选择不同C段甚至不同B段的IP，这样可以增加站群的SEO效果，降低被搜索引擎认为是关联站点的风险‌1。‌质
23、nc文件快速切片与索引爱转呼啦圈的小兔子气象数据处理与可视化 python 气象气象可视化气候变化
1前言在气象、海洋学和环境科学等领域，.nc（NetCDF）格式文件是存储和共享多维科学数据的常用格式。这些数据文件通常包含大量的经度、纬度、时间和垂直层次数据。在处理这些数据时，研究人员常常需要根据特定的地理和时间范围提取数据，以便进行深入分析。为此，我们开发了一个名为nc_slice的Python函数，用于从一个或多个.nc格式文件中高效地筛选和提取数据。nc_slice函数提供了一种简洁而灵
如何进行PHP性能优化？破碎的天堂鸟 PHP学习 php 性能优化开发语言
PHP性能优化是一个复杂且多方面的过程，涉及从代码层面到服务器配置的多个方面。以下是一些关键的优化技巧和最佳实践：选择合适的数据结构（如数组、对象等）可以显著提高程序的运行效率。缓存是提升PHP性能的有效手段之一。可以通过页面缓存、数据缓存、内存缓存等方式来减少重复计算。例如，使用APC、Memcached或Redis进行内存缓存，或者利用文件系统进行数据缓存。使用索引、优化SQL查询语句以及使用
Python 常用内建模块-HTMLParser 赔罪 Python 系统学习 python 开发语言
目录HTMLParser小结练习HTMLParser如果我们要编写一个搜索引擎，第一步是用爬虫把目标网站的页面抓下来，第二步就是解析该HTML页面，看看里面的内容到底是新闻、图片还是视频。假设第一步已经完成了，第二步应该如何解析HTML呢？HTML本质上是XML的子集，但是HTML的语法没有XML那么严格，所以不能用标准的DOM或SAX来解析HTML。好在Python提供了HTMLParser来非
DeepSeek：智能搜索与分析的新纪元 XRC2231 学习
在人工智能浪潮席卷全球的今天，DeepSeek如同一颗璀璨的新星，以其独特的魅力和强大的功能，在AI领域脱颖而出。DeepSeek，这一基于深度学习和数据挖掘技术的智能搜索与分析系统，不仅重新定义了搜索引擎的边界，更以其卓越的性能和广泛的应用场景，为全球用户带来了前所未有的智能体验。本文将从DeepSeek的定义、特点、应用场景、优势等方面进行全面而深入的介绍，带您领略这一新兴技术的独特魅力。一、
Milvus学习整理 louisliao_1981 milvus 学习
Milvus学习整理一、度量类型(metric_type)二、向量字段和适用场景介绍三、索引字段介绍（一）、概述总结（二）、详细说明四、简单代码示例（一）、建立集合和索引示例（二）、搜索示例（三）、参考文档五、数据搜索(一)、基础搜索参数说明(二)、范围搜索1.概述总结2.详细说明(三)、全文搜索(BM25)1.概述2.使用全文搜索步骤(四)、其他搜索一、度量类型(metric_type)相似度量
搜索插入位置(力扣题）风继续吹.. LeetCode算法题 leetcode 算法职场和发展前端
题目：给定一个排序数组和一个目标值，在数组中找到目标值，并返回其索引。如果目标值不存在于数组中，返回它将会被按顺序插入的位置。来源：力扣（LeetCode）请必须使用时间复杂度为O(logn)的算法示例以及输出结果来源：力扣（LeetCode）示例1:输入:nums=[1,3,5,6],target=5输出:2示例2:输入:nums=[1,3,5,6],target=2输出:1示例3:输入:num
【Rust基础】使用Rust和WASM开发的图片压缩工具勇敢牛牛_ rust wasm 开发语言图片压缩
图片压缩工具使用rust+wasm开发了一个简易版的图片压缩工具，支持JPG、PNG、GIF、WEBP等图片格式，不限制大小，无需上传图片，完全在浏览器中执行。工具地址：https://eai.coderbox.cn/image-compression实现方式JPEG对原图进行量化，通过指定质量参数，控制压缩质量。PNG同样的进行量化，并重新将rgba颜色（如果原图是rgba）调整为8位索引颜色，
【赵渝强老师】达梦数据库的数据库对象数据库信创
达梦数据库中包含各种数据库对象，主要分为两大类型：基本数据库对象和复杂数据库对象。下面分别进行介绍。视频讲解如下：https://www.bilibili.com/video/BV1HwffYXEu5/?aid=113888909595...一、基本数据库对象常见的基本数据库对象有：表、索引、视图、序列、同义词等。之所以叫做基本数据库对象是因为这些对象直接使用一条DDL（DataDefinitio
《MySQL 入门教程》第 30 篇数据库索引不剪发的Tony老师 MySQL入门教程 mysql 索引 create index drop index
文章目录30.1创建索引30.2查看索引30.3修改索引30.4删除索引数据库索引（Index）就像书籍后面的关键字索引，按照关键字进行排序，并且提供了指向具体内容的页码。索引可以用于提高数据库的查询性能；但是索引需要占用额外的磁盘空间，修改数据时也需要进行索引的维护。了解并适当利用索引对于数据库的优化至关重要，本篇我们介绍MySQL索引的管理。关于B-树索引的原理以及利用索引优化SQL语句的详细
Redis中的数据类型与适用场景 cooldream2009 数据库 redis 数据库缓存
目录前言1.字符串(String)1.1特点1.2适用场景2.哈希(Hash)2.1特点2.2适用场景3.列表(List)3.1特点3.2适用场景4.集合(Set)4.1特点4.2适用场景5.有序集合(SortedSet)5.1特点5.2适用场景6.Redis数据类型的选型建议结语前言Redis作为一款高性能的内存数据库，以其卓越的速度和丰富的数据类型广泛应用于各类高并发场景。相较于传统的关系型数
编写简单的小程序又熟了 Python入门学习 python flask
编写简单的小程序文章目录编写简单的小程序1.turtle的认识与使用1.1turtle常用的函数1.2用turtle画小蛇1.3begin_fill和end_fill绘制太阳花2.变量2.1变量的创建2.2命名规则2.3保留字及查看方法3.运算符3.1算数运算符3.2关系运算符3.3逻辑运算符4.注释与缩进5.赋值语句6.输出与输入7.数据类型7.1字符串的索引7.2列表8.字符编码8.2乱码问题
一文读懂Python列表（5）跟着杰哥学Python python
列表让你能够在一个地方存储成组的信息，其中可以只包含几个元素，也可以包含数百万个元素，列表是新手可直接使用的最强大的Python功能之一。一、列表是什么1.列表由按顺序排列的元素组成，用[]表示列表，用逗号分隔元素2.举例：bicycles=['trek','cannondale','redline','specialized']二、列表的索引1.第一个列表元素的索引为0，而不是12.举例：三、访
[前端面试场景题]虚拟列表 GISer_Jinger 前端面试
嗯，用户问的是“前端虚拟列表详解”，我需要详细回答这个问题。首先，我得先理解虚拟列表的概念和用途。根据搜索结果，虚拟列表主要用于优化长列表的渲染性能，特别是在处理大量数据时。用户可能想知道它的核心原理、实现方法以及实际应用场景。看网页1提到虚拟列表的定义和关键点，只渲染视口内的数据项，减少DOM节点。网页2和网页4都给出了具体的Vue和原生JS实现案例，比如动态计算起始和结束索引，使用transf
Java面试宝典，kafka优先级队列 m0_57081324 程序员 java 经验分享面试
为什么要分库分表？首先回答一下为什么要分库分表，答案很简单：数据库出现性能瓶颈。用大白话来说就是数据库快扛不住了。数据库出现性能瓶颈，对外表现有几个方面：大量请求阻塞在高并发场景下，大量请求都需要操作数据库，导致连接数不够了，请求处于阻塞状态。SQL操作变慢如果数据库中存在一张上亿数据量的表，一条SQL没有命中索引会全表扫描，这个查询耗时会非常久。存储出现问题业务量剧增，单库数据量越来越大，给存储
springboot 项目如何提高并发量 LCY133 spring后端 spring boot java 后端
提升基于SpringBoot的Web项目并发量需要从应用优化、数据库调优、缓存策略、异步处理、水平扩展等多方面综合改进。以下是具体方案和实践建议：一、应用层优化1.代码性能优化•避免阻塞操作：减少同步锁、长事务、大文件处理等耗时操作。•优化SQL查询：避免N+1查询，使用索引，减少全表扫描。•复用对象：避免频繁创建大对象（如JSON解析工具），使用线程安全对象池。2.线程池配置•调整Web服务器线
kotlin中的list set map整理 LCY133 kotlin list 开发语言
在Kotlin中，List、Set和Map是三种核心集合类型，它们分别适用于不同的场景，具有独特的特性和操作方式。以下是它们的详细对比与使用指南：1.List（列表）核心特性•有序：元素按插入顺序存储。•可重复：允许存在相同值的元素。•索引访问：通过下标（get(index)或[index]）快速访问元素。分类•不可变列表：List，创建后不可修改。valimmutableList=listOf(
HQL之投影查询归来朝歌 HQL Hibernate 查询语句投影查询
在HQL查询中，常常面临这样一个场景，对于多表查询，是要将一个表的对象查出来还是要只需要每个表中的几个字段，最后放在一起显示？针对上面的场景，如果需要将一个对象查出来： HQL语句写“from 对象”即可 Session session = HibernateUtil.openSession();
Spring整合redis bylijinnan redis
pom.xml <dependencies>  <dependency> <groupId>org.springframework.data</groupId> <artifactId>spring-data-redi
org.hibernate.NonUniqueResultException: query did not return a unique result: 2 0624chenhong Hibernate
参考：http://blog.csdn.net/qingfeilee/article/details/7052736 org.hibernate.NonUniqueResultException: query did not return a unique result: 2 在项目中出现了org.hiber
android动画效果不懂事的小屁孩 android动画
前几天弄alertdialog和popupwindow的时候，用到了android的动画效果，今天专门研究了一下关于android的动画效果，列出来，方便以后使用。 Android 平台提供了两类动画。一类是Tween动画，就是对场景里的对象不断的进行图像变化来产生动画效果（旋转、平移、放缩和渐变）。第二类就是 Frame动画，即顺序的播放事先做好的图像，与gif图片原理类似。
js delete 删除机理以及它的内存泄露问题的解决方案换个号韩国红果果 JavaScript
delete删除属性时只是解除了属性与对象的绑定，故当属性值为一个对象时，删除时会造成内存泄露（其实还未删除）举例： var person={name:{firstname:'bob'}} var p=person.name delete person.name p.firstname -->'bob' // 依然可以访问p.firstname，存在内存泄露
Oracle将零干预分析加入网络即服务计划蓝儿唯美 oracle
由Oracle通信技术部门主导的演示项目并没有在本月较早前法国南斯举行的行业集团TM论坛大会中获得嘉奖。但是，Oracle通信官员解雇致力于打造一个支持零干预分配和编制功能的网络即服务（NaaS）平台，帮助企业以更灵活和更适合云的方式实现通信服务提供商（CSP）的连接产品。这个Oracle主导的项目属于TM Forum Live!活动上展示的Catalyst计划的19个项目之一。Catalyst计
spring学习——springmvc（二） a-john springMVC
Spring MVC提供了非常方便的文件上传功能。 1，配置Spring支持文件上传： DispatcherServlet本身并不知道如何处理multipart的表单数据，需要一个multipart解析器把POST请求的multipart数据中抽取出来，这样DispatcherServlet就能将其传递给我们的控制器了。为了在Spring中注册multipart解析器，需要声明一个实现了Mul
POJ-2828-Buy Tickets aijuans ACM_POJ
POJ-2828-Buy Tickets http://poj.org/problem?id=2828 线段树，逆序插入 #include<iostream>#include<cstdio>#include<cstring>#include<cstdlib>using namespace std;#define N 200010struct
Java Ant build.xml详解 asia007 build.xml
1,什么是antant是构建工具2,什么是构建概念到处可查到，形象来说，你要把代码从某个地方拿来，编译，再拷贝到某个地方去等等操作，当然不仅与此，但是主要用来干这个3,ant的好处跨平台 --因为ant是使用java实现的，所以它跨平台使用简单--与ant的兄弟make比起来语法清晰--同样是和make相比功能强大--ant能做的事情很多，可能你用了很久，你仍然不知道它能有
android按钮监听器的四种技术百合不是茶 android xml配置监听器实现接口
android开发中经常会用到各种各样的监听器,android监听器的写法与java又有不同的地方; 1,activity中使用内部类实现接口 ,创建内部类实例使用add方法与java类似创建监听器的实例 myLis lis = new myLis(); 使用add方法给按钮添加监听器
软件架构师不等同于资深程序员 bijian1013 程序员架构师架构设计
本文的作者Armel Nene是ETAPIX Global公司的首席架构师，他居住在伦敦，他参与过的开源项目包括 Apache Lucene,，Apache Nutch， Liferay 和 Pentaho等。如今很多的公司
TeamForge Wiki Syntax & CollabNet User Information Center sunjing TeamForge How do Attachement Anchor Wiki Syntax
the CollabNet user information center http://help.collab.net/ How do I create a new Wiki page? A CollabNet TeamForge project can have any number of Wiki pages. All Wiki pages are linked, and
【Redis四】Redis数据类型 bit1129 redis
概述 Redis是一个高性能的数据结构服务器，称之为数据结构服务器的原因是，它提供了丰富的数据类型以满足不同的应用场景，本文对Redis的数据类型以及对这些类型可能的操作进行总结。 Redis常用的数据类型包括string、set、list、hash以及sorted set.Redis本身是K/V系统，这里的数据类型指的是value的类型，而不是key的类型，key的类型只有一种即string
SSH2整合-附源码白糖_ eclipse spring tomcat Hibernate Google
今天用eclipse终于整合出了struts2+hibernate+spring框架。我创建的是tomcat项目，需要有tomcat插件。导入项目以后，鼠标右键选择属性，然后再找到“tomcat”项，勾选一下“Is a tomcat project”即可。具体方法见源码里的jsp图片，sql也在源码里。补充1：项目中部分jar包不是最新版的，可能导
[转]开源项目代码的学习方法 braveCS 学习方法
转自： http://blog.sina.com.cn/s/blog_693458530100lk5m.html http://www.cnblogs.com/west-link/archive/2011/06/07/2074466.html 1）阅读features。以此来搞清楚该项目有哪些特性2）思考。想想如果自己来做有这些features的项目该如何构架3）下载并安装d
编程之美-子数组的最大和（二维） bylijinnan 编程之美
package beautyOfCoding; import java.util.Arrays; import java.util.Random; public class MaxSubArraySum2 { /** * 编程之美子数组之和的最大值（二维） */ private static final int ROW = 5; private stat
读书笔记-3 chengxuyuancsdn jquery笔记 resultMap配置 ibatis一对多配置
1、resultMap配置 2、ibatis一对多配置 3、jquery笔记 1、resultMap配置当<select resultMap="topic_data"> <resultMap id="topic_data">必须一一对应。 (1)<resultMap class="tblTopic&q
[物理与天文]物理学新进展 comsci
如果我们必须获得某种地球上没有的矿石,才能够进行某些能量输出装置的设计和建造,而要获得这种矿石,又必须首先进行深空探测,而要进行深空探测,又必须获得这种能量输出装置,这个矛盾的循环,会导致地球联盟在与宇宙文明建立关系的时候,陷入困境怎么办呢?
Oracle 11g新特性:Automatic Diagnostic Repository daizj oracle ADR
Oracle Database 11g的FDI（Fault Diagnosability Infrastructure）是自动化诊断方面的又一增强。 FDI的一个关键组件是自动诊断库（Automatic Diagnostic Repository-ADR）。在oracle 11g中，alert文件的信息是以xml的文件格式存在的，另外提供了普通文本格式的alert文件。这两份log文
简单排序:选择排序 dieslrae 选择排序
public void selectSort(int[] array){ int select; for(int i=0;i<array.length;i++){ select = i; for(int k=i+1;k<array.leng
C语言学习六指针的经典程序，互换两个数字 dcj3sjt126com c
示例程序，swap_1和swap_2都是错误的，推理从1开始推到2，2没完成，推到3就完成了 # include <stdio.h> void swap_1(int, int); void swap_2(int *, int *); void swap_3(int *, int *); int main(void) { int a = 3; int b =
php 5.4中php-fpm 的重启、终止操作命令 dcj3sjt126com PHP
php 5.4中php-fpm 的重启、终止操作命令: 查看php运行目录命令：which php/usr/bin/php 查看php-fpm进程数：ps aux | grep -c php-fpm 查看运行内存/usr/bin/php -i|grep mem 重启php-fpm/etc/init.d/php-fpm restart 在phpinfo()输出内容可以看到php
线程同步工具类 shuizhaosi888 同步工具类
同步工具类包括信号量（Semaphore）、栅栏（barrier）、闭锁（CountDownLatch）闭锁（CountDownLatch） public class RunMain { public long timeTasks(int nThreads, final Runnable task) throws InterruptedException { fin
bleeding edge是什么意思 haojinghua DI
不止一次，看到很多讲技术的文章里面出现过这个词语。今天终于弄懂了——通过朋友给的浏览软件，上了wiki。我再一次感到，没有辞典能像WiKi一样，给出这样体贴人心、一清二楚的解释了。为了表达我对WiKi的喜爱，只好在此一一中英对照，给大家上次课。 In computer science, bleeding edge is a term that
c中实现utf8和gbk的互转 jimmee c iconv utf8&gbk编码
#include <iconv.h> #include <stdlib.h> #include <stdio.h> #include <unistd.h> #include <fcntl.h> #include <string.h> #include <sys/stat.h> int code_c
大型分布式网站架构设计与实践 lilin530 应用服务器搜索引擎
1.大型网站软件系统的特点？ a.高并发，大流量。 b.高可用。 c.海量数据。 d.用户分布广泛，网络情况复杂。 e.安全环境恶劣。 f.需求快速变更，发布频繁。 g.渐进式发展。 2.大型网站架构演化发展历程？ a.初始阶段的网站架构。应用程序，数据库，文件等所有的资源都在一台服务器上。 b.应用服务器和数据服务器分离。 c.使用缓存改善网站性能。 d.使用应用
在代码中获取Android theme中的attr属性值 OliveExcel android theme
Android的Theme是由各种attr组合而成, 每个attr对应了这个属性的一个引用, 这个引用又可以是各种东西. 在某些情况下, 我们需要获取非自定义的主题下某个属性的内容 (比如拿到系统默认的配色colorAccent), 操作方式举例一则: int defaultColor = 0xFF000000; int[] attrsArray = { andorid.r.
基于Zookeeper的分布式共享锁 roadrunners zookeeper 分布式共享锁
首先，说说我们的场景，订单服务是做成集群的，当两个以上结点同时收到一个相同订单的创建指令，这时并发就产生了，系统就会重复创建订单。等等......场景。这时，分布式共享锁就闪亮登场了。共享锁在同一个进程中是很容易实现的，但在跨进程或者在不同Server之间就不好实现了。Zookeeper就很容易实现。具体的实现原理官网和其它网站也有翻译，这里就不在赘述了。官
两个容易被忽略的MySQL知识 tomcat_oracle mysql
1、varchar(5)可以存储多少个汉字，多少个字母数字？　　相信有好多人应该跟我一样，对这个已经很熟悉了，根据经验我们能很快的做出决定，比如说用varchar(200)去存储url等等，但是，即使你用了很多次也很熟悉了，也有可能对上面的问题做出错误的回答。　　这个问题我查了好多资料，有的人说是可以存储5个字符，2.5个汉字（每个汉字占用两个字节的话），有的人说这个要区分版本，5.0
zoj 3827 Information Entropy(水题) 阿尔萨斯 format
题目链接：zoj 3827 Information Entropy 题目大意：三种底，计算和。解题思路：调用库函数就可以直接算了，不过要注意Pi = 0的时候，不过它题目里居然也讲了。。。limp→0+plogb(p)=0，因为p是logp的高阶。 #include <cstdio> #include <cstring> #include <cmath&