scratlc

MongoDB&MySQL索引背后的数据结构及算法原理

摘要

本文以MySQL和MongoDB数据库为研究对象，讨论与数据库索引相关的一些话题。特别需要说明的是，MySQL支持诸多存储引擎，而各种存储引擎对索引的支持也各不相同，因此此类数据库支持多种索引类型，如BTree索引，哈希索引，全文索引等等。为了避免混乱，本文将只关注于BTree索引，因为这是平常使用MySQL时主要打交道的索引，至于哈希索引和全文索引本文暂不讨论。

文章主要内容分为五个部分：

第一部分主要从数据结构及算法理论层面讨论数据库索引的数理基础。

第二部分主要介绍MongoDB数据库中索引的实现。

第三部分简要讨论MongoDB数据库的索引调优。

第四部分结合MySQL数据库中MyISAM和InnoDB数据存储引擎中索引的架构实现讨论聚集索引、非聚集索引及覆盖索引等话题。

第五部分根据上面的理论基础，讨论MySQL中高性能使用索引的策略。

一、数据结构及算法基础

1.1 索引的本质

索引（Index）是帮助MySQL高效获取数据的数据结构。提取句子主干，就可以得到索引的本质：索引是数据结构。

我们知道，数据库查询是数据库的最主要功能之一。我们都希望查询数据的速度能尽可能的快，因此数据库系统的设计者会从查询算法的角度进行优化。最基本的查询算法当然是顺序查找（linear search），这种复杂度为O(n)的算法在数据量很大时显然是糟糕的，好在计算机科学的发展提供了很多更优秀的查找算法，例如二分查找（binary search）、二叉树查找（binary tree search）等。如果稍微分析一下会发现，每种查找算法都只能应用于特定的数据结构之上，例如二分查找要求被检索数据有序，而二叉树查找只能应用于二叉查找树上，但是数据本身的组织结构不可能完全满足各种数据结构（例如，理论上不可能同时将两列都按顺序进行组织），所以，在数据之外，数据库系统还维护着满足特定查找算法的数据结构，这些数据结构以某种方式引用（指向）数据，这样就可以在这些数据结构上实现高级查找算法。这种数据结构，就是索引。

看一个例子：

图1

图1展示了一种可能的索引方式。左边是数据表，一共有两列七条记录，最左边的是数据记录的物理地址（注意逻辑上相邻的记录在磁盘上也并不是一定物理相邻的）。为了加快Col2的查找，可以维护一个右边所示的二叉查找树，每个节点分别包含索引键值和一个指向对应数据记录物理地址的指针，这样就可以运用二叉查找在O(log2n)的复杂度内获取到相应数据。

虽然这是一个货真价实的索引，但是实际的数据库系统几乎没有使用二叉查找树或其进化品种红黑树（red-black tree）实现的，原因会在下文介绍。

1.2 B-Tree和B+Tree

目前大部分数据库系统及文件系统都采用B-Tree或其变种B+Tree作为索引结构，在本文的下一节会结合存储器原理及计算机存取原理讨论为什么B-Tree和B+Tree在被如此广泛用于索引，这一节先单纯从数据结构角度描述它们。关于Btree索引另外可参考：https://blog.csdn.net/scratlc/article/details/80974684

1.2.1 B-Tree

为了描述B-Tree，首先定义一条数据记录为一个二元组[key, data]，key为记录的键值，对于不同数据记录，key是互不相同的；data为数据记录除key外的数据。那么B-Tree是满足下列条件的数据结构：

1. d为大于1的一个正整数，称为B-Tree的度。

2. h为一个正整数，称为B-Tree的高度。

3. 每个非叶子节点由n-1个key和n个指针组成，其中d<=n<=2d。

4. 每个叶子节点最少包含一个key和两个指针，最多包含2d-1个key和2d个指针，叶节点的指针均为null 。

5. 所有叶节点具有相同的深度，等于树高h。

6. key和指针互相间隔，节点两端是指针。

7. 一个节点中的key从左到右非递减排列。

8. 所有节点组成树结构。

9. 每个指针要么为null，要么指向另外一个节点。

10. 如果某个指针在节点node最左边且不为null，则其指向节点的所有key小于v(key1)，其中v(key1)为node的第一个key的值。

11. 如果某个指针在节点node最右边且不为null，则其指向节点的所有key大于v(keym)，其中v(keym)为node的最后一个key的值。

12. 如果某个指针在节点node的左右相邻key分别是keyi和keyi+1且不为null，则其指向节点的所有key小于v(keyi+1)且大于v(keyi)。

图2是一个d=2的B-Tree示意图。

图2

由于B-Tree的特性，在B-Tree中按key检索数据的算法非常直观：首先从根节点进行二分查找，如果找到则返回对应节点的data，否则对相应区间的指针指向的节点递归进行查找，直到找到节点或找到null指针，前者查找成功，后者查找失败。B-Tree上查找算法的伪代码如下：

C
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
           14 
         
          BTree_Search 
          ( 
          node 
          , 
            
          key 
          ) 
         
          { 
         
          if 
          ( 
          node 
            
          == 
            
          null 
          ) 
            
          return 
            
          null 
          ; 
         
          foreach 
          ( 
          node 
          . 
          key 
          ) 
         
          { 
         
          if 
          ( 
          node 
          . 
          key 
          [ 
          i 
          ] 
            
          == 
            
          key 
          ) 
            
          return 
            
          node 
          . 
          data 
          [ 
          i 
          ] 
          ; 
         
          if 
          ( 
          node 
          . 
          key 
          [ 
          i 
          ] 
            
          > 
            
          key 
          ) 
            
          return 
            
          BTree_Search 
          ( 
          point 
          [ 
          i 
          ] 
          -> 
          node 
          ) 
          ; 
         
          } 
         
          return 
            
          BTree_Search 
          ( 
          point 
          [ 
          i 
          + 
          1 
          ] 
          -> 
          node 
          ) 
          ; 
         
          } 
         
          data 
            
          = 
            
          BTree_Search 
          ( 
          root 
          , 
            
          my_key 
          ) 
          ;

关于B-Tree有一系列有趣的性质，例如一个度为d的B-Tree，设其索引N个key，则其树高h的上限为logd((N+1)/2)，检索一个key，其查找节点个数的渐进复杂度为O(logdN)。从这点可以看出，B-Tree是一个非常有效率的索引数据结构。

另外，由于插入删除新的数据记录会破坏B-Tree的性质，因此在插入删除时，需要对树进行一个分裂、合并、转移等操作以保持B-Tree性质，本文不打算完整讨论B-Tree这些内容，因为已经有许多资料详细说明了B-Tree的数学性质及插入删除算法，有兴趣的朋友可以在本文末的参考文献一栏找到相应的资料进行阅读。

1.2.2 B+Tree

B-Tree有许多变种，其中最常见的是B+Tree，例如MySQL就普遍使用B+Tree实现其索引结构。

与B-Tree相比，B+Tree有以下不同点：

1. 每个节点的指针上限为2d而不是2d+1。

2. 内节点不存储data，只存储key；叶子节点不存储指针。

图3是一个简单的B+Tree示意。

图3

由于并不是所有节点都具有相同的域，因此B+Tree中叶节点和内节点一般大小不同。这点与B-Tree不同，虽然B-Tree中不同节点存放的key和指针可能数量不一致，但是每个节点的域和上限是一致的，所以在实现中B-Tree往往对每个节点申请同等大小的空间。

一般来说，B+Tree比B-Tree更适合实现外存储索引结构，具体原因与外存储器原理及计算机存取原理有关，将在下面讨论。

带有顺序访问指针的B+Tree

一般在数据库系统或文件系统中使用的B+Tree结构都在经典B+Tree的基础上进行了优化，增加了顺序访问指针。

图4

如图4所示，在B+Tree的每个叶子节点增加一个指向相邻叶子节点的指针，就形成了带有顺序访问指针的B+Tree。做这个优化的目的是为了提高区间访问的性能，例如图4中如果要查询key为从18到49的所有数据记录，当找到18后，只需顺着节点和指针顺序遍历就可以一次性访问到所有数据节点，极大提到了区间查询效率。

这一节对B-Tree和B+Tree进行了一个简单的介绍，下一节结合存储器存取原理介绍为什么目前B+Tree是数据库系统实现索引的首选数据结构。

1.3 为什么使用B-Tree（B+Tree）

上文说过，红黑树等数据结构也可以用来实现索引，但是文件系统及数据库系统普遍采用B-/+Tree作为索引结构，这一节将结合计算机组成原理相关知识讨论B-/+Tree作为索引的理论基础。

一般来说，索引本身也很大，不可能全部存储在内存中，因此索引往往以索引文件的形式存储的磁盘上。这样的话，索引查找过程中就要产生磁盘I/O消耗，相对于内存存取，I/O存取的消耗要高几个数量级，所以评价一个数据结构作为索引的优劣最重要的指标就是在查找过程中磁盘I/O操作次数的渐进复杂度。换句话说，索引的结构组织要尽量减少查找过程中磁盘I/O的存取次数。下面先介绍内存和磁盘存取原理，然后再结合这些原理分析B-/+Tree作为索引的效率。

1.3.1 主存存取原理

目前计算机使用的主存基本都是随机读写存储器（RAM），现代RAM的结构和存取原理比较复杂，这里本文抛却具体差别，抽象出一个十分简单的存取模型来说明RAM的工作原理。

图5

从抽象角度看，主存是一系列的存储单元组成的矩阵，每个存储单元存储固定大小的数据。每个存储单元有唯一的地址，现代主存的编址规则比较复杂，这里将其简化成一个二维地址：通过一个行地址和一个列地址可以唯一定位到一个存储单元。图5展示了一个4 x 4的主存模型。

主存的存取过程如下：

当系统需要读取主存时，则将地址信号放到地址总线上传给主存，主存读到地址信号后，解析信号并定位到指定存储单元，然后将此存储单元数据放到数据总线上，供其它部件读取。

写主存的过程类似，系统将要写入单元地址和数据分别放在地址总线和数据总线上，主存读取两个总线的内容，做相应的写操作。

这里可以看出，主存存取的时间仅与存取次数呈线性关系，因为不存在机械操作，两次存取的数据的“距离”不会对时间有任何影响，例如，先取A0再取A1和先取A0再取D3的时间消耗是一样的。

1.3.2 磁盘存取原理

上文说过，索引一般以文件形式存储在磁盘上，索引检索需要磁盘I/O操作。与主存不同，磁盘I/O存在机械运动耗费，因此磁盘I/O的时间消耗是巨大的。

图6是磁盘的整体结构示意图。

图6

一个磁盘由大小相同且同轴的圆形盘片组成，磁盘可以转动（各个磁盘必须同步转动）。在磁盘的一侧有磁头支架，磁头支架固定了一组磁头，每个磁头负责存取一个磁盘的内容。磁头不能转动，但是可以沿磁盘半径方向运动（实际是斜切向运动），每个磁头同一时刻也必须是同轴的，即从正上方向下看，所有磁头任何时候都是重叠的（不过目前已经有多磁头独立技术，可不受此限制）。

图7是磁盘结构的示意图。

图7

盘片被划分成一系列同心环，圆心是盘片中心，每个同心环叫做一个磁道，所有半径相同的磁道组成一个柱面。磁道被沿半径线划分成一个个小的段，每个段叫做一个扇区，每个扇区是磁盘的最小存储单元。为了简单起见，我们下面假设磁盘只有一个盘片和一个磁头。

当需要从磁盘读取数据时，系统会将数据逻辑地址传给磁盘，磁盘的控制电路按照寻址逻辑将逻辑地址翻译成物理地址，即确定要读的数据在哪个磁道，哪个扇区。为了读取这个扇区的数据，需要将磁头放到这个扇区上方，为了实现这一点，磁头需要移动对准相应磁道，这个过程叫做寻道，所耗费时间叫做寻道时间，然后磁盘旋转将目标扇区旋转到磁头下，这个过程耗费的时间叫做旋转时间。

1.3.3 局部性原理与磁盘预读

由于存储介质的特性，磁盘本身存取就比主存慢很多，再加上机械运动耗费，磁盘的存取速度往往是主存的几百分分之一，因此为了提高效率，要尽量减少磁盘I/O。为了达到这个目的，磁盘往往不是严格按需读取，而是每次都会预读，即使只需要一个字节，磁盘也会从这个位置开始，顺序向后读取一定长度的数据放入内存。这样做的理论依据是计算机科学中著名的局部性原理：

当一个数据被用到时，其附近的数据也通常会马上被使用。

程序运行期间所需要的数据通常比较集中。

由于磁盘顺序读取的效率很高（不需要寻道时间，只需很少的旋转时间），因此对于具有局部性的程序来说，预读可以提高I/O效率。

预读的长度一般为页（page）的整倍数。页是计算机管理存储器的逻辑块，硬件及操作系统往往将主存和磁盘存储区分割为连续的大小相等的块，每个存储块称为一页（在许多操作系统中，页得大小通常为4k），主存和磁盘以页为单位交换数据。当程序要读取的数据不在主存中时，会触发一个缺页异常，此时系统会向磁盘发出读盘信号，磁盘会找到数据的起始位置并向后连续读取一页或几页载入内存中，然后异常返回，程序继续运行。

1.4 B-/+Tree索引的性能分析

到这里终于可以分析B-/+Tree索引的性能了。

上文说过一般使用磁盘I/O次数评价索引结构的优劣。先从B-Tree分析，根据B-Tree的定义，可知检索一次最多需要访问h个节点。数据库系统的设计者巧妙利用了磁盘预读原理，将一个节点的大小设为等于一个页，这样每个节点只需要一次I/O就可以完全载入。为了达到这个目的，在实际实现B-Tree还需要使用如下技巧：

每次新建节点时，直接申请一个页的空间，这样就保证一个节点物理上也存储在一个页里，加之计算机存储分配都是按页对齐的，就实现了一个node只需一次I/O。

B-Tree中一次检索最多需要h-1次I/O（根节点常驻内存），渐进复杂度为O(h)=O(logdN)。一般实际应用中，出度d是非常大的数字，通常超过100，因此h非常小（通常不超过3）。

综上所述，用B-Tree作为索引结构效率是非常高的。

而红黑树这种结构，h明显要深的多。由于逻辑上很近的节点（父子）物理上可能很远，无法利用局部性，所以红黑树的I/O渐进复杂度也为O(h)，效率明显比B-Tree差很多。

上文还说过，B+Tree更适合外存索引，原因和内节点出度d有关。从上面分析可以看到，d越大索引的性能越好，而出度的上限取决于节点内key和data的大小：

dmax = floor(pagesize / (keysize + datasize + pointsize)) (pagesize – dmax >= pointsize)

或

dmax = floor(pagesize / (keysize + datasize + pointsize)) – 1 (pagesize – dmax < pointsize)

floor表示向下取整。由于B+Tree内节点去掉了data域，因此可以拥有更大的出度，拥有更好的性能。

二、mongo中的索引

2.1 为什么需要索引？

当你抱怨MongoDB集合查询效率低的时候，可能你就需要考虑使用索引了，为了方便后续介绍，先科普下MongoDB里的索引机制（同样适用于其他的数据库比如mysql）。

mongo-9552:PRIMARY>; db.person.find()
{ "_id" : ObjectId( "571b5da31b0d530a03b3ce82"), "name" : "jack", "age" : 19 }
{ "_id" : ObjectId( "571b5dae1b0d530a03b3ce83"), "name" : "rose", "age" : 20 }
{ "_id" : ObjectId( "571b5db81b0d530a03b3ce84"), "name" : "jack", "age" : 18 }
{ "_id" : ObjectId( "571b5dc21b0d530a03b3ce85"), "name" : "tony", "age" : 21 }
{ "_id" : ObjectId( "571b5dc21b0d530a03b3ce86"), "name" : "adam", "age" : 18 }

当你往某各个集合插入多个文档后，每个文档在经过底层的存储引擎持久化后，会有一个位置信息，通过这个位置信息，就能从存储引擎里读出该文档。比如mmapv1引擎里，位置信息是『文件id + 文件内offset 』，在wiredtiger存储引擎（一个KV存储引擎）里，位置信息是wiredtiger在存储文档时生成的一个key，通过这个key能访问到对应的文档；为方便介绍，统一用pos(position的缩写)来代表位置信息。

比如上面的例子里，person集合里包含插入了4个文档，假设其存储后位置信息如下(为方便描述，文档省去_id字段)

位置信息	文档
pos1	{“name” : “jack”, “age” : 19 }
pos2	{“name” : “rose”, “age” : 20 }
pos3	{“name” : “jack”, “age” : 18 }
pos4	{“name” : “tony”, “age” : 21}
pos5	{“name” : “adam”, “age” : 18}

假设现在有个查询 db.person.find( {age: 18} ), 查询所有年龄为18岁的人，这时需要遍历所有的文档（『全表扫描』），根据位置信息读出文档，对比age字段是否为18。当然如果只有4个文档，全表扫描的开销并不大，但如果集合文档数量到百万、甚至千万上亿的时候，对集合进行全表扫描开销是非常大的，一个查询耗费数十秒甚至几分钟都有可能。

如果想加速 db.person.find( {age: 18} ），就可以考虑对person表的age字段建立索引。

db.person.createIndex( {age: 1} ) // 按age字段创建升序索引

建立索引后，MongoDB会额外存储一份按age字段升序排序的索引数据，索引结构类似如下，索引通常采用类似btree的结构持久化存储，以保证从索引里快速（O(logN)的时间复杂度）找出某个age值对应的位置信息，然后根据位置信息就能读取出对应的文档。

AGE	位置信息
18	pos3
18	pos5
19	pos1
20	pos2
21	pos4

简单的说，索引就是将文档按照某个（或某些）字段顺序组织起来，以便能根据该字段高效的查询。有了索引，至少能优化如下场景的效率：

查询，比如查询年龄为18的所有人
更新/删除，将年龄为18的所有人的信息更新或删除，因为更新或删除时，需要根据条件先查询出所有符合条件的文档，所以本质上还是在优化查询
排序，将所有人的信息按年龄排序，如果没有索引，需要全表扫描文档，然后再对扫描的结果进行排序

众所周知，MongoDB默认会为插入的文档生成_id字段（如果应用本身没有指定该字段），_id是文档唯一的标识，为了保证能根据文档id快递查询文档，MongoDB默认会为集合创建_id字段的索引。

mongo-9552:PRIMARY> db.person.getIndexes() // 查询集合的索引信息
[
{
"ns" : "test.person", // 集合名
"v" : 1, // 索引版本
"key" : { // 索引的字段及排序方向
"_id" : 1 // 根据_id字段升序索引
},
"name" : "_id_" // 索引的名称
}
]

2.2 MongoDB索引类型

MongoDB支持多种类型的索引，包括单字段索引、复合索引、多key索引、文本索引等，每种类型的索引有不同的使用场合。

2.2.1单字段索引（Single Field Index）

db.person.createIndex( {age: 1} )

上述语句针对age创建了单字段索引，其能加速对age字段的各种查询请求，是最常见的索引形式，MongoDB默认创建的id索引也是这种类型。

{age: 1} 代表升序索引，也可以通过{age: -1}来指定降序索引，对于单字段索引，升序/降序效果是一样的。

2.2.2 复合索引 (Compound Index)

复合索引是Single Field Index的升级版本，它针对多个字段联合创建索引，先按第一个字段排序，第一个字段相同的文档按第二个字段排序，依次类推，如下针对age, name这2个字段创建一个复合索引。

db.person.createIndex( {age: 1, name: 1} )

上述索引对应的数据组织类似下表，与{age: 1}索引不同的时，当age字段相同时，在根据name字段进行排序，所以pos5对应的文档排在pos3之前。

AGE,NAME	位置信息
18,adam	pos5
18,jack	pos3
19,jack	pos1
20,rose	pos2
21,tony	pos4

复合索引能满足的查询场景比单字段索引更丰富，不光能满足多个字段组合起来的查询，比如db.person.find( {age： 18， name: "jack"} )，也能满足所以能匹配符合索引前缀的查询，这里{age: 1}即为{age: 1, name: 1}的前缀，所以类似db.person.find( {age： 18} )的查询也能通过该索引来加速；但db.person.find( {name: "jack"} )则无法使用该复合索引。如果经常需要根据『name字段』以及『name和age字段组合』来查询，则应该创建如下的复合索引

db.person.createIndex( {name: 1, age: 1} )

除了查询的需求能够影响索引的顺序，字段的值分布也是一个重要的考量因素，即使person集合所有的查询都是『name和age字段组合』（指定特定的name和age），字段的顺序也是有影响的。

age字段的取值很有限，即拥有相同age字段的文档会有很多；而name字段的取值则丰富很多，拥有相同name字段的文档很少；显然先按name字段查找，再在相同name的文档里查找age字段更为高效。

2.2.3 多key索引（Multikey Index）

当索引的字段为数组时，创建出的索引称为多key索引，多key索引会为数组的每个元素建立一条索引，比如person表加入一个habbit字段（数组）用于描述兴趣爱好，需要查询有相同兴趣爱好的人就可以利用habbit字段的多key索引。

{"name" : "jack", "age" : 19, habbit: ["football, runnning"]}
db.person.createIndex( {habbit: 1} ) // 自动创建多key索引
db.person. find( {habbit: "football"} )

2.2.4 其他类型索引

哈希索引（Hashed Index）是指按照某个字段的hash值来建立索引，目前主要用于MongoDB Sharded Cluster的Hash分片，hash索引只能满足字段完全匹配的查询，不能满足范围查询等。

地理位置索引（Geospatial Index）能很好的解决O2O的应用场景，比如『查找附近的美食』、『查找某个区域内的车站』等。

文本索引（Text Index）能解决快速文本查找的需求，比如有一个博客文章集合，需要根据博客的内容来快速查找，则可以针对博客内容建立文本索引。

2.3 索引额外属性

MongoDB除了支持多种不同类型的索引，还能对索引定制一些特殊的属性。

唯一索引 (unique index)：保证索引对应的字段不会出现相同的值，比如_id索引就是唯一索引
TTL索引：可以针对某个时间字段，指定文档的过期时间（经过指定时间后过期或在某个时间点过期）
部分索引 (partial index): 只针对符合某个特定条件的文档建立索引，3.2版本才支持该特性
稀疏索引(sparse index): 只针对存在索引字段的文档建立索引，可看做是部分索引的一种特殊情况

三、MongoDB数据库索引优化

3.1 db profiling

MongoDB支持对DB的请求进行profiling，目前支持3种级别的profiling。

0：不开启profiling
1：将处理时间超过某个阈值(默认100ms)的请求都记录到DB下的system.profile集合（类似于mysql、redis的slowlog）
2：将所有的请求都记录到DB下的system.profile集合（生产环境慎用）

通常，生产环境建议使用1级别的profiling，并根据自身需求配置合理的阈值，用于监测慢请求的情况，并及时的做索引优化。

如果能在集合创建的时候就能『根据业务查询需求决定应该创建哪些索引』，当然是最佳的选择；但由于业务需求多变，要根据实际情况不断的进行优化。索引并不是越多越好，集合的索引太多，会影响写入、更新的性能，每次写入都需要更新所有索引的数据；所以你system.profile里的慢请求可能是索引建立的不够导致，也可能是索引过多导致。

3.2 查询计划

索引已经建立了，但查询还是很慢怎么破？这时就得深入的分析下索引的使用情况了，可通过查看下详细的查询计划来决定如何优化。通过执行计划可以看出如下问题

根据某个/些字段查询，但没有建立索引
根据某个/些字段查询，但建立了多个索引，执行查询时没有使用预期的索引。

建立索引前，db.person.find( {age： 18} )必须执行COLLSCAN，即全表扫描。

mongo-9552:PRIMARY>; db.person.find({age: 18}).explain()
{
"queryPlanner" : {
"plannerVersion" : 1,
"namespace" : "test.person",
"indexFilterSet" : false,
"parsedQuery" : {
"age" : {
"$eq" : 18
}
},
"winningPlan" : {
"stage" : "COLLSCAN",
"filter" : {
"age" : {
"$eq" : 18
}
},
"direction" : "forward"
},
"rejectedPlans" : [ ]
},
"serverInfo" : {
"host" : "localhost",
"port" : 9552,
"version" : "3.2.3",
"gitVersion" : "b326ba837cf6f49d65c2f85e1b70f6f31ece7937"
},
"ok" : 1
}

建立索引后，通过查询计划可以看出，先进行[IXSCAN]((https://docs.mongodb.org/manual/reference/explain-results/#queryplanner)(从索引中查找)，然后FETCH，读取出满足条件的文档。

mongo-9552:PRIMARY>; db.person.find({age: 18}).explain()
{
"queryPlanner" : {
"plannerVersion" : 1,
"namespace" : "test.person",
"indexFilterSet" : false,
"parsedQuery" : {
"age" : {
"$eq" : 18
}
},
"winningPlan" : {
"stage" : "FETCH",
"inputStage" : {
"stage" : "IXSCAN",
"keyPattern" : {
"age" : 1
},
"indexName" : "age_1",
"isMultiKey" : false,
"isUnique" : false,
"isSparse" : false,
"isPartial" : false,
"indexVersion" : 1,
"direction" : "forward",
"indexBounds" : {
"age" : [
"[18.0, 18.0]"
]
}
}
},
"rejectedPlans" : [ ]
},
"serverInfo" : {
"host" : "localhost",
"port" : 9552,
"version" : "3.2.3",
"gitVersion" : "b326ba837cf6f49d65c2f85e1b70f6f31ece7937"
},
"ok" : 1
}

3.3 注意事项

既然索引可以加快查询速度，那么是不是只要是查询语句需要，就建上索引？答案是否定的。因为索引虽然加快了查询速度，但索引也是有代价的：索引文件本身要消耗存储空间，同时索引会加重插入、删除和修改记录时的负担，另外，数据库在运行时也要消耗资源维护索引，因此索引并不是越多越好。一般两种情况下不建议建索引。

第一种情况是表记录比较少，例如一两千条甚至只有几百条记录的表，没必要建索引，让查询做全表扫描就好了。至于多少条记录才算多，这个个人有个人的看法，我个人的经验是以2000作为分界线，记录数不超过 2000可以考虑不建索引，超过2000条可以酌情考虑索引。

另一种不建议建索引的情况是索引的选择性较低。所谓索引的选择性（Selectivity），是指不重复的索引值（也叫基数，Cardinality）与表记录数（#T）的比值：

Index Selectivity = Cardinality / #T

常见慢查询：

1.不等于和不包含查询

2.通配符在前面的模糊查询， like '%xxx'

3.无索引的count 查询和排序（复合索引顺序不匹配）

4.多个范围查询（范围列可以用到索引（必须是最左前缀），但是范围列后面的列无法用到索引）

5.skip跳过过多的行数（优化方案：我们第一页可以用db.article.find().limit(articles_of_each_page),并记录最后一片文章的_id(或者其他排序值),之后查询db.article.find({_id:{$lt:_id_stored}}).limit(articles_of_each_page)来查找下一页或者类似的,上一页的文章,可以避免大量计数.）

3.4 正确建立索引

在没有建立索引的情况下，对Mongodb数据表进行查询操作的时候，需要把数据都加载到内存。当数据的数量达到几十万乃至上百万的时候，这样的加载过程会对系统造成较大的冲击，并影响到其他请求的处理过程。

索引是对数据库表中一列或多列的值进行排序的一种结构，建立索引以后，对索引字段进行查询时，仅会加载索引数据，并能提高查询速度。

3.4.1 建立合适的索引

为每一个查询建立合适的索引。

组合索引是创建的索引由多个字段组成，例如：

db.test.ensureIndex({"username":1, "age":-1}) #1是按升序排列，-1是按降序排列

交叉索引是每个字段单独建立索引，但是在查询的时候组合查找，例如：

db.test.ensureIndex({"username":1}) db.test.ensureIndex({"age":-1}) db.test.find({"username":"kaka", "age": 30})

交叉索引的查询效率较低，在使用时，当查询使用到多个字段的时候，尽量使用组合索引，而不是交叉索引。

3.4.2 组合索引的字段排列顺序

当我们的组合索引内容包含匹配条件以及范围条件的时候，比如包含用户名(匹配条件)以及年龄(范围条件)，那么匹配条件应该放在范围条件之前。

比如需要查询：

db.test.find({"username":"kaka", "age": {$gt: 10}})

那么组合索引应该这样创建：

db.test.ensureIndex({"username":1, "age":-1})

3.4.3 查询时尽可能仅查询出索引字段

有时候仅需要查询少部分的字段内容，而且这部分内容刚好都建立了索引，那么尽可能只查询出这些索引内容，需要用到的字段显式声明（_id字段需要显式忽略！）。因为这些数据需要把原始数据文档从磁盘读入内存，造成一定的损耗。

比如说我们的表有三个字段：

username, age, mobile

索引是这样建立的：

db.test.ensureIndex({"username":1,"age":-1})

我们仅需要查到某个用户的年龄(age)，那可以这样写：

db.test.find({"username":"kaka"}, {"_id":0, "age":1})

注意到上面的语句，我们除了”age”:1外，还加了”_id”:0，因为默认情况下，_id都是会被一并查询出来的，当不需要_id的时候记得直接忽略，避免不必要的磁盘操作。

3.4.4 对现有的数据大表建立索引的时候，采用后台运行方式

在对数据集合建立索引的过程中，数据库会停止该集合的所有读写操作，因此如果建立索引的数据量大，建立过程慢的情况下，建议采用后台运行的方式，避免影响正常业务流程。

db.test.ensureIndex({"username":1,"age":-1},{"background":true}) #默认情况下background是false。

四、MySQL索引实现

在MySQL中，索引属于存储引擎级别的概念，不同存储引擎对索引的实现方式是不同的，本文主要讨论MyISAM和InnoDB两个存储引擎的索引实现方式。

4.1 MyISAM索引实现

MyISAM引擎使用B+Tree作为索引结构，叶节点的data域存放的是数据记录的地址。下图是MyISAM索引的原理图：

图8

这里设表一共有三列，假设我们以Col1为主键，则图8是一个MyISAM表的主索引（Primary key）示意。可以看出MyISAM的索引文件仅仅保存数据记录的地址。在MyISAM中，主索引和辅助索引（Secondary key）在结构上没有任何区别，只是主索引要求key是唯一的，而辅助索引的key可以重复。如果我们在Col2上建立一个辅助索引，则此索引的结构如下图所示：

图9

同样也是一颗B+Tree，data域保存数据记录的地址。因此，MyISAM中索引检索的算法为首先按照B+Tree搜索算法搜索索引，如果指定的Key存在，则取出其data域的值，然后以data域的值为地址，读取相应数据记录。

MyISAM的索引方式也叫做“非聚集”的，之所以这么称呼是为了与InnoDB的聚集索引区分。

4.2 InnoDB索引实现

虽然InnoDB也使用B+Tree作为索引结构，但具体实现方式却与MyISAM截然不同。

第一个重大区别是InnoDB的数据文件本身就是索引文件。从上文知道，MyISAM索引文件和数据文件是分离的，索引文件仅保存数据记录的地址。而在InnoDB中，表数据文件本身就是按B+Tree组织的一个索引结构，这棵树的叶节点data域保存了完整的数据记录。这个索引的key是数据表的主键，因此InnoDB表数据文件本身就是主索引。

图10

图10是InnoDB主索引（同时也是数据文件）的示意图，可以看到叶节点包含了完整的数据记录。这种索引叫做聚集索引。因为InnoDB的数据文件本身要按主键聚集，所以InnoDB要求表必须有主键（MyISAM可以没有），如果没有显式指定，则MySQL系统会自动选择一个可以唯一标识数据记录的列作为主键，如果不存在这种列，则MySQL自动为InnoDB表生成一个隐含字段作为主键，这个字段长度为6个字节，类型为长整形。

第二个与MyISAM索引的不同是InnoDB的辅助索引data域存储相应记录主键的值而不是地址。换句话说，InnoDB的所有辅助索引都引用主键作为data域。例如，图11为定义在Col3上的一个辅助索引：

图11

这里以英文字符的ASCII码作为比较准则。聚集索引这种实现方式使得按主键的搜索十分高效，但是辅助索引搜索需要检索两遍索引：首先检索辅助索引获得主键，然后用主键到主索引中检索获得记录。

了解不同存储引擎的索引实现方式对于正确使用和优化索引都非常有帮助，例如知道了InnoDB的索引实现后，就很容易明白为什么不建议使用过长的字段作为主键，因为所有辅助索引都引用主索引，过长的主索引会令辅助索引变得过大。再例如，用非单调的字段作为主键在InnoDB中不是个好主意，因为InnoDB数据文件本身是一颗B+Tree，非单调的主键会造成在插入新记录时数据文件为了维持B+Tree的特性而频繁的分裂调整，十分低效，而使用自增字段作为主键则是一个很好的选择。

下一章将具体讨论这些与索引有关的优化策略。

五、索引使用策略及优化

MySQL的优化主要分为结构优化（Scheme optimization）和查询优化（Query optimization）。本章讨论的高性能索引策略主要属于结构优化范畴。本章的内容完全基于上文的理论基础，实际上一旦理解了索引背后的机制，那么选择高性能的策略就变成了纯粹的推理，并且可以理解这些策略背后的逻辑。

示例数据库

为了讨论索引策略，需要一个数据量不算小的数据库作为示例。本文选用MySQL官方文档中提供的示例数据库之一：employees。这个数据库关系复杂度适中，且数据量较大。下图是这个数据库的E-R关系图（引用自MySQL官方手册）：

图12

MySQL官方文档中关于此数据库的页面为http://dev.mysql.com/doc/employee/en/employee.html。里面详细介绍了此数据库，并提供了下载地址和导入方法，如果有兴趣导入此数据库到自己的MySQL可以参考文中内容。

最左前缀原理与相关优化

高效使用索引的首要条件是知道什么样的查询会使用到索引，这个问题和B+Tree中的“最左前缀原理”有关，下面通过例子说明最左前缀原理。

这里先说一下联合索引的概念。在上文中，我们都是假设索引只引用了单个的列，实际上，MySQL中的索引可以以一定顺序引用多个列，这种索引叫做联合索引，一般的，一个联合索引是一个有序元组，其中各个元素均为数据表的一列，实际上要严格定义索引需要用到关系代数，但是这里我不想讨论太多关系代数的话题，因为那样会显得很枯燥，所以这里就不再做严格定义。另外，单列索引可以看成联合索引元素数为1的特例。

以employees.titles表为例，下面先查看其上都有哪些索引：

MySQL
 
     
      
       
           1 
         

           2 
         

           3 
         

           4 
         

           5 
         

           6 
         

           7 
         

           8 
         

           9 
         
 
        
          SHOW 
            
          INDEX 
            
          FROM 
           employees.titles; 
         

           +--------+------------+----------+--------------+-------------+-----------+-------------+------+------------+ 
         

           | 
            
          Table 
            | 
           Non_unique 
           | 
           Key_name 
           | 
           Seq_in_index 
           | 
           Column_name 
           | 
            
          Collation 
           | 
           Cardinality 
           | 
            
          Null 
           | 
           Index_type 
           | 
         

           +--------+------------+----------+--------------+-------------+-----------+-------------+------+------------+ 
         

           | 
           titles 
           | 
                    0 
           | 
            
          PRIMARY 
            | 
                      1 
           | 
           emp_no 
                | 
           A 
                   | 
                   
          NULL 
           | 
                | 
            
          BTREE 
                | 
         

           | 
           titles 
           | 
                    0 
           | 
            
          PRIMARY 
            | 
                      2 
           | 
           title 
                 | 
           A 
                   | 
                   
          NULL 
           | 
                | 
            
          BTREE 
                | 
         

           | 
           titles 
           | 
                    0 
           | 
            
          PRIMARY 
            | 
                      3 
           | 
           from_date 
             | 
           A 
                   | 
                443308 
           | 
                | 
            
          BTREE 
                | 
         

           | 
           titles 
           | 
                    1 
           | 
           emp_no 
             | 
                      1 
           | 
           emp_no 
                | 
           A 
                   | 
                443308 
           | 
                | 
            
          BTREE 
                | 
         

           +--------+------------+----------+--------------+-------------+-----------+-------------+------+------------+ 
         
 
      
 
     
   

从结果中可以到titles表的主索引为，还有一个辅助索引。为了避免多个索引使事情变复杂（MySQL的SQL优化器在多索引时行为比较复杂），这里我们将辅助索引drop掉：

MySQL
 
           1 
         
          ALTER 
            
          TABLE 
           employees.titles 
            
          DROP 
            
          INDEX 
           emp_no;

这样就可以专心分析索引PRIMARY的行为了。

情况一：全列匹配。

MySQL
 
     
      
       
           1 
         

           2 
         

           3 
         

           4 
         

           5 
         

           6 
         
 
        
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
            
          WHERE 
           emp_no= 
          '10001' 
            
          AND 
           title= 
          'Senior Engineer' 
            
          AND 
           from_date= 
          '1986-06-26'; 
         

           +----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+ 
         

           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
            | 
           possible_keys 
           | 
            
          key 
               | 
           key_len 
           | 
           ref 
                         | 
            
          rows 
           | 
           Extra 
           | 
         

           +----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+ 
         

           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
           const 
           | 
            
          PRIMARY 
                 | 
            
          PRIMARY 
           | 
           59 
                | 
           const,const,const 
           | 
              1 
           | 
                 | 
         

           +----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+ 
         
 
      
 
     
   

很明显，当按照索引中所有列进行精确匹配（这里精确匹配指“=”或“IN”匹配）时，索引可以被用到。这里有一点需要注意，理论上索引对顺序是敏感的，但是由于MySQL的查询优化器会自动调整where子句的条件顺序以使用适合的索引，例如我们将where中的条件顺序颠倒：

MySQL
 
     
      
       
           1 
         

           2 
         

           3 
         

           4 
         

           5 
         

           6 
         
 
        
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
            
          WHERE 
           from_date= 
          '1986-06-26' 
            
          AND 
           emp_no= 
          '10001' 
            
          AND 
           title= 
          'Senior Engineer'; 
         

           +----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+ 
         

           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
            | 
           possible_keys 
           | 
            
          key 
               | 
           key_len 
           | 
           ref 
                         | 
            
          rows 
           | 
           Extra 
           | 
         

           +----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+ 
         

           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
           const 
           | 
            
          PRIMARY 
                 | 
            
          PRIMARY 
           | 
           59 
                | 
           const,const,const 
           | 
              1 
           | 
                 | 
         

           +----+-------------+--------+-------+---------------+---------+---------+-------------------+------+-------+ 
         
 
      
 
     
   

效果是一样的。

情况二：最左前缀匹配。

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
            
          WHERE 
           emp_no= 
          '10001'; 
         
           +----+-------------+--------+------+---------------+---------+---------+-------+------+-------+ 
         
           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
           | 
           possible_keys 
           | 
            
          key 
               | 
           key_len 
           | 
           ref 
             | 
            
          rows 
           | 
           Extra 
           | 
         
           +----+-------------+--------+------+---------------+---------+---------+-------+------+-------+ 
         
           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
           ref 
            | 
            
          PRIMARY 
                 | 
            
          PRIMARY 
           | 
           4 
                 | 
           const 
           | 
              1 
           | 
                 | 
         
           +----+-------------+--------+------+---------------+---------+---------+-------+------+-------+

当查询条件精确匹配索引的左边连续一个或几个列时，如或，所以可以被用到，但是只能用到一部分，即条件所组成的最左前缀。上面的查询从分析结果看用到了PRIMARY索引，但是key_len为4，说明只用到了索引的第一列前缀。

情况三：查询条件用到了索引中列的精确匹配，但是中间某个条件未提供。

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
            
          WHERE 
           emp_no= 
          '10001' 
            
          AND 
           from_date= 
          '1986-06-26'; 
         
           +----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+ 
         
           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
           | 
           possible_keys 
           | 
            
          key 
               | 
           key_len 
           | 
           ref 
             | 
            
          rows 
           | 
           Extra 
                 | 
         
           +----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+ 
         
           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
           ref 
            | 
            
          PRIMARY 
                 | 
            
          PRIMARY 
           | 
           4 
                 | 
           const 
           | 
              1 
           | 
            
          Using 
            
          where 
           | 
         
           +----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+

此时索引使用情况和情况二相同，因为title未提供，所以查询只用到了索引的第一列，而后面的from_date虽然也在索引中，但是由于title不存在而无法和左前缀连接，因此需要对结果进行扫描过滤from_date（这里由于emp_no唯一，所以不存在扫描）。如果想让from_date也使用索引而不是where过滤，可以增加一个辅助索引，此时上面的查询会使用这个索引。除此之外，还可以使用一种称之为“隔离列”的优化方法，将emp_no与from_date之间的“坑”填上。

首先我们看下title一共有几种不同的值：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
          SELECT 
            
          DISTINCT(title) 
            
          FROM 
           employees.titles; 
         
           +--------------------+ 
         
           | 
           title 
                        | 
         
           +--------------------+ 
         
           | 
           Senior 
           Engineer 
              | 
         
           | 
           Staff 
                        | 
         
           | 
           Engineer 
                     | 
         
           | 
           Senior 
           Staff 
                 | 
         
           | 
           Assistant 
           Engineer 
           | 
         
           | 
           Technique 
           Leader 
             | 
         
           | 
           Manager 
                      | 
         
           +--------------------+

只有7种。在这种成为“坑”的列值比较少的情况下，可以考虑用“IN”来填补这个“坑”从而形成最左前缀：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
         
          WHERE 
           emp_no= 
          '10001' 
         
          AND 
           title 
            
          IN 
           ( 
          'Senior Engineer', 
            
          'Staff', 
            
          'Engineer', 
            
          'Senior Staff', 
            
          'Assistant Engineer', 
            
          'Technique Leader', 
            
          'Manager') 
         
          AND 
           from_date= 
          '1986-06-26'; 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ 
         
           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
            | 
           possible_keys 
           | 
            
          key 
               | 
           key_len 
           | 
           ref 
            | 
            
          rows 
           | 
           Extra 
                 | 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ 
         
           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
            
          range 
           | 
            
          PRIMARY 
                 | 
            
          PRIMARY 
           | 
           59 
                | 
            
          NULL 
           | 
              7 
           | 
            
          Using 
            
          where 
           | 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

这次key_len为59，说明索引被用全了，但是从type和rows看出IN实际上执行了一个range查询，这里检查了7个key。看下两种查询的性能比较：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
          SHOW 
           PROFILES; 
         
           +----------+------------+-------------------------------------------------------------------------------+ 
         
           | 
           Query_ID 
           | 
           Duration 
             | 
           Query 
                                                                                   | 
         
           +----------+------------+-------------------------------------------------------------------------------+ 
         
           | 
                 10 
           | 
           0.00058000 
           | 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
            
          WHERE 
           emp_no= 
          '10001' 
            
          AND 
           from_date= 
          '1986-06-26'| 
         
           | 
                 11 
           | 
           0.00052500 
           | 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
            
          WHERE 
           emp_no= 
          '10001' 
            
          AND 
           title 
            
          IN 
           ... 
                    | 
         
           +----------+------------+-------------------------------------------------------------------------------+

“填坑”后性能提升了一点。如果经过emp_no筛选后余下很多数据，则后者性能优势会更加明显。当然，如果title的值很多，用填坑就不合适了，必须建立辅助索引。

情况四：查询条件没有指定索引第一列。

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
            
          WHERE 
           from_date= 
          '1986-06-26'; 
         
           +----+-------------+--------+------+---------------+------+---------+------+--------+-------------+ 
         
           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
           | 
           possible_keys 
           | 
            
          key 
            | 
           key_len 
           | 
           ref 
            | 
            
          rows 
             | 
           Extra 
                 | 
         
           +----+-------------+--------+------+---------------+------+---------+------+--------+-------------+ 
         
           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
            
          ALL 
            | 
            
          NULL 
                    | 
            
          NULL 
           | 
            
          NULL 
              | 
            
          NULL 
           | 
           443308 
           | 
            
          Using 
            
          where 
           | 
         
           +----+-------------+--------+------+---------------+------+---------+------+--------+-------------+

由于不是最左前缀，索引这样的查询显然用不到索引。

情况五：匹配某列的前缀字符串。

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
            
          WHERE 
           emp_no= 
          '10001' 
            
          AND 
           title 
            
          LIKE 
            
          'Senior%'; 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ 
         
           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
            | 
           possible_keys 
           | 
            
          key 
               | 
           key_len 
           | 
           ref 
            | 
            
          rows 
           | 
           Extra 
                 | 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ 
         
           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
            
          range 
           | 
            
          PRIMARY 
                 | 
            
          PRIMARY 
           | 
           56 
                | 
            
          NULL 
           | 
              1 
           | 
            
          Using 
            
          where 
           | 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

此时可以用到索引，但是如果通配符不是只出现在末尾，则无法使用索引。（原文表述有误，如果通配符%不出现在开头，则可以用到索引，但根据具体情况不同可能只会用其中一个前缀）

情况六：范围查询。

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
            
          WHERE 
           emp_no 
            
          < 
            
          '10010' 
            
          and 
           title= 
          'Senior Engineer'; 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ 
         
           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
            | 
           possible_keys 
           | 
            
          key 
               | 
           key_len 
           | 
           ref 
            | 
            
          rows 
           | 
           Extra 
                 | 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ 
         
           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
            
          range 
           | 
            
          PRIMARY 
                 | 
            
          PRIMARY 
           | 
           4 
                 | 
            
          NULL 
           | 
             16 
           | 
            
          Using 
            
          where 
           | 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

范围列可以用到索引（必须是最左前缀），但是范围列后面的列无法用到索引。同时，索引最多用于一个范围列，因此如果查询条件中有两个范围列则无法全用到索引。

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
         
          WHERE 
           emp_no 
            
          < 
           10010 
          ' 
         
          AND title='Senior 
           Engineer 
          ' 
         
          AND from_date BETWEEN '1986 
          -01 
          -01 
          ' AND '1986 
          -12 
          -31'; 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ 
         
           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
            | 
           possible_keys 
           | 
            
          key 
               | 
           key_len 
           | 
           ref 
            | 
            
          rows 
           | 
           Extra 
                 | 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ 
         
           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
            
          range 
           | 
            
          PRIMARY 
                 | 
            
          PRIMARY 
           | 
           4 
                 | 
            
          NULL 
           | 
             16 
           | 
            
          Using 
            
          where 
           | 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

可以看到索引对第二个范围索引无能为力。这里特别要说明MySQL一个有意思的地方，那就是仅用explain可能无法区分范围索引和多值匹配，因为在type中这两者都显示为range。同时，用了“between”并不意味着就是范围查询，例如下面的查询：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
         
          WHERE 
           emp_no 
            
          BETWEEN 
            
          '10001' 
            
          AND 
            
          '10010' 
         
          AND 
           title= 
          'Senior Engineer' 
         
          AND 
           from_date 
            
          BETWEEN 
            
          '1986-01-01' 
            
          AND 
            
          '1986-12-31'; 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ 
         
           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
            | 
           possible_keys 
           | 
            
          key 
               | 
           key_len 
           | 
           ref 
            | 
            
          rows 
           | 
           Extra 
                 | 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+ 
         
           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
            
          range 
           | 
            
          PRIMARY 
                 | 
            
          PRIMARY 
           | 
           59 
                | 
            
          NULL 
           | 
             16 
           | 
            
          Using 
            
          where 
           | 
         
           +----+-------------+--------+-------+---------------+---------+---------+------+------+-------------+

看起来是用了两个范围查询，但作用于emp_no上的“BETWEEN”实际上相当于“IN”，也就是说emp_no实际是多值精确匹配。可以看到这个查询用到了索引全部三个列。因此在MySQL中要谨慎地区分多值匹配和范围匹配，否则会对MySQL的行为产生困惑。

情况七：查询条件中含有函数或表达式。

很不幸，如果查询条件中含有函数或表达式，则MySQL不会为这列使用索引（虽然某些在数学意义上可以使用）。例如：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
            
          WHERE 
           emp_no= 
          '10001' 
            
          AND 
            
          left(title, 
           6)= 
          'Senior'; 
         
           +----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+ 
         
           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
           | 
           possible_keys 
           | 
            
          key 
               | 
           key_len 
           | 
           ref 
             | 
            
          rows 
           | 
           Extra 
                 | 
         
           +----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+ 
         
           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
           ref 
            | 
            
          PRIMARY 
                 | 
            
          PRIMARY 
           | 
           4 
                 | 
           const 
           | 
              1 
           | 
            
          Using 
            
          where 
           | 
         
           +----+-------------+--------+------+---------------+---------+---------+-------+------+-------------+

虽然这个查询和情况五中功能相同，但是由于使用了函数left，则无法为title列应用索引，而情况五中用LIKE则可以。再如：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.titles 
            
          WHERE 
           emp_no 
           - 
           1= 
          '10000'; 
         
           +----+-------------+--------+------+---------------+------+---------+------+--------+-------------+ 
         
           | 
           id 
           | 
           select_type 
           | 
            
          table 
            | 
            
          type 
           | 
           possible_keys 
           | 
            
          key 
            | 
           key_len 
           | 
           ref 
            | 
            
          rows 
             | 
           Extra 
                 | 
         
           +----+-------------+--------+------+---------------+------+---------+------+--------+-------------+ 
         
           | 
            1 
           | 
           SIMPLE 
                | 
           titles 
           | 
            
          ALL 
            | 
            
          NULL 
                    | 
            
          NULL 
           | 
            
          NULL 
              | 
            
          NULL 
           | 
           443308 
           | 
            
          Using 
            
          where 
           | 
         
           +----+-------------+--------+------+---------------+------+---------+------+--------+-------------+

显然这个查询等价于查询emp_no为10001的函数，但是由于查询条件是一个表达式，MySQL无法为其使用索引。看来MySQL还没有智能到自动优化常量表达式的程度，因此在写查询语句时尽量避免表达式出现在查询中，而是先手工私下代数运算，转换为无表达式的查询语句。

索引选择性与前缀索引

既然索引可以加快查询速度，那么是不是只要是查询语句需要，就建上索引？答案是否定的。因为索引虽然加快了查询速度，但索引也是有代价的：索引文件本身要消耗存储空间，同时索引会加重插入、删除和修改记录时的负担，另外，MySQL在运行时也要消耗资源维护索引，因此索引并不是越多越好。一般两种情况下不建议建索引。

Index Selectivity = Cardinality / #T

显然选择性的取值范围为(0, 1]，选择性越高的索引价值越大，这是由B+Tree的性质决定的。例如，上文用到的employees.titles表，如果title字段经常被单独查询，是否需要建索引，我们看一下它的选择性：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          SELECT count( 
          DISTINCT(title))/ 
          count(*) 
            
          AS 
           Selectivity 
            
          FROM 
           employees.titles; 
         
           +-------------+ 
         
           | 
           Selectivity 
           | 
         
           +-------------+ 
         
           | 
                0.0000 
           | 
         
           +-------------+

title的选择性不足0.0001（精确值为0.00001579），所以实在没有什么必要为其单独建索引。

有一种与索引选择性有关的索引优化策略叫做前缀索引，就是用列的前缀代替整个列作为索引key，当前缀长度合适时，可以做到既使得前缀索引的选择性接近全列索引，同时因为索引key变短而减少了索引文件的大小和维护开销。下面以employees.employees表为例介绍前缀索引的选择和使用。

从图12可以看到employees表只有一个索引，那么如果我们想按名字搜索一个人，就只能全表扫描了：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          EXPLAIN 
            
          SELECT 
           * 
            
          FROM 
           employees.employees 
            
          WHERE 
           first_name= 
          'Eric' 
            
          AND 
           last_name= 
          'Anido'; 
         
           +----+-------------+-----------+------+---------------+------+---------+------+--------+-------------+ 
         
           | 
           id 
           | 
           select_type 
           | 
            
          table 
               | 
            
          type 
           | 
           possible_keys 
           | 
            
          key 
            | 
           key_len 
           | 
           ref 
            | 
            
          rows 
             | 
           Extra 
                 | 
         
           +----+-------------+-----------+------+---------------+------+---------+------+--------+-------------+ 
         
           | 
            1 
           | 
           SIMPLE 
                | 
           employees 
           | 
            
          ALL 
            | 
            
          NULL 
                    | 
            
          NULL 
           | 
            
          NULL 
              | 
            
          NULL 
           | 
           300024 
           | 
            
          Using 
            
          where 
           | 
         
           +----+-------------+-----------+------+---------------+------+---------+------+--------+-------------+

如果频繁按名字搜索员工，这样显然效率很低，因此我们可以考虑建索引。有两种选择，建或，看下两个索引的选择性：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
           8 
         
           9 
         
           10 
         
           11 
         
           12 
         
           13 
         
          SELECT count( 
          DISTINCT(first_name))/ 
          count(*) 
            
          AS 
           Selectivity 
            
          FROM 
           employees.employees; 
         
           +-------------+ 
         
           | 
           Selectivity 
           | 
         
           +-------------+ 
         
           | 
                0.0042 
           | 
         
           +-------------+ 
         
          SELECT count( 
          DISTINCT( 
          concat(first_name, 
           last_name)))/ 
          count(*) 
            
          AS 
           Selectivity 
            
          FROM 
           employees.employees; 
         
           +-------------+ 
         
           | 
           Selectivity 
           | 
         
           +-------------+ 
         
           | 
                0.9313 
           | 
         
           +-------------+

显然选择性太低，选择性很好，但是first_name和last_name加起来长度为30，有没有兼顾长度和选择性的办法？可以考虑用first_name和last_name的前几个字符建立索引，例如，看看其选择性：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          SELECT count( 
          DISTINCT( 
          concat(first_name, 
            
          left(last_name, 
           3))))/ 
          count(*) 
            
          AS 
           Selectivity 
            
          FROM 
           employees.employees; 
         
           +-------------+ 
         
           | 
           Selectivity 
           | 
         
           +-------------+ 
         
           | 
                0.7879 
           | 
         
           +-------------+

选择性还不错，但离0.9313还是有点距离，那么把last_name前缀加到4：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
          SELECT count( 
          DISTINCT( 
          concat(first_name, 
            
          left(last_name, 
           4))))/ 
          count(*) 
            
          AS 
           Selectivity 
            
          FROM 
           employees.employees; 
         
           +-------------+ 
         
           | 
           Selectivity 
           | 
         
           +-------------+ 
         
           | 
                0.9007 
           | 
         
           +-------------+

这时选择性已经很理想了，而这个索引的长度只有18，比短了接近一半，我们把这个前缀索引建上：

MySQL
 
           1 
         
           2 
         
          ALTER 
            
          TABLE 
           employees.employees 
         
          ADD 
            
          INDEX 
           `first_name_last_name4` 
           (first_name, 
           last_name(4));

此时再执行一遍按名字查询，比较分析一下与建索引前的结果：

MySQL
 
           1 
         
           2 
         
           3 
         
           4 
         
           5 
         
           6 
         
           7 
         
          SHOW 
           PROFILES; 
         
           +----------+------------+---------------------------------------------------------------------------------+ 
         
           | 
           Query_ID 
           | 
           Duration 
             | 
           Query 
                                                                                     | 
         
           +----------+------------+---------------------------------------------------------------------------------+ 
         
           | 
                 87 
           | 
           0.11941700 
           | 
            
          SELECT 
           * 
            
          FROM 
           employees.employees 
            
          WHERE 
           first_name= 
          'Eric' 
            
          AND 
           last_name= 
          'Anido' 
           | 
         
           | 
                 90 
           | 
           0.00092400 
           | 
            
          SELECT 
           * 
            
          FROM 
           employees.employees 
            
          WHERE 
           first_name= 
          'Eric' 
            
          AND 
           last_name= 
          'Anido' 
           | 
         
           +----------+------------+---------------------------------------------------------------------------------+

性能的提升是显著的，查询速度提高了120多倍。

前缀索引兼顾索引大小和查询速度，但是其缺点是不能用于ORDER BY和GROUP BY操作，也不能用于Covering index（即当索引本身包含查询所需全部数据时，不再访问数据文件本身）。

InnoDB的主键选择与插入优化

在使用InnoDB存储引擎时，如果没有特别的需要，请永远使用一个与业务无关的自增字段作为主键。

经常看到有帖子或博客讨论主键选择问题，有人建议使用业务无关的自增主键，有人觉得没有必要，完全可以使用如学号或身份证号这种唯一字段作为主键。不论支持哪种论点，大多数论据都是业务层面的。如果从数据库索引优化角度看，使用InnoDB引擎而不使用自增主键绝对是一个糟糕的主意。

上文讨论过InnoDB的索引实现，InnoDB使用聚集索引，数据记录本身被存于主索引（一颗B+Tree）的叶子节点上。这就要求同一个叶子节点内（大小为一个内存页或磁盘页）的各条数据记录按主键顺序存放，因此每当有一条新的记录插入时，MySQL会根据其主键将其插入适当的节点和位置，如果页面达到装载因子（InnoDB默认为15/16），则开辟一个新的页（节点）。

如果表使用自增主键，那么每次插入新的记录，记录就会顺序添加到当前索引节点的后续位置，当一页写满，就会自动开辟一个新的页。如下图所示：

图13

这样就会形成一个紧凑的索引结构，近似顺序填满。由于每次插入时也不需要移动已有数据，因此效率很高，也不会增加很多开销在维护索引上。

如果使用非自增主键（如果身份证号或学号等），由于每次插入主键的值近似于随机，因此每次新纪录都要被插到现有索引页得中间某个位置：

图14

此时MySQL不得不为了将新记录插到合适位置而移动数据，甚至目标页面可能已经被回写到磁盘上而从缓存中清掉，此时又要从磁盘上读回来，这增加了很多开销，同时频繁的移动、分页操作造成了大量的碎片，得到了不够紧凑的索引结构，后续不得不通过OPTIMIZE TABLE来重建表并优化填充页面。

因此，只要可以，请尽量在InnoDB上采用自增字段做主键。

你可能感兴趣的:(算法与数据结构,数据库)

【线上故障排查】缓存穿透攻击的识别与布隆过滤器（面试题 + 3 步追问应对 + 案例分析）程序员岳彬从项目到面试：Java 高频面试题场景化通关指南缓存 java 后端 spring boot linux redis
一、高频面试题问题1：什么是缓存穿透？它对系统的核心危害是什么？参考答案：缓存穿透指的是用户请求的数据在缓存和数据库中都不存在，导致请求直接绕过缓存打到数据库。核心危害是大量无效请求会耗尽数据库资源，比如CPU、内存或连接数，严重时可能引发数据库宕机，进而导致整个系统崩溃，影响服务可用性。第一步追问：缓存穿透和缓存雪崩有什么本质区别？参考答案：两者本质不同。缓存穿透是请求不存在的数据，攻击或逻辑漏
MySQL事务实现原理巴里巴气 MySQL知识记录 mysql 数据库
目录MySQL事务介绍事务基础及其实现原理回滚日志MVCC多版本并发控制事务的特性多个事务同时执行出现的三种现象四种隔离级别及其实现原理尽量不要使用长事务MySQL事务介绍要保证⼀组数据库操作，要么全部成功，要么全部失败事务是在存储引擎层实现的,MySQL是支持多存储引擎的系统,不是所有的存储引擎都支持事务,目前最常用的存储引擎InnoDB是支持事务的事务基础及其实现原理回滚日志回滚日志是一种用于
MySQL 触发器中判断 NULL 值不生效？问题解析与解决方案
前言在MySQL数据库开发中，触发器是一个非常实用的功能，它能在数据表发生插入、更新或删除操作时自动执行指定的逻辑。但在实际使用中，很多开发者会遇到一个棘手的问题：当触发器中涉及NULL值判断时，预期的逻辑往往不生效。本文就来详细分析这一问题的原因，并提供具体的解决方案。一、问题现象：为什么NULL判断在触发器中“失灵”？先来看一个常见的错误示例。假设我们有一张user表，包含name（姓名）和a
如何使用Ora2Pg迁移Oracle数据库到openGauss openGauss小助手 openGauss技术分享数据库 oracle postgresql
Ora2Pg介绍Ora2Pg是一个将Oracle迁移至PostgreSQL的开源工具，通过连接Oracle数据库，自动扫描并提取其中的对象结构及数据，产生SQL脚本，通过手动或自动的方式将其应用到PostgreSQL。官方网站：https://ora2pg.darold.net/Ora2Pg优秀特性支持导出数据库绝大多数对象类型，包括表、视图、序列、索引、外键、约束、函数、存储过程等。提供PL/S
oracle pg 文件级迁移,从Oracle迁移到AntDB(二)-- ora2pg-对象和数据的导出导入
使用Ora2pg和psqlcopy方式进行数据迁移author:yafeishitags:AntDB,ora2pg,oracleAntDB:github_url,基于postgresql的高性能分布式数据库使用Ora2pg和psqlcopy方式进行数据迁移准备工作使用本文档的前提本文档指导如何使用ora2pg进行oracle到ADB的数据迁移，但是在参照本文档操作之前，有以下条件必须满足：-ADB
0.基本环境配置、数据库介绍 ersanshi055 生信小菜鸟生信基本知识 r语言生信分析
目录一、R与Rstudio的下载与安装二、R包安装与加载1.R包安装2.R包加载三、常用R包1.tidyverse2.ggplot2四、常用数据库1.GEO2.TGGA一、R与Rstudio的下载与安装介绍：Home-RDocumentation下载：R:CRAN:MirrorsRstudio：DownloadRStudio-PositR、Rstudio安装：根据指引安装，R和Rstudio比较占
TDengine 集群节点管理 TDengine （老段） TDengine SQL 手册 tdengine 数据库时序数据库大数据物联网 iotdb iot
简介组成TDengine集群的物理实体是dnode(datanode的缩写)，它是一个运行在操作系统之上的进程。在dnode中可以建立负责时序数据存储的vnode(virtualnode)，在多节点集群环境下当某个数据库的replica为3时，该数据库中的每个vgroup由3个vnode组成；当数据库的replica为1时，该数据库中的每个vgroup由1个vnode组成。如果要想配置某个数据库为
一场 6 点半开启的慢跑，是我们对八周年最真实的记录
今天，涛思数据八岁了。从2017年成立到现在，已经过去了整整八年。我们用一款开源时序数据库——TDengine，把中国团队的技术能力写进了全球开发者的代码库，也写进了越来越多行业用户的生产系统。八年时间，说长不长，说短也不短。我们经历了初创时的摸索，度过了技术路径尚未被验证的阶段，也一步步走到了今天这个节点：我们仍在奔跑，但不再孤身。这一次，我们选择用一条“慢跑”路线，回望这八年的路。详情关注TD
时序数据库 TDengine × SSRS：专为工业、能源场景打造的报表解决方案
每当听到“做报表”三个字，是不是内心都会先叹口气？尤其在工业、能源、制造等场景，面对那些结构固定、字段繁多、格式要求严苛的报表任务，用Excel手动拼，真的是既费时又容易出错。现在解决方案来了——时序数据库TDengine与SQLServerReportingServices（SSRS）已经完成无缝集成！高性能时序数据库+企业级报表平台，帮你用更少的操作、更高的效率，制作出更稳定、更规范的专业报表
Hutool TreeUtil快速构建树形数据结构 yifanghub 工具类 java
在管理菜单、部门结构等场景时，我们经常需要将数据库中的层级数据转换为树形结构。本文将通过Hutool的TreeUtil工具类，实现零递归快速构建树形结构。一、环境准备JDK1.8+SpringBoot2.xHutool5.8.16MySQL8.0二、数据准备--创建部门表CREATETABLE`sys_dept`(`id`intNOTNULLAUTO_INCREMENT,`dept_name`va
从0到1：SQL注入与XSS攻防实战——数据库安全加固全攻略小张在编程 sql xss 数据库
引言2023年某电商平台用户数据泄露事件中，黑客仅用一行username='OR'1'='1的登录输入，就拖走了百万用户信息；另一家社交网站更离谱，用户在评论区输入alert('xss')，竟让千万级用户的浏览器成了“提线木偶”。这些看似简单的攻击，为何能撕开企业安全防线？今天我们就来拆解SQL注入与XSS的“作案手法”，并给出一套可落地的数据库安全加固方案——毕竟，防住这两类攻击，能解决80%的
spring-data-jpa+spring+hibernate+druid配置
参考链接：http://doc.okbase.net/liuyitian/archive/109276.htmlhttp://my.oschina.net/u/1859292/blog/312188最新公司的web项目需要用到spring-data-jpa作为JPA的实现框架，同时使用阿里巴巴的开源数据库连接池druid。关于这两种框架的介绍我在这里就不多赘述。直接进入配置页面：spring的配置
识花APP：一键识别，开启植物探索之旅
在大自然的怀抱中，我们常常会被各种各样的花草所吸引，却不知道它们的名字和习性。识花APP正是这样一款能够帮助我们快速识别植物、了解植物知识的神奇工具。由上海原来信息科技有限公司研发的这款植物识别软件，以其强大的功能、简单的操作和丰富的植物数据库，成为了植物爱好者和自然探索者的得力助手。软件优势·拍照识花：1秒就能知道植物的名字和故事·分享美图：一键生成有诗词花语的植物美图·花语壁纸：精美壁纸天天上
【SpringBoot】Spring Boot 高并发优化终极指南，涵盖线程模型、JVM 调优、数据库访问、缓存策略等 15+ 核心模块夜雨hiyeyu.com java spring boot jvm spring java 后端性能优化系统架构
SpringBoot高并发优化终极指南，涵盖线程模型、JVM调优、数据库访问、缓存策略等15+核心模块一、线程模型深度调优（核心瓶颈突破）1.Tomcat线程池原子级配置2.异步任务线程池隔离策略二、JVM层终极调参（G1GC深度优化）1.内存分配策略2.GC日志分析技巧三、缓存策略原子级优化1.三级缓存架构实现2.缓存穿透/雪崩防护四、数据库访问极致优化1.连接池死亡参数配置2.分页查询深度优化
达梦数据库linux环境实时主备搭建过程张晓杰^.^ 数据库服务器网络
一.数据准备：1.安装单机1.1创建用户和组groupadd-g12349dinstalluseradd-u12345-gdinstall-m-d/home/dmdba-s/bin/bashdmdbapasswddmdba1.2创建文件dmsoft:存放DMInstall.bin和key/home/dmdba/dmdbms：存放数据库的安装目录/data:实例目录/data/dmarch:存放归档
[达梦数据库]达梦单节点安装
1环境配置1.1查看软硬件信息查看cpu信息：[root@localhost~]#lscpu[root@localhost~]#cat/proc/cpuinfo注意：特别是国产cpu，龙芯、飞腾查看内存信息：[root@localhost~]#free-m注意：数据库内存要至少1G，linuxswap分区一般是物理内存的1.5倍查看硬盘、分区信息[root@localhost~]#fdisk-l[
麒麟V10安装部署达梦数据库（单机版）熊娜丽莎的微笑数据库运维开发 linux
提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言1.单机部署过程1.1部署规划1.2数据库软件安装及环境配置1.2.1操作系统配置1.2.2数据库软件安装1.3使用dminit工具初始化实例1.4注册服务并启动实例1.5登录数据库1.6归档配置1.7定制备份策略1.8数据库参数优化1.9配置sql日志1.10迁移信息统计查询总结前言麒麟V10安装部署达梦数据库单机安装的
CentOS 7系统设置MYSQL每天定时备份 AMING20220827 MySQL mysql 数据库 centos
目录一、MySQL定时备份数据设置定时定时任务脚本如果出现问题："mysqldump:commandnotfound"备份MySQL数据库步骤二、连接MySQL一、MySQL定时备份数据设置定时定时任务脚本1.修改/etc/my.cnf文件#vim/etc/my.cnf增加本机、用户名、密码vim/etc/my.cnf[client]host=localhostuser=你的数据库用户passwo
达梦数据库（集群）使用命令行开启定时备份：除祢以外 java 数据库 servlet
声明：仅供技术参考非官方专业指导，如操作导致数据问题概不负责！！！达梦数据库（集群）使用命令行开启定时备份：登录需要自动备份的数据库进行备份任务创建（分为全量备份和增量备份）（1）定时自动全量备份初始化代理环境SP_INIT_JOB_SYS(1);每天全量备份callSP_CREATE_JOB('db_bak',1,0,'',0,0,'',0,'');callSP_JOB_CONFIG_START
Softhub软件下载站实战开发（四）：代码生成器设计与实现叹一曲当时只道是寻常 softHub python 低代码 mysql
文章目录Softhub软件下载站实战开发（四）：代码生成器设计与实现1.前言2.技术选型3.架构概览️3.1架构概览3.2工作流程详解4.核心功能实现⏳4.1配置管理系统4.2数据库表结构解析4.3模板渲染引擎4.4智能类型转换4.5动态文件生成4.6智能覆盖策略4.7运行5.附录ℹ️5.1生成器代码5.2后端模板5.3前端模板Softhub软件下载站实战开发（四）：代码生成器设计与实现1.前言在
Softhub软件下载站实战开发（十四）：软件收藏集设计叹一曲当时只道是寻常 softHub 前端 golang
文章目录Softhub软件下载站实战开发（十四）：软件收藏集设计引言：为什么我们需要收藏集功能？收藏集功能的核心价值1.资源整合与分类管理技术架构设计数据库设计核心接口设计后端实现详解1.收藏集服务层2.列表查询实现3.添加软件实现前端实现详解1.收藏集列表页面2.软件管理弹窗组件3.软件选择与添加逻辑Softhub软件下载站实战开发（十四）：软件收藏集设计前面几篇我们讲了软件管理相关实现，本篇我
Java程序设计（二十七）：基于SSM框架的OA办公自动化管理平台的设计与实现人工智能_SYBH 2025年java程序设计 java 数据挖掘开发语言 vue.js 后端人工智能 spring boot
1.项目概述办公自动化（OA，OfficeAutomation）管理平台是企业实现内部管理信息化的重要工具。本文提出并实现了一个基于Java的OA办公自动化管理平台。该平台基于SSM架构（Spring+SpringMVC+MyBatis），数据库采用MySQL，并通过HTML、CSS、JavaScript等技术实现用户界面。1.1平台功能简介平台提供了管理员、普通用户和部门三类角色，分别具有不同的
AI驱动的个人工作革命：基于DeepSeek构建全场景智能工作助理（含源代码+多应用场景） AI_DL_CODE DeepSeek深度应用人工智能 DeepSeek 个人智能助理 LangChain 任务自动化知识管理大模型应用
摘要：本文详细阐述基于DeepSeek大模型构建个人工作助理的完整技术方案，通过LangChain实现任务分解、知识检索与工具调用的智能协同。方案融合向量数据库、多模态交互与个性化学习算法，构建涵盖邮件处理、会议管理、文档生成等15大核心工作场景的自动化系统。文中提供可运行代码、完整部署指南及效能测试数据，实现邮件处理效率提升13倍、会议纪要生成时间缩短100%、任务安排错误率降低83%的显著优化
构建安全密码存储策略：核心原则与最佳实践 weixin_47233946 信息安全安全
密码是用户身份认证的第一道防线，其存储安全性直接关系到用户隐私和企业信誉。近年来频发的数据泄露事件揭示了密码管理的关键性。本文将深入探讨从加密算法到系统性防护的完整密码存储方案，帮助开发者构建企业级安全防御体系。一、密码存储基本准则绝对禁止明文存储：即使采用数据库加密措施，直接存储用户原始密码仍存在不可逆泄露风险。运维人员权限滥用或备份文件泄露都可能成为突破口。加密≠安全：AES等对称加密存在密钥
Spring Data Neo4j 与后端人工智能算法的数据交互 AI大模型应用实战 spring neo4j 人工智能 ai
SpringDataNeo4j与后端人工智能算法的数据交互关键词：SpringDataNeo4j、图数据库、人工智能算法、数据交互、知识图谱、图神经网络、数据集成摘要：本文深入探讨了如何利用SpringDataNeo4j框架实现后端人工智能算法与图数据库的高效数据交互。文章首先介绍了图数据库和人工智能算法的基本概念，然后详细解析了SpringDataNeo4j的核心架构和原理。接着，通过实际代码示
FastAPI依赖注入：构建高可维护API的核心理念与实战源滚滚AI编程 fastapi log4j
依赖注入（DependencyInjection,DI）作为FastAPI的核心设计模式，通过解耦组件依赖关系、提升代码复用性和可测试性，已成为现代API开发的基石。本文将深入解析其工作原理、高级特性及企业级应用场景。一、依赖注入的核心价值解耦与模块化将数据库连接、认证逻辑等基础设施与业务逻辑分离，避免代码冗余。示例：路由函数无需手动创建数据库连接，通过Depends(get_db)自动注入[ci
MySQL存储结构深度解析：Buffer Pool与Page管理 hdzw20 mysql复习 mysql 数据库
MySQL存储结构解析：BufferPool与Page管理在MySQL的InnoDB存储引擎中，BufferPool是其核心组件之一，它极大地提升了数据库的性能。理解BufferPool的内部结构和工作机制，对于优化MySQL数据库至关重要。本文将讨论BufferPool的结构、三大链表、改进型LRU算法以及ChangeBuffer机制。1.BufferPool结构：控制块与缓存页BufferPo
python程序基本架构_Python 程序基本架构尤尔小喵喵 python程序基本架构
Python的一般程序基本架构为：输入，处理，输出，这三块。输入：包括两个内容，变量赋值与输入语句处理：包括算术运算，逻辑运算，算法处理这三方面输出：包括打印输出，写入文件，写入数据库这三块下面举两个例子具体了解一下Python的程序基本架构1输入：变量赋值处理：算术运算输出：打印输出x=12#变量赋值x=12y=13#变量赋值y=13z=x+y#算术运算print(z)#打印输出252输入：输入
C#.NET log4net 详解 c#.net
简介log4net是.NET平台上非常成熟的日志组件，源自Java世界的log4j。它功能丰富、性能高、配置灵活，是企业应用中常见的日志框架之一。核心特点支持多种输出目标（Appender）：文件、数据库、控制台、远程服务等支持多种格式化（Layout）支持按级别（Level）记录日志支持日志分类（Logger分组、命名空间隔离）配置灵活，可通过XML文件配置，也可通过代码配置支持异步日志、按文件
Navicat导出数据库表结构 qq_42676307 数据库 mysql
每一份完善的文档都是为后期维护铺平的道路：针对MySQL导出表结构文档，工具：navicat第一步：navicat新建查询SELECTCOLUMN_NAME列名,COLUMN_COMMENT名称,COLUMN_TYPE数据类型,DATA_TYPE字段类型,CHARACTER_MAXIMUM_LENGTH长度,IS_NULLABLE是否必填,COLUMN_DEFAULT描述FROMINFORMATI
异常的核心类Throwable 无量 java 源码异常处理 exception
java异常的核心是Throwable，其他的如Error和Exception都是继承的这个类里面有个核心参数是detailMessage，记录异常信息，getMessage核心方法，获取这个参数的值，我们可以自己定义自己的异常类，去继承这个Exception就可以了，方法基本上，用父类的构造方法就OK，所以这么看异常是不是很easy package com.natsu;
mongoDB 游标（cursor）实现分页迭代开窍的石头 mongodb
上篇中我们讲了mongoDB 中的查询函数，现在我们讲mongo中如何做分页查询如何声明一个游标 var mycursor = db.user.find({_id:{$lte:5}}); 迭代显示游标数
MySQL数据库INNODB 表损坏修复处理过程 0624chenhong tomcat mysql
最近mysql数据库经常死掉，用命令net stop mysql命令也无法停掉，关闭Tomcat的时候，出现Waiting for N instance(s) to be deallocated 信息。查了下，大概就是程序没有对数据库连接释放，导致Connection泄露了。因为用的是开元集成的平台，内部程序也不可能一下子给改掉的，就验证一下咯。启动Tomcat,用户登录系统，用netstat -
剖析如何与设计人员沟通不懂事的小屁孩工作
最近做图烦死了，不停的改图，改图……。烦，倒不是因为改，而是反反复复的改，人都会死。很多需求人员不知该如何与设计人员沟通，不明白如何使设计人员知道他所要的效果，结果只能是沟通变成了扯淡，改图变成了应付。那应该如何与设计人员沟通呢？我认为设计人员与需求人员先天就存在语言障碍。对一个合格的设计人员来说，整天玩的都是点、线、面、配色，哪种构图看起来协调；哪种配色看起来合理心里跟明镜似的，
qq空间刷评论工具换个号韩国红果果 JavaScript
var a=document.getElementsByClassName('textinput'); var b=[]; for(var m=0;m<a.length;m++){ if(a[m].getAttribute('placeholder')!=null) b.push(a[m]) } var l
S2SH整合之session 灵静志远 spring AOP struts session
错误信息： Caused by: org.springframework.beans.factory.BeanCreationException: Error creating bean with name 'cartService': Scope 'session' is not active for the current thread; consider defining a scoped
xmp标签 a-john 标签
今天在处理数据的显示上遇到一个问题： var html = '<li><div class="pl-nr"><span class="user-name">' + user + '</span>' + text + '</div></li>'; ulComme
Ajax的常用技巧（2）---实现Web页面中的级联菜单 aijuans Ajax
在网络上显示数据，往往只显示数据中的一部分信息，如文章标题，产品名称等。如果浏览器要查看所有信息，只需点击相关链接即可。在web技术中，可以采用级联菜单完成上述操作。根据用户的选择，动态展开，并显示出对应选项子菜单的内容。在传统的web实现方式中，一般是在页面初始化时动态获取到服务端数据库中对应的所有子菜单中的信息，放置到页面中对应的位置，然后再结合CSS层叠样式表动态控制对应子菜单的显示或者隐
天-安-门，好高 atongyeye 情感
我是85后，北漂一族，之前房租1100，因为租房合同到期，再续，房租就要涨150。最近网上新闻，地铁也要涨价。算了一下，涨价之后，每次坐地铁由原来2块变成6块。仅坐地铁费用，一个月就要涨200。内心苦痛。晚上躺在床上一个人想了很久，很久。我生在农
android 动画百合不是茶 android 透明度平移缩放旋转
android的动画有两种 tween动画和Frame动画 tween动画;,透明度,缩放,旋转,平移效果 Animation 动画 AlphaAnimation 渐变透明度 RotateAnimation 画面旋转 ScaleAnimation 渐变尺寸缩放 TranslateAnimation 位置移动 Animation
查看本机网络信息的cmd脚本 bijian1013 cmd
@echo 您的用户名是：%USERDOMAIN%\%username%>"%userprofile%\网络参数.txt" @echo 您的机器名是：%COMPUTERNAME%>>"%userprofile%\网络参数.txt" @echo ___________________>>"%userprofile%\
plsql 清除登录过的用户征客丶 plsql
tools---preferences----logon history---history 把你想要删除的删除 -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一起进步。 email ： binary_spac
【Pig一】Pig入门 bit1129 pig
Pig安装 1.下载pig wget http://mirror.bit.edu.cn/apache/pig/pig-0.14.0/pig-0.14.0.tar.gz 2. 解压配置环境变量如果Pig使用Map/Reduce模式，那么需要在环境变量中，配置HADOOP_HOME环境变量 expor
Java 线程同步几种方式 BlueSkator volatile synchronized ThredLocal ReenTranLock Concurrent
为何要使用同步？ java允许多线程并发控制，当多个线程同时操作一个可共享的资源变量时（如数据的增删改查），将会导致数据不准确，相互之间产生冲突，因此加入同步锁以避免在该线程没有完成操作之前，被其他线程的调用，从而保证了该变量的唯一性和准确性。 1.同步方法&
StringUtils判断字符串是否为空的方法（转帖） BreakingBad null StringUtils “”
转帖地址：http://www.cnblogs.com/shangxiaofei/p/4313111.html public static boolean isEmpty(String str) 　　判断某字符串是否为空，为空的标准是 str== null 或 str.length()== 0
编程之美-分层遍历二叉树 bylijinnan java 数据结构算法编程之美
import java.util.ArrayList; import java.util.LinkedList; import java.util.List; public class LevelTraverseBinaryTree { /** * 编程之美分层遍历二叉树 * 之前已经用队列实现过二叉树的层次遍历，但这次要求输出换行，因此要
jquery取值和ajax提交复习记录 chengxuyuancsdn jquery取值 ajax提交
// 取值 // alert($("input[name='username']").val()); // alert($("input[name='password']").val()); // alert($("input[name='sex']:checked").val()); // alert($("
推荐国产工作流引擎嵌入式公式语法解析器-IK Expression comsci java 应用服务器工作 Excel 嵌入式
这个开源软件包是国内的一位高手自行研制开发的，正如他所说的一样，我觉得它可以使一个工作流引擎上一个台阶。。。。。。欢迎大家使用，并提出意见和建议。。。 ----------转帖--------------------------------------------------- IK Expression是一个开源的（OpenSource），可扩展的（Extensible），基于java语言
关于系统中使用多个PropertyPlaceholderConfigurer的配置及PropertyOverrideConfigurer daizj spring
1、PropertyPlaceholderConfigurer Spring中PropertyPlaceholderConfigurer这个类，它是用来解析Java Properties属性文件值，并提供在spring配置期间替换使用属性值。接下来让我们逐渐的深入其配置。基本的使用方法是：(1) <bean id="propertyConfigurerForWZ&q
二叉树:二叉搜索树 dieslrae 二叉树
所谓二叉树,就是一个节点最多只能有两个子节点,而二叉搜索树就是一个经典并简单的二叉树.规则是一个节点的左子节点一定比自己小,右子节点一定大于等于自己(当然也可以反过来).在树基本平衡的时候插入,搜索和删除速度都很快,时间复杂度为O(logN).但是,如果插入的是有序的数据,那效率就会变成O(N),在这个时候,树其实变成了一个链表. tree代码:
C语言字符串函数大全 dcj3sjt126com c function
C语言字符串函数大全函数名: stpcpy 功能: 拷贝一个字符串到另一个用法: char *stpcpy(char *destin, char *source); 程序例: #include <stdio.h> #include <string.h> int main
友盟统计页面技巧 dcj3sjt126com 技巧
在基类调用就可以了, 基类ViewController示例代码 -(void)viewWillAppear:(BOOL)animated { [super viewWillAppear:animated]; [MobClick beginLogPageView:[NSString stringWithFormat:@"%@",self.class]];
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法 flyvszhb java jdk
window下在同一台机器上安装多个版本jdk，修改环境变量不生效问题处理办法本机已经安装了jdk1.7，而比较早期的项目需要依赖jdk1.6，于是同时在本机安装了jdk1.6和jdk1.7. 安装jdk1.6前，执行java -version得到 C:\Users\liuxiang2>java -version java version "1.7.0_21&quo
Java在创建子类对象的同时会不会创建父类对象 happyqing java 创建子类对象父类对象
1.在thingking in java 的第四版第六章中明确的说了，子类对象中封装了父类对象， 2."When you create an object of the derived class, it contains within it a subobject of the base class. This subobject is the sam
跟我学spring3 目录贴及电子书下载 jinnianshilongnian spring
一、《跟我学spring3》电子书下载地址：《跟我学spring3》（1-7 和 8-13） http://jinnianshilongnian.iteye.com/blog/pdf 跟我学spring3系列 word原版下载二、源代码下载最新依
第12章 Ajax（上） onestopweb Ajax
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
BI and EIM 4.0 at a glance blueoxygen BO
http://www.sap.com/corporate-en/press.epx?PressID=14787 有机会研究下EIM家族的两个新产品~~~~ New features of the 4.0 releases of BI and EIM solutions include: Real-time in-memory computing –
Java线程中yield与join方法的区别 tomcat_oracle java
长期以来，多线程问题颇为受到面试官的青睐。虽然我个人认为我们当中很少有人能真正获得机会开发复杂的多线程应用(在过去的七年中，我得到了一个机会)，但是理解多线程对增加你的信心很有用。之前，我讨论了一个wait()和sleep()方法区别的问题，这一次，我将会讨论join()和yield()方法的区别。坦白的说，实际上我并没有用过其中任何一个方法，所以，如果你感觉有不恰当的地方，请提出讨论。 &nb
android Manifest.xml选项阿尔萨斯 Manifest
结构继承关系 public final class Manifest extends Objectjava.lang.Objectandroid.Manifest 内部类 class Manifest.permission权限 class Manifest.permission_group权限组构造函数 public Manifest () 详细 androi
Oracle实现类split函数的方 zhaoshijie oracle
关键字：Oracle实现类split函数的方项目里需要保存结构数据，批量传到后他进行保存，为了减小数据量，子集拼装的格式，使用存储过程进行保存。保存的过程中需要对数据解析。但是oracle没有Java中split类似的函数。从网上找了一个，也补全了一下。 CREATE OR REPLACE TYPE t_split_100 IS TABLE OF VARCHAR2(100); cr