红黑树的落叶

【数据库基础】4. 查询执行

查询处理概述

查询处理的步骤如下：

查询处理可以大概分为三个部分：

语法分析与翻译
查询优化
查询执行

执行代价的度量

设计查询执行方案之前，我们必须能度量一个查询执行方案的代价

在大型数据库系统中，在磁盘上存取数据的代价是查询执行的主要代价，因为比起内存操作，磁盘存取速度很慢

代码在 CPU 中执行也需要时间，但只要 CPU 的运算次数不算太多，CPU 时间相比于 I/O 耗时就可以忽略

在磁盘上存取数据可以分为寻道和数据传输两个步骤，因此我们可以用寻道的次数和传输的块数来度量一个执行方案的代价，我们用 $t_s$ 表示一次寻道所需的时间， $t_r$ 表示传输一个块所需的时间， $t_s$ 的典型值为 4 毫秒， $t_r$ 的典型值为 0.1 毫秒

选择运算

通用方案

最通用也是最简单的执行选择运算的方案就是：扫描整个关系，对于扫描到的每一个元组，检查它是否满足选择条件

假设一个关系有 $B$ 个块，由于整个关系都要扫描，因此磁盘传输的块数为 $B$ ，通常情况下，我们可以认为一个关系保存在一个文件中，关系的每个块在物理地址上是大致连续的，因此我们只需要在扫描开始的时候寻道一次

等值条件

当选择条件仅为在某个属性或属性集上取特定的值时，我们可能有比扫描整个关系更快的方案

主索引

若关系在对应属性或属性集上有主索引，那么选择的效率会大大提升，借助主索引，可以定位到所有满足等值条件的元组，并且在这种情况下，这些元组一定存储在文件的连续的块中，假设这些元组存放在文件中连续的 $b$ 个块上，检索一次索引需要的块访问次数为 $h$ ，则磁盘传输的块数为 $b + h$ ，寻道次数为 $h + 1$ ，通常情况下 $h$ 不会很大，相比于扫描整个关系，该方案主要减少了磁盘传输的块数

当然，如果关系在对应属性或属性集上仅组织成顺序文件，而没有创建索引，也可以用二分搜索代替主索引定位满足等值条件的元组

辅助索引

若关系在对应属性或属性集上有辅助索引，则显然要考虑如何利用辅助索引，和主索引不同，利用辅助索引虽然也可以定位到所有满足等值条件的元组，但这些元组可能分布在文件的各个块中，假设共有 $n$ 个元组满足选择条件，检索一次索引需要的块访问次数为 $h$ ，则在最坏的情况下，这 $n$ 个元组所在的块各不相同，需要磁盘传输 $n + h$ 块，每传输一个块，就可能需要一次寻道，最坏情况下需要寻道 $n + h$ 次

从上面的分析可以看出，如果满足等值条件的元组比较少，那么使用辅助索引就是值得的，否则使用辅助索引甚至还不如扫描整个关系的方案

范围条件

类似于等值条件，当选择条件为在某个属性或属性集上取特定范围内的值时，也可以利用索引提升效率

主索引

如果关系在对应属性或属性集上有主索引，或虽然没有索引，但按顺序组织成了顺序文件，都可以做到和等值条件类似的加速，利用索引或二分搜索直接定位到范围的下届，然后按顺序扫描之后的元组，假设满足范围条件的元组有存放在文件中连续的 $b$ 个块上，检索一次索引需要的块访问次数为 $h$ ，则磁盘传输的块数为 $b + h$ ，寻道次数为 $h + 1$

辅助索引

如果关系在对应属性或属性集上有辅助索引，可以利用它直接定位所有满足范围条件的元组，设满足条件的元组数为 $n$ ，检索一次索引需要的块访问次数为 $h$ ，最坏情况下需要磁盘传输 $n + h$ 个块，寻道 $n + h$ 次

和等值条件一样，只有在满足范围条件的元组较少的情况下，使用辅助索引才能加速选择运算

合取

实际应用中，选择条件不一定只有一个，可能会由若干个条件组成一个复合条件，当一个复合条件是若干个等值条件或范围条件的合取时，可以考虑利用索引进行加速

一维索引

一维索引是指以单个属性作为搜索码的索引，若当前的选择条件是若干个等值条件或范围条件的合取，假设其中某一个条件 $\theta$ 对应的属性为 $a$ ，并且关系上有一个属性 $a$ 上的一维索引，则我们可以借助该索引筛选出满足条件 $\theta$ 的全部元组，每筛选出一个满足条件 $\theta$ 的元组，我们再检测其是否满足其它条件

执行该方案的代价约等于借助索引筛选出满足条件 $\theta$ 的全部元组的代价，如果有多个一维索引满足条件，则优化器在制定执行计划之前需要先估算使用哪个一维索引筛选元组代价更小

高维索引

虽然我们之前讨论的 B+ 树索引和散列索引都是一维索引，但高维索引也是存在的，设 $a_1,a_2, \cdots ,a_n$ 是组成复合条件的若干个等值条件或范围条件所对应的全部属性，若关系上存在一个在属性集 $a_1,a_2, \cdots ,a_n$ 上的高维索引，则可以借助该高维索引直接定位满足所有等值条件和范围条件的元组

多个一维索引

如果组成复合条件的等值条件或范围条件中，绝大部分条件对应的属性上有一维索引，则可以分别利用这些索引，找到指向满足对应条件的元组的指针集合，再对所有的指针集合求交

对指针集合求交很简单，只需要对所有指针集合中的所有指针排序，然后只保留出现次数等于指针集合数的那些指针

如果组成复合条件的所有条件对应的属性上都有索引，那么运算至此就执行完毕了，但如果还有少部分条件对应的属性上没有索引，我们还需要访问我们刚刚求交得到的所有指针，检测其指向的元组是否满足剩下的少部分条件，由于在求交的过程中我们就给所有指针排好序了，因此我们访问指针的顺序和它们指向的元组在文件中的顺序一致

析取

当一个复合条件是若干个等值条件或范围条件的析取，也可以考虑用索引进行加速

多个一维索引

只有组成复合条件的所有条件对应的属性上有一维索引，我们才有可能借助索引加速，分别利用这些索引，找到指向满足对应条件的元组的指针集合，再对指针集合求并即可

指针集合求并也很简单，只需要给所有集合中的所有指针排序并去重

设 $\theta_1 , \theta_2, \cdots , \theta_n$ 表示组成复合条件的所有条件， $m_1,m_2, \cdots ,m_n$ 分别表示满足 $\theta_1 , \theta_2, \cdots , \theta_n$ 的元组个数，如果 $\sum_{i=1}^nm_i$ 比较大，则该方案可能还不如扫描整个关系的通用方案

在组成复合条件的所有关系中，只要有一个条件对应的属性上没有索引，我们就应该使用扫描整个关系的通用方案，因为为了检测那个对应属性上没有索引的条件，我们必须扫描整个关系

排序

排序按待排序的元组能否全部装入内存中可以分成内部排序和外部排序，数据库系统中大多数排序是外部排序

排序的原因有两个：

SQL 查询可能要求查询结果按某种顺序排序
事先将关系排序可以加速某些操作

外部归并排序算法

外部归并排序算法是最常见的外部排序算法之一，假设内存给排序分配了 $M$ 个块的空间，此外还分配了一个块作为输出的缓冲区

外部归并排序算法分为两步：创建归并段、对归并段进行归并

算法第一步要将关系划分成若干个可以存放在内存中的归并段，并将每个归并段内部排好序，之后将每个排好序的归并段都以文件的形式写回磁盘中，通常情况下归并段越少越好，因此归并段的大小一般是 $M$ 个块，刚好能存放在内存中，除非划分到最后一个归并段时，剩余的数据不足 $M$ 个块

算法第二步就是对归并段进行归并，首先将磁盘中的归并段读入内存，不过不是一下子将某个归并段全部读入，而是将多个归并段各读一块进入内存，一般情况下我们一次将 $M$ 个归并块各读一块进入内存（除非剩余归并段数量不足），之后开始对读入的这些归并段进行多路归并，当某个归并段被读入内存的所有元组全部被归并完之后，就再从磁盘中将该归并段的下一块读入内存

归并结束后，我们就得到一个新的归并段，我们把新归并段写到磁盘中，然后继续归并旧的归并段，当所有旧归并段被归并完之后，我们重复算法的第二步，只不过被归并的是新归并段，我们一直重复算法第二步，直到最新产生的归并段只有一个为止

外部归并排序的代价

创建归并段的代价很好计算，设关系总共有 $B$ 个块，则我们一共会创建 $\lceil \frac{B}{M} \rceil$ 个归并段，每个归并段需读写各一次，因此创建归并段时，读写操作会交叉进行，每次读写之前都需要寻道，寻道次数为 $\lceil \frac{B}{M} \rceil$ ，所有归并段中包含关系的所有的块，因此磁盘传输块数为 $2 B$

对归并段进行归并时，该步骤会重复若干次，由于每重复一次，归并段的数量就会变成原来的 $\frac{1}{M}$ ，因此可以计算出，该步骤重复的次数为 $\log_{M}{\frac{B}{M}}$

每执行一次第二步，我们会将关系的所有块都读写一次，并且读操作并不是连续的，中间会夹杂着写操作，最坏情况下，读操作完全不连续，每次读写之前都需要寻道，寻道次数为 $2 B$ ，磁盘传输的块数显然也是 $2 B$

因此，最坏情况下，外部归并排序的总代价为：磁盘传输 $\log_{M}{\frac{B}{M}})$ 块，寻道 $\lceil \frac{B}{M} \rceil +2B \log_{M}{\frac{B}{M}}$ 次

连接运算

通用方案

嵌套循环连接（nested-loop join）

最通用最简单的执行连接运算的方案就是用一个二重循环，我们将两个待连接的关系其中之一指定为外层关系，另一个指定为内层关系，我们在外层循环中遍历外层关系，每遍历到一个外层关系的元组，就在内层循环中遍历一次内层关系，检测内层关系中的每个元组和当前遍历到的外层关系元组是否满足连接条件

假设两个待连接关系都在内存中存放不下，这就导致每次在内层循环中遍历内层关系时，我们都必须重新从磁盘中读取一次内层关系，设外层关系的元组数为 $n$ ，块数为 $B_1$ ，内层关系的块数为 $B_2$ ，则磁盘传输块数为 $B_1+n \cdot B_2$ ，至于寻道次数，每次遍历内层关系之前肯定要寻道，而遍历外层关系时，虽然读取的外层关系的块在物理位置上连续，但遍历外层关系的过程中，磁头会因为要遍历内层关系而移走，因此每读取外层关系的一块，就需要寻道一次，总寻道次数为 $n+B_1$

当两个关系中至少有一个关系可以完整地存放在内存中时，效率会大有改观，首先我们指定那个能被完整地存放在内存中的关系为内层关系，并在执行连接之前，将其完整地读入内存中，之后我们的 I/O 操作就只剩下读入外层关系的所有块，这时在遍历外层关系的时候，磁头不会再像之前那样移走，因此磁盘传输块数为 $B_1+B_2$ ，寻道次数为两次

当两个关系中至少有一个可以完整地存放在内存中时，嵌套循环连接的效率达到连接运算的最佳效率，因为不管使用何种方案处理连接运算，都至少需要将待连接的两个关系各遍历一次，而嵌套循环连接在这种情况下的代价刚好等于将两个关系各遍历一次的代价

块嵌套循环连接（block nested-loop join）

嵌套循环连接可以进行改进，在嵌套循环连接中，每次遍历内层关系，只检测内层关系的元组和一个外层关系元组是否满足连接条件，如果可以检测每个内层关系元组和很多外层关系元组中的每个是否满足连接条件，就能减少内层关系的遍历次数

假设内存最多给外层关系分配 $M$ 个块的空间，那么每次就读入外层关系的 $M$ 块，然后遍历内层关系，检测每个内层关系元组和这 $M$ 块外层关系中的每个元组是否满足连接条件，这样磁盘传输块数变为 $B_1+ \lceil \frac{B_1}{M} \rceil \cdot B_2$ ，寻道次数变为 $\lceil \frac{B_1}{M} \rceil$

从代价分析可以看出，当两个关系都在内存中村放不下时，将块数更少的关系指定为外层关系能使效率更高

等值连接

等值连接（包括自然连接）一般有一些专用的方案

索引嵌套循环连接（indexed nested-loop join）

若待连接的两个关系中有一个关系在等值连接对应的属性上有索引，那么可以指定这个关系为内层关系，这样对于一个外层关系元组，寻找和它符合连接条件的内层关系元组时就不需要再遍历内层关系了，而是可以利用索引直接定位

若满足连接条件的元组对数目不多，索引嵌套循环连接可以大幅提升效率，尤其是在索引是主索引的情况下

不光是等值连接，只要连接条件能够借助内层关系的索引加速，都可以使用索引嵌套循环连接

归并连接（merge join）

如果待连接的两个关系都按等值连接对应的属性排序，就可以通过一次归并来找到所有满足等值条件的元组对，因为归并的过程中，等值连接对应的属性相等的元组总是会以相邻的顺序被扫描到，扫描出对应属性在某个取值上的全部元组之后，就可以开始连接了，当然，对应属性可能在某个取值上有过多的元组，导致内存存放不下，这时候将存不下的元组写到磁盘中，然后使用块嵌套循环连接即可

假设内存给两个关系各分配了 $M$ 个块的空间作为输入缓冲区，则磁盘传输块数为 $B_1+B_2$ ，寻道次数为 $\lceil \frac{B_1}{M} \rceil + \lceil \frac{B_2}{M} \rceil$ ，若对应属性在某些取值上有过多元组，导致内存存放不下，则代价会有轻微的增加

可以看出，在内存空间较为充裕时，归并连接的效率很高

混合归并连接（hybrid merge join）

归并连接要求待连接的关系都按连接对应的属性排序，若关系未按对应属性排序，一般的做法是在连接之前先进行一次排序，但如果未按对应属性排序的关系上有对应属性的 B+ 树辅助索引，我们还有其它的办法

有一棵 B+ 树索引，就意味着可以通过遍历 B+ 树的叶节点，知道所有元组在对应属性上的取值，因此我们仍然可以进行归并的过程，但遍历的不是整个关系，而是 B+ 树的叶节点，并且归并的输出结果也有所不同，利用两个关系进行归并，输出是元组对，而如果利用两棵 B+ 树归并，输出则是指针对，因为 B+ 树叶节点中只存放了指向元组的指针

最后，我们将指针对中的指针按物理地址排序，然后按照顺序依次访问其指向的元组，将指针对恢复成元组对，由于访问按照物理顺序，因此效率会非常高

混合归并连接的好处在于不需要对整个关系进行排序，而只需要对连接结果中的指针进行排序，当满足连接条件的元组对较少时，混合归并连接的效率相比于归并连接大大提升

如果我们有一个关系按照对应属性排序，而另一个没有排序，依然可以使用混合归并连接，只不过归并输出的结果是元组 — 指针对

散列连接（hash join）

利用散列也可以执行等值连接，首先找一个散列函数，可以把连接对应的属性映射到 $[1, n]$ 区间内的整数，设待连接的两个关系为 $r$ 和 $s$ ，那么就可以利用这个散列函数，将关系 $r$ 中的元组映射到 $r_1,r_2, \cdots ,r_n$ 这 $n$ 个桶中，同时将关系 $s$ 中的元组映射到 $s_1,s_2, \cdots ,s_n$ 这 $n$ 个桶中

映射完成之后，对于 $\forall i \in [1,n]$ ， $r_i$ 中的元组只可能与 $s_i$ 中的元组连接，我们只需要依次将 $r_1$ 和 $s_1$ ， $r_2$ 和 $s_2$ ， $\cdots$ ， $r_n$ 和 $s_n$ 读入内存，然后在内存中进行连接即可

对内存中的元组进行等值连接时，我们可以借鉴散列连接的思路，例如我们将 $r_i$ 和 $s_i$ 中全部元组已经读入内存了，我们可以在 $r_i$ 上创建一个存放在内存中的散列索引，然后对于 $s_i$ 中每一个元组，可以直接在散列索引中检索所有对应属性上和其相等的 $r_i$ 中的元组，当然，我们给 $r_i$ 创建的散列索引所用的散列函数一定要和之前用来划分关系 $r$ 和 $s$ 的散列函数不同

目前还存在着一个问题，对于 $\forall i \in [1,n]$ ，我们必须要能将 $r_i$ 和 $s_i$ 完整地存放在内存中，同时还需要一些内存空间来存放散列索引，所以内存空间有可能不足，这时候我们有两个解决办法

第一个解决办法就是，如果 $\exist i \in [1,n]$ ，使得 $r_i$ 和 $s_i$ 无法完整地存放在内存中，我们就递归地用散列函数将 $r_i$ 和 $s_i$ 中的元组映射到更多的桶中，当然，这个散列函数必须和之前的散列函数不同

第一个解决方法并不万能，因为可能会存在某种取值，取这种取值的元组特别多，内存存放不下，这时无论怎样递归地将元组映射到更多的桶中，总会存在一对内存存放不下的 $r_i$ 和 $s_i$ ，遇到这种情况时，我们干脆就保留这对内存存放不下的 $r_i$ 和 $s_i$ ，将它们写入磁盘中，然后使用块嵌套循环连接来处理它们

假设所有的 $r_i$ 和 $s_i$ 都能完整地存放在内存中，我们来分析散列连接的代价，设内存可以给关系 $r$ 和 $s$ 各分配 $M$ 个块的空间作为输入缓冲区，同时给每个桶分配 $M$ 个块的空间作为输出缓冲区

一开始用散列函数划分关系 $r$ 和 $s$ 时，先得把两个关系的所有块各读入内存一次，然后我们需要把所有桶的所有块写入磁盘，桶中存放的是两个关系中的全部元组，但所有桶的块之和要略大于 $B_1+B_2$ ，因为每个桶可能会有一个不满的块，简单起见，我们忽略这个误差，最后我们还要将所有桶各读入内存一遍，因此磁盘传输的块数约为 $3(B_1+B_2)$

由于输入缓冲区和输出缓冲区的大小都是 $M$ 个块，因此我们在用散列函数划分关系 $r$ 和 $s$ 时，需要寻道 $\lceil \frac{B_1}{M} \rceil + \lceil \frac{B_2}{M} \rceil )$ 次，最后我们还要将所有桶各读入内存一次，因为一个桶的所有块的地址是连续的，因此一个桶只需要寻道一次，总寻道次数为 $\lceil \frac{B_1}{M} \rceil + \lceil \frac{B_2}{M} \rceil +n)$

可以看出，类似于归并连接，散列连接也拥有非常高的效率，并且不需要待连接的关系按对应属性排序，因此如果待连接的关系是无序的，通常采用散列连接

复杂连接

连接的条件并不一定是一个，有时会是多个条件的合取或析取

合取

如果连接的条件是多个条件的合取，可以先只考虑某一个条件，按前面的方案找出所有满足这个条件的元组对，最后再检查这些元组对是否满足其它条件

先考虑哪个条件是有讲究的，要使满足该条件的元组对尽可能少，同时，最好有一个效率较高的方案能够找出所有满足这个条件的元组对，比如归并连接或散列连接

析取

如果连接的条件是多个条件的析取，可以依次考虑每个条件，分别找出所有满足当前条件的元组对，最后对找到的所有元组对集合求并集，就能得到结果，之后会讲如何求集合的并，不过在很多情况下，这种方案的效率还不如通用的块嵌套循环连接

其它运算

去重

对于一个已经排好序的关系去重十分简单，只需要按顺序扫描整个关系，然后比较每个元组和前一个元组是否在所有属性上取值都相等，如果都相等，则删除该元组，否则保留该元组

如果一个关系并没有排序，可以考虑先对其进行排序，然后再去重，但这样可能会比较慢，更有效率的做法是，首先使用一个散列函数将关系中的元组映射到不同的桶中，然后依次将每个桶读入内存，在内存中使用另一个散列函数为该桶创建散列索引，在创建散列索引时，只插入未在索引中出现过的元组，如果索引中已经存在和待插入元组相同的元组，则待插入的元组被抛弃，最后，将散列索引中的元组写到结果中

集合运算

一个关系可以视为元组的集合，因此可以对关系进行集合运算，但前提是进行集合运算的关系的模式必须相同

如果两个关系都按同一属性或属性集排序，可以稍微修改一下归并的过程，从而实现集合运算，如果我们要求集合并，在归并中扫描到相同的元组时，只保留一个，如果求集合交，只保留两个关系中同时出现的元组，如果求集合差，只保留一个关系中出现，而另一个关系中不出现的元组

当然，要求两个关系按同一属性或属性集排序有些过于苛刻，当这个条件不满足时，我们可以选择利用散列，假设将要对关系 $r$ 和 $s$ 进行集合运算， $r_1,r_2, \cdots ,r_n$ 和 $s_1,s_2, \cdots ,s_n$ 都是桶，首先用同一个散列函数，将关系 $r$ 中的元组映射到 $r_1,r_2, \cdots ,r_n$ 中，将关系 $s$ 中的元组映射到 $s_1,s_2, \cdots ,s_n$ 中

之后依次将 $r_1$ 和 $s_1$ ， $r_2$ 和 $s_2$ ， $r_n$ 和 $s_n$ 读入内存中，假设当前已经将 $r_i$ 和 $s_i$ 读入内存，直接在内存中为 $r_i$ 建立散列索引，当然散列函数和之前用于划分关系 $r$ 和 $s$ 的散列函数不同，然后我们根据集合运算的不同执行不同的操作

若我们要求集合并，则对于 $s_i$ 中的元组，如果其不在散列索引中，将其加入散列索引，最后将散列索引中的元组写入结果中

若我们要求集合交，则对于 $s_i$ 中的元组，如果其在散列索引中，将其写入结果中

若我们要求集合差 $r - s$ ，则对于 $s_i$ 中的元组，如果其在散列索引中，则从散列索引中将其删去，最后将散列索引中的元组写入结果中

外连接

最通用的处理外连接的方法是，先计算对应的内连接，将连接结果保存起来，然后通过集合差运算求出外连接相比于内连接的额外元组，将额外的元组写入结果中

当外连接的连接条件是等值条件时，可以略微修改归并连接或散列连接的方案，来执行外连接

聚集

聚集的执行方案可以通过略微修改去重的方案得来，在对聚集属性去重的过程中，我们可以把在聚集属性上取值相同的元组放在一起处理，从而统计出聚集函数的值

你可能感兴趣的:(数据库)

mysql中如何去除重复数据_Mysql如何去掉数据库中重复记录？ Leung Rick mysql中如何去除重复数据
对于常规的MySQL数据表中可能存在重复的数据，有些情况是允许重复数据的存在，有些情况是不允许的，这个时候我们就需要查找并删除这些重复数据，以下是具体的处理方法！方法一：防止表中出现重复数据当表中未添加数据时，可以在MySQL数据表中设置指定的字段为PRIMARYKEY(主键)或者UNIQUE(唯一)索引来保证数据的唯一性。例如在学生信息表中学号no不允许重复，需设置学号no为主键，且默认值不能为
ios-数据库-事务 -FIGHTING- iOS 封装数据库事务回滚存储
概念事务(Transaction)是访问并可能更新数据库中各种数据项的一个程序执行单元(unit)。事务通常由高级数据库操纵语言或编程语言（如SQL，C++或Java）书写的用户程序的执行所引起，并用形如begintransaction和endtransaction语句（或函数调用）来界定。事务由事务开始(begintransaction)和事务结束(endtransaction)之间执行的全体操
C#同步两个数据库中两张表的数据 thetwodan C#数据库 c#开发语言
从Mysql两个数据库中同步表数据先上需要的实体类publicclassServerConnectInfo{publicstringSERVER{get;set;}publicstringDATABASE{get;set;}publicstringUID{get;set;}publicstringPWD{get;set;}}用到的方法publicstaticvoidSynchronizationT
数据类型 NVARCHAR2 与 VARCHAR2 的对比文牧之达梦 oracle oracle 数据库达梦运维
数据类型NVARCHAR2与VARCHAR2的对比在数据库系统中，字符数据类型是用于存储文本数据的关键部分。在达梦数据库（DMDatabase）以及许多其他关系数据库管理系统（例如Oracle），常见的字符数据类型有NVARCHAR2和VARCHAR2。它们在存储和处理文本数据方面有不同的特点和用途。NVARCHAR2与VARCHAR2的对比基本定义VARCHAR2用于存储可变长度的字符数据。数据
一本读懂数据库发展史的书人邮异步社区数据库
数据库及其存储技术，一直以来都是基础软件的主力。数据库系统的操作接口标准，也是应用型软件的重要接口，关系重大。作为最“有感”的系统软件，数据库的历史悠久、品类繁多、创新活跃。对数据库历史发展的介绍，有利于新一代技术人员的学习和传承；对未来演进的探究，有利于数据库开发者的思考和实践。如果想对当今数据库体系有一个深入的了解，最好学习一下数据库的发展史。这对于在我们脑海里建立数据库体系的知识大厦大有助益
虚拟机安装hadoop，hbase（单机伪集群模式）流~星~雨大数据相关 hadoop hbase 大数据
虚拟机安装Hadoop，Hbase工作中遇到了大数据方面的一些技术栈，没有退路可言，只能去学习掌握它，就像当初做爬虫一样（虽然很简单），在数据爆发的现在，传统的数据库mysql，oracle显然在处理大数据量级的数据时显得力不从心，所以有些特定的业务需要引进能够处理大数据量的数据库，hadoop提供了分布式文件系统（HDFS）来存储数据，又提供了分布式计算框架（mapreduce）来对这些数据进行
hive中的数据同步到hbase 流~星~雨大数据相关 hive hbase hadoop
hive中的数据同步到hbase工作中遇到了这个工作，就是将hive中的数据同步到hbase中，然后java通过hbase相关的API来访问hbase中的数据。关于hadoop，hive，hbase这三个技术栈我写了两篇博客简单的分享了我对这三个技术栈的一些看法，在我目前的认知里，hadoop提供hdfs这个组件来存储大数据量的数据（相比于mysql，oracle这些关系型数据库），然后提供了Ma
数据库-事务青山^ oracle 数据库
目录一、定义二、特性1.原子性（Atomicity）2.一致性（Consistency）3.隔离性（Isolation）4.持久性（Durability）三、类型四、应用场景五、事务控制六、注意事项一、定义MySQL中的事务（Transaction）是数据库管理系统执行过程中的一个逻辑单位，由一个或多个SQL语句组成，这些语句作为一个整体一起向系统提交，要么全部执行，要么全部不执行，即事务具有不可
MySQL中如何删除重复数据？ nihui123 数据库 mysql 数据库
在MySQL中删除重复数据是一个常见的需求，特别是在处理大型数据库时。删除重复数据可以通过多种方式实现，具体方法取决于你的具体需求和数据库的结构。以下是一些常见的方法。使用DELETE语句和临时表如果你想要删除完全重复的行（即所有列的值都相同），你可以使用以下步骤：创建一个临时表，包含唯一记录。从原表中删除所有记录。将唯一记录从临时表插入回原表。CREATETABLEtemp_tableASS
javaweb基于ssm框架校园即时服务平台管理系统设计与实现 ancen_73bd
1、项目介绍系统开发平台：JDK1.8+Windows7+Maven3.6.1开发语言：Java后台框架：SSM前端：layui数据库：MySql5.7Navicat开发环境：IntellijIdea浏览器：Chrome或360浏览器本系统分为两个用户：学生、管理员。学生：可以发布任务、已接受任务、已发布任务、资料修改管理员：可以对用户进行管理、任务的管理、安全设置管理2、项目技术后端框架：SSM
MySQL 实现模糊匹配 flying jiang 架构设计数据库 mysql 数据库
摘要：在不依赖Elasticsearch等外部搜索引擎的情况下，您依然能够充分利用MySQL数据库内置的LIKE和REGEXP操作符来实现高效的模糊匹配功能。针对更为复杂的搜索需求，尤其是在处理大型数据集时，结合使用IK分词器（虽然IK分词器本身主要用于中文分词，在Elasticsearch等搜索引擎中广泛应用，但可以通过一些创造性的方法间接应用于MySQL环境）可以显著提升搜索的准确性和效率。正
HBase体系架构与环境搭建无奈ieq HBase hbase 架构数据库
这里写目录标题一、常见的NoSQL数据库二、HBase的体系架构和表结构三、搭建HBasa环境1.本地模式2.伪分布模式全分布模式HA模式一、常见的NoSQL数据库NoSQL数据库的说明与定义NoSQL是一种不同于关系数据库的数据库管理系统设计方式，是对非关系型数据库的统称。它不依赖于业务逻辑来存储有关联的数据，而是以键值对、列族、文档、图形等非关系模型的形式进行数据存储。分类NoSQL数据库通常
MySQL锁表解决方案 user__kk 知识点数据库 mysql 数据库
步骤1.查询进程(showfullprocesslist;)showprocesslist;id#ID标识，要kill一个语句的时候很有用use#当前连接用户host#显示这个连接从哪个ip的哪个端口上发出db#数据库名command#连接状态，一般是休眠（sleep），查询（query），连接（connect）time#连接持续时间，单位是秒state#显示当前sql语句的状态info#显示这个
达梦数据库-创建表空间爱码农的小婷数据库
语法格式[][];其中，各子句具体语法如下：::=DATAFILE{,}::=[MIRROR]SIZE[]::=AUTOEXTEND每次扩展大小子句>][|OFF>::=NEXT::=MAXSIZE::=CACHE=::=ENCRYPTWITHBY语法格式中的各项参数的详细说明应用举例创建一个名为EXAMPLE的表空间，包含一个数据文件EXAMPLE.DBF，初始大小为128MB。SQL>CREA
工厂模式 778778
定义将创建对象的动作统一管理,根据不同的需求提供给使用者不同的对象比如说在数据库的连接中,有多种不同的数据产品,java在连接每种产品时的所要求的步骤都是不一样的,那么程序员在开发的时候就需要非常熟悉每种产品的连接步骤.同时,每种产品的连接步骤有些是相同的,如果我们将这些产品的连接步骤写到一个类中去,形成一个工厂类,那么我们在创建连接的时候就可以直接调用工厂类获取连接对象就可以了.程序员从原来的需
python graphql_django使用graphql的实例 weixin_39921224 python graphql
一、开发环境1、python3.63、window10二、项目搭建1、创建一个虚拟空间mkvirtualenv空间名2、创建一个django项目3、安装graphql的依赖包pipinstallgraphene-django4、创建一个组件blog5、把组件blog及graphene_django注入到app中6、在settings.py中配置mysql数据库连接三、书写blog的内容1、在mod
这几个高级爬虫软件和插件真的强！ @Python大数据分析爬虫
亮数据（BrightData）亮数据是一款强大的数据采集工具，以其全球代理IP网络和强大数据采集技术而闻名。它能够轻松采集各种网页数据，包括产品信息、价格、评论和社交媒体数据等。网站：https://get.brightdata.com/weijun功能与特点：全球网络数据采集：提供一站式服务，将全网数据转化为结构化数据库。商用代理网络：拥有超过7200万个IP，覆盖195个国家，每日更新上百万I
Mysql 查询数据库或数据表中的数据量以及数据大小_mysql 获取查询记录的数据大小 m0_74932057 程序员 mysql 数据库
许多数据库的元数据都是存储在mysql中的，例如hive、startrockes，因此可以通过mysql中的“information_schema.TABLES”表来查询对应数据库或对应数据表的具体信息。1、查询各个数据库中的数据条数和数据大小SELECTTABLE_SCHEMAAS'数据库',sum(table_rows)AS'记录数',sum(TRUNCATE(data_length/1024
【MySQL数据库管理问答题】第5章监控 MySQL summer.335 MySQL数据库管理问答题 MySQL 数据库 mysql
目录1.MySQL服务器都提供了哪几种类型的日志文件？说明每种日志的用途。2.MySQL8.0默认启用哪两种日志记录？3.请说明常规查询日志和慢速查询日志在记录的内容上有何不同。4.如何配置才能将慢速查询日志和常规查询日志在文件和表里同时保存？5.从DBA的角度，谈一下使用Performanceschema的目的或作用？6.Performanceschema中的顶级检测组件都有哪些？7.请谈一下M
树数据结构（Tree Data Structures）的全面指南：深度解析、算法实战与应用案例 Chauvin912 数据结构科普数据结构算法
树数据结构（TreeDataStructures）的全面指南：深度解析、算法实战与应用案例引言树数据结构（TreeDataStructures）作为计算机科学中的基石之一，以其独特的层次结构和分支特性，在众多领域发挥着关键作用。从文件系统的组织到数据库的索引，从编译原理的语法分析到人工智能的决策制定，树数据结构无处不在。本文将深入探讨树数据结构的基本概念、类型、遍历方式及其在实际应用中的广泛案例。
Java面试题：讨论SQL注入攻击的原理，以及如何通过预处理语句来防止杰哥在此 Java系列 java 开发语言面试编程
SQL注入攻击是一种常见的网络攻击手段，攻击者通过将恶意的SQL代码插入到应用程序的输入字段，从而执行未授权的SQL命令。这种攻击的原理主要基于应用程序在处理用户输入时未对输入进行充分的验证和过滤，导致用户输入被直接拼接到SQL查询中执行。SQL注入攻击的原理用户输入未验证：应用程序直接将用户输入拼接到SQL查询中。构造恶意SQL：攻击者在输入中插入恶意SQL代码。执行恶意SQL：数据库服务器执行
Python知识点：如何使用HBase与HappyBase进行分布式存储杰哥在此 Python系列分布式 python hbase 编程面试
使用HBase与HappyBase进行分布式存储是处理大规模数据的有效方式。HBase是一个基于Hadoop的开源分布式数据库，可以处理非常大的表。HappyBase是一个Python库，它提供了一个友好的接口来与HBase交互。以下是详细的步骤：1.安装HBase和HappyBase安装HBase首先，确保你已经安装并配置好HBase。你可以通过以下步骤安装HBase：下载HBase：Apach
ASP.NET Core 入门教学四集成Redis 充值内卷 asp.net redis 后端
一、前言Redis是一个开源的、基于内存的数据结构存储系统，可以用作数据库、缓存和消息代理。ASP.NETCore与Redis结合使用，可以极大地提高应用程序的性能和响应速度。二、安装Redis首先，确保你已经在本地或服务器上安装了Redis。你可以从Redis官网下载并安装。三、安装.NETCoreSDK和Redis客户端库在你的ASP.NETCore项目中，安装以下NuGet包：dotneta
Ubuntu 24.04部署Wordpress idiot_qi 其他工具 ubuntu linux wordpress
环境：Ubuntu24.04PHP8.1.2-1ubuntu2.18Nginx/1.18.0(Ubuntu)WordPress6.6.1Mysql8文章目录1.安装php2.配置nginx2.1.安装nginx2.2.配置3.下载wordpress3.1.配置wordpress4.mysql配置wordpress数据库和用户4.1.安装和远程连接4.2.创建wordpress数据库和用户5.访问w
Oracle（91）如何授予权限（Grant）？辞暮尔尔-烟火年年 Oracle oracle 数据库
在Oracle数据库中，授予权限（Grant）是数据库管理员（DBA）日常工作的一部分。权限可以分为系统权限和对象权限。系统权限允许用户执行特定的数据库操作，而对象权限允许用户对特定的数据库对象（如表、视图、序列等）执行操作。系统权限vs.对象权限系统权限：与数据库级别的操作相关，例如创建会话、创建表、创建视图等。对象权限：与数据库对象相关，例如对特定表的SELECT、INSERT、UPDATE、
Gitlab迁移到新的服务器后点击Integrations报500错误的解决方法奔跑吧邓邓子常见问题解答（FAQ）gitlab 服务器 jenkins
目录一、问题描述二、解决方法1.方法12.方法2（1）备份/etc/gitlab/gitlab-secrets.json（2）进入数据库（3）查看ProjectID（4）查找hookID并删除（5）申请访问令牌并执行api删除操作一、问题描述Gitlab迁移到新的服务器后点击Integrations报500错误：查后台日志/var/log/gitlab/gitlab-rails/productio
Sqli-labs靶场第11关详解[Sqli-labs-less-11] 「已注销」 sqli-labs 数据库 web安全网络安全 mysql sql
Sqli-labs-Less-11前言：SQL注入的三个条件：①参数可控；（从参数输入就知道参数可控）②参数过滤不彻底导致恶意代码被执行；（需要在测试过程中判断）③参数带入数据库执行。（从网页功能能大致分析出是否与数据库进行交互）利用orderby来测列数测显位：mysql用1,2,3,4Mysql获取相关数据：一、数据库版本-看是否认符合information_schema查询-version(
【Redis缓存】- 入门——Redis介绍和环境搭建丛鹏
一、Redis概述1、什么是RedisRedis是一款高性能的NOSQL系列的非关系型数据库，是用C语言开发的一个开源的高性能键值对（key-value）数据库，官方提供测试数据，50个并发执行100000个请求，读的速度是110000次/s，写的速度是81000次/s，且Redis通过提供多种键值数据类型来适应不同场景下的存储需求，目前为止Redis支持的键值数据类型如下：字符串类型string
搭建服务器 Axiao89757 mysql java android
文章目录搭建服务器1.什么是服务器2.什么是云服务器3.什么是内网、外网4.上手搭建搭建服务器1.什么是服务器参考资料：什么是服务器简单认识一下：服务器指一个管理资源并为用户提供服务的计算机系统，通常分为文件服务器、数据库服务器和应用程序服务器。自己的理解：就是需要24小时开机、各方面都非常稳定、安全、高效的电脑，用来响应服务用户端的。2.什么是云服务器参考资料：云服务器是什么，有什么用？简单地认
Django 学习笔记（一）—— 快速建站 rollingstarky
Django是一个基于MVC（Model-View-Controller）模式的服务器端的Web框架，由Python语言编写。其创建之初主要是用来与关系型数据库进行交互，随着技术的不断革新，Django也逐渐融合了众多更现代的Web开发趋势。作为一个成熟的Web开发框架，Django有着众多企业级的应用，如Instagram、Pinterest、NationalGeographic等。Django
Java常用排序算法/程序员必须掌握的8大排序算法 cugfy java
分类： 1）插入排序（直接插入排序、希尔排序） 2）交换排序（冒泡排序、快速排序） 3）选择排序（直接选择排序、堆排序） 4）归并排序 5）分配排序（基数排序）所需辅助空间最多：归并排序所需辅助空间最少：堆排序平均速度最快：快速排序不稳定：快速排序，希尔排序，堆排序。先来看看8种排序之间的关系： 1.直接插入排序（1
【Spark102】Spark存储模块BlockManager剖析 bit1129 manager
Spark围绕着BlockManager构建了存储模块，包括RDD，Shuffle，Broadcast的存储都使用了BlockManager。而BlockManager在实现上是一个针对每个应用的Master/Executor结构，即Driver上BlockManager充当了Master角色，而各个Slave上(具体到应用范围，就是Executor)的BlockManager充当了Slave角色
linux 查看端口被占用情况详解 daizj linux 端口占用 netstat lsof
经常在启动一个程序会碰到端口被占用，这里讲一下怎么查看端口是否被占用，及哪个程序占用，怎么Kill掉已占用端口的程序 1、lsof -i:port port为端口号 [root@slave /data/spark-1.4.0-bin-cdh4]# lsof -i:8080 COMMAND PID USER FD TY
Hosts文件使用周凡杨 hosts locahost
一切都要从localhost说起，经常在tomcat容器起动后，访问页面时输入http://localhost:8088/index.jsp，大家都知道localhost代表本机地址，如果本机IP是10.10.134.21，那就相当于http://10.10.134.21:8088/index.jsp，有时候也会看到http: 127.0.0.1:
java excel工具 g21121 Java excel
直接上代码，一看就懂，利用的是jxl： import java.io.File; import java.io.IOException; import jxl.Cell; import jxl.Sheet; import jxl.Workbook; import jxl.read.biff.BiffException; import jxl.write.Label; import
web报表工具finereport常用函数的用法总结（数组函数）老A不折腾 finereport web报表函数总结
ADD2ARRAY ADDARRAY(array,insertArray, start):在数组第start个位置插入insertArray中的所有元素，再返回该数组。示例： ADDARRAY([3,4, 1, 5, 7], [23, 43, 22], 3)返回[3, 4, 23, 43, 22, 1, 5, 7]. ADDARRAY([3,4, 1, 5, 7], "测试&q
游戏服务器网络带宽负载计算墙头上一根草服务器
家庭所安装的4M，8M宽带。其中M是指，Mbits/S 其中要提前说明的是： 8bits = 1Byte 即8位等于1字节。我们硬盘大小50G。意思是50*1024M字节，约为 50000多字节。但是网宽是以“位”为单位的，所以，8Mbits就是1M字节。是容积体积的单位。 8Mbits/s后面的S是秒。8Mbits/s意思是每秒8M位，即每秒1M字节。我是在计算我们网络流量时想到的
我的spring学习笔记2-IoC（反向控制依赖注入） aijuans Spring 3 系列
IoC（反向控制依赖注入）这是Spring提出来了，这也是Spring一大特色。这里我不用多说，我们看Spring教程就可以了解。当然我们不用Spring也可以用IoC，下面我将介绍不用Spring的IoC。 IoC不是框架，她是java的技术，如今大多数轻量级的容器都会用到IoC技术。这里我就用一个例子来说明：如：程序中有 Mysql.calss 、Oracle.class 、SqlSe
高性能mysql 之选择存储引擎(一) annan211 mysql InnoDB MySQL引擎存储引擎
1 没有特殊情况，应尽可能使用InnoDB存储引擎。原因：InnoDB 和 MYIsAM 是mysql 最常用、使用最普遍的存储引擎。其中InnoDB是最重要、最广泛的存储引擎。她被设计用来处理大量的短期事务。短期事务大部分情况下是正常提交的，很少有回滚的情况。InnoDB的性能和自动崩溃恢复特性使得她在非事务型存储的需求中也非常流行，除非有非常
UDP网络编程百合不是茶 UDP编程局域网组播
UDP是基于无连接的,不可靠的传输与TCP/IP相反 UDP实现私聊,发送方式客户端,接受方式服务器 package netUDP_sc; import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.Ine
JQuery对象的val()方法执行结果分析 bijian1013 JavaScript js jquery
JavaScript中，如果id对应的标签不存在（同理JAVA中，如果对象不存在），则调用它的方法会报错或抛异常。在实际开发中，发现JQuery在id对应的标签不存在时，调其val()方法不会报错，结果是undefined。
http请求测试实例（采用json-lib解析） bijian1013 json http
由于fastjson只支持JDK1.5版本，因些对于JDK1.4的项目，可以采用json-lib来解析JSON数据。如下是http请求的另外一种写法，仅供参考。 package com; import java.util.HashMap; import java.util.Map; import
【RPC框架Hessian四】Hessian与Spring集成 bit1129 hessian
在【RPC框架Hessian二】Hessian 对象序列化和反序列化一文中介绍了基于Hessian的RPC服务的实现步骤，在那里使用Hessian提供的API完成基于Hessian的RPC服务开发和客户端调用，本文使用Spring对Hessian的集成来实现Hessian的RPC调用。定义模型、接口和服务器端代码 |---Model &nb
【Mahout三】基于Mahout CBayes算法的20newsgroup流程分析 bit1129 Mahout
1.Mahout环境搭建 1.下载Mahout http://mirror.bit.edu.cn/apache/mahout/0.10.0/mahout-distribution-0.10.0.tar.gz 2.解压Mahout 3. 配置环境变量 vim /etc/profile export HADOOP_HOME=/home
nginx负载tomcat遇非80时的转发问题 ronin47
　　nginx负载后端容器是tomcat（其它容器如WAS,JBOSS暂没发现这个问题）非８０端口，遇到跳转异常问题。解决的思路是：$host:port 详细如下：　　该问题是最先发现的，由于之前对nginx不是特别的熟悉所以该问题是个入门级别的： ? 1 2 3 4 5
java-17-在一个字符串中找到第一个只出现一次的字符 bylijinnan java
public class FirstShowOnlyOnceElement { /**Q17.在一个字符串中找到第一个只出现一次的字符。如输入abaccdeff，则输出b * 1.int[] count:count[i]表示i对应字符出现的次数 * 2.将26个英文字母映射：a-z <--> 0-25 * 3.假设全部字母都是小写 */ pu
mongoDB 复制集开窍的石头 mongodb
mongo的复制集就像mysql的主从数据库，当你往其中的主复制集(primary)写数据的时候，副复制集(secondary)会自动同步主复制集(Primary)的数据,当主复制集挂掉以后其中的一个副复制集会自动成为主复制集。提供服务器的可用性。和防止当机问题 mo
[宇宙与天文]宇宙时代的经济学 comsci 经济
宇宙尺度的交通工具一般都体型巨大，造价高昂。。。。。在宇宙中进行航行，近程采用反作用力类型的发动机，需要消耗少量矿石燃料，中远程航行要采用量子或者聚变反应堆发动机，进行超空间跳跃，要消耗大量高纯度水晶体能源以目前地球上国家的经济发展水平来讲，
Git忽略文件 Cwind git
有很多文件不必使用git管理。例如Eclipse或其他IDE生成的项目文件，编译生成的各种目标或临时文件等。使用git status时，会在Untracked files里面看到这些文件列表，在一次需要添加的文件比较多时（使用git add . / git add -u），会把这些所有的未跟踪文件添加进索引。 ==== ==== ==== 一些牢骚
MySQL连接数据库的必须配置 dashuaifu mysql 连接数据库配置
MySQL连接数据库的必须配置 1.driverClass：com.mysql.jdbc.Driver 2.jdbcUrl：jdbc:mysql://localhost:3306/dbname 3.user：username 4.password：password 其中1是驱动名；2是url，这里的‘dbna
一生要养成的60个习惯 dcj3sjt126com 习惯
一生要养成的60个习惯第1篇让你更受大家欢迎的习惯 1 守时，不准时赴约,让别人等,会失去很多机会。如何做到： ①该起床时就起床， ②养成任何事情都提前15分钟的习惯。 ③带本可以随时阅读的书，如果早了就拿出来读读。 ④有条理，生活没条理最容易耽误时间。 ⑤提前计划：将重要和不重要的事情岔开。 ⑥今天就准备好明天要穿的衣服。 ⑦按时睡觉，这会让按时起床更容易。 2 注重
[介绍]Yii 是什么 dcj3sjt126com PHP yii2
Yii 是一个高性能，基于组件的 PHP 框架，用于快速开发现代 Web 应用程序。名字 Yii （读作易）在中文里有“极致简单与不断演变”两重含义，也可看作 Yes It Is! 的缩写。 Yii 最适合做什么？ Yii 是一个通用的 Web 编程框架，即可以用于开发各种用 PHP 构建的 Web 应用。因为基于组件的框架结构和设计精巧的缓存支持，它特别适合开发大型应
Linux SSH常用总结 eksliang linux ssh SSHD
转载请出自出处：http://eksliang.iteye.com/blog/2186931 一、连接到远程主机格式： ssh name@remoteserver 例如： ssh [email protected] 二、连接到远程主机指定的端口格式： ssh name@remoteserver -p 22 例如： ssh i
快速上传头像到服务端工具类FaceUtil gundumw100 android
快速迭代用 import java.io.DataOutputStream; import java.io.File; import java.io.FileInputStream; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOExceptio
jQuery入门之怎么使用 ini JavaScript html jquery Web css
jQuery的强大我何问起（个人主页：hovertree.com）就不用多说了，那么怎么使用jQuery呢？首先，下载jquery。下载地址：http://hovertree.com/hvtart/bjae/b8627323101a4994.htm，一个是压缩版本，一个是未压缩版本，如果在开发测试阶段，可以使用未压缩版本，实际应用一般使用压缩版本(min)。然后就在页面上引用。
带filter的hbase查询优化 kane_xie 查询优化 hbase RandomRowFilter
问题描述 hbase scan数据缓慢，server端出现LeaseException。hbase写入缓慢。问题原因直接原因是： hbase client端每次和regionserver交互的时候，都会在服务器端生成一个Lease,Lease的有效期由参数hbase.regionserver.lease.period确定。如果hbase scan需
java设计模式-单例模式 men4661273 java 单例枚举反射 IOC
单例模式1，饿汉模式 //饿汉式单例类.在类初始化时，已经自行实例化 public class Singleton1 { //私有的默认构造函数 private Singleton1() {} //已经自行实例化 private static final Singleton1 singl
mongodb 查询某一天所有信息的3种方法，根据日期查询 qiaolevip 每天进步一点点学习永无止境 mongodb 纵观千象
// mongodb的查询真让人难以琢磨，就查询单天信息，都需要花费一番功夫才行。 // 第一种方式： coll.aggregate([ {$project:{sendDate: {$substr: ['$sendTime', 0, 10]}, sendTime: 1, content:1}}, {$match:{sendDate: '2015-
二维数组转换成JSON tangqi609567707 java 二维数组 json
原文出处：http://blog.csdn.net/springsen/article/details/7833596 public class Demo { public static void main(String[] args) { String[][] blogL
erlang supervisor wudixiaotie erlang
定义supervisor时，如果是监控celuesimple_one_for_one则删除children的时候就用supervisor:terminate_child (SupModuleName, ChildPid)，如果shutdown策略选择的是brutal_kill，那么supervisor会调用exit(ChildPid, kill)，这样的话如果Child的behavior是gen_