英雄哪里出来

夜深人静写算法（九）- 哈希表

文章目录

一、前言
二、哈希表
- 1、哈希表概念
- - 1）哈希数组
  - 2）关键字
  - 3）哈希函数
  - 4）值
- 2、简单下标哈希
- 3、散列哈希
- - 1）哈希值离散
  - 2）除留余数法
  - 3）哈希冲突
  - 4）负载因子
  - 5）rehash
  - 6）取模位运算优化
- 4、散列哈希的实现
- 5、字符串哈希
- - 1）B 进制
  - 2）取模
  - 3）自然溢出
  - 4）双哈希
  - 5）子串哈希值
三、哈希表的应用
- 1、代替排序
- 2、多元方程的整数解数
- 3、状态哈希
- - 1）动态规划的状态哈希
  - 2）广度优先搜索的状态哈希
- 4、最长回文串
- 5、最长公共子串
四、哈希题集整理

一、前言

谈起哈希表，学过数据结构的同学，应该都已经耳熟能详了，因为太基础所以一直没有单独拿出来讲，然而广度优先搜索和动态规划里面都涉及到了状态哈希，所以还是有必要拿出来讲一下的。所谓的状态到底是一个什么概念，为什么要对状态进行哈希。希望读者看完本章内容，能够有一个大概的概念，能对后续要讲到的广度优先搜索以及状态压缩动态规划起到一定的铺垫作用。
虽然，我曾经一度认为自己对哈希表的理解已经很透彻了，但是今天我在总结这篇文章的时候，突然领悟了几个之前比较模糊的概念，而且就在那一瞬间，犹如醍醐灌顶，茅塞顿开，这种感觉实在是太棒了！

二、哈希表

1、哈希表概念

哈希表（Hash table）的初衷是为了将关键字值 (key - value) 映射到数组中的某个位置，这样就能够通过数组下标访问该数据，省去了遍历整个数据结构的过程，从而提高了数据的查找速度，查找的平均期望时间复杂度是 $O (1)$ 的。
redis 中的键值对、python 中的 dict 、lua 中的 table、C++ STL 中的 unordered_map 等等，底层都是采用哈希表来实现的，可见哈希表在实际应用中还是很广泛的。
首先，介绍几个概念来对哈希表有一个初步的认识。

1）哈希数组

为了方便下标索引，哈希表的底层实现结构是一个数组，数组类型可以是任意类型，每个位置被称为一个槽（slot）。如图二-1-1所示，它代表的是一个长度为 8 的哈希数组。

图二-1-1

2）关键字

关键字（key）是任意类型，可以是整型、长整型、字符串甚至是结构体或者类；如下的 a、b、o 都可以是关键字；

int a = 5;
string b = "Hello World!";
class Obj {
      };
Obj o;

哈希表的实现过程中，我们需要通过一些手段，将一个非整型的关键字转换成整型，然后再对哈希数组的长度进行取模，转换为下标，从而找到它所对应的位置，实现快速关键字查找。如图二-1-2所示：

图二-1-2

而将一个非整型的关键字转换成整型的手段就是哈希函数。

3）哈希函数

哈希函数可以简单的理解为就是小学课本上那个函数，即 $y = f (x)$ ，这里的 $f (x)$ 就是哈希函数， $x$ 是关键字， $y$ 是值。好的哈希函数应该具备以下两个特质：
1）单射（或者叫一一映射）；
2）雪崩效应：输入值 $(x)$ 的 1 位的变化，能够造成输出值 $(y)$ 1/2 的位的变化；
单射很容易理解，如图二-1-3所示。图 $(a)$ 中已知哈希值 $y$ 时，键 $x$ 可能有两种情况，不是一个单射；而图 $(b)$ 中已知哈希值 $y$ 时，键 $x$ 一定是唯一确定的，所以它是单射。由于 $x$ 和 $y$ 一一对应，所以在没有取模之前，至少是没有冲突的，这样就从本原上减少了冲突。
雪崩效应是为了让哈希值更加符合随机分布的原则，哈希表中的键分布的越随机，利用率越高，效率也越高。

图二-1-3
整数的哈希函数比较简单，可以为自身： $h a s h (x) = x$
字符串的哈希函数设计的时候，一般是遍历整个字符串进行某种运算，最后得到的是一个长整型；
$h a s h (s) = 9456043234891890 l l$
类的哈希函数，设计的时候可以先实现一个 toString 接转化成字符串，然后再对这个字符串进行字符串哈希；

4）值

这里的值（value），就对应了上文提到的哈希数组的类型；
整个哈希过程就是通过关键字 (key) 找值 (value) 的过程。

2、简单下标哈希

简单下标哈希就是利用关键字直接访问数组元素，省去了计算哈希值、取模、以及寻址的过程，如图二-2-1所示：

图二-2-1

查找时间复杂度 $O (1)$ 。但是对关键字要求较高，首先必须是整数，其次是关键字的范围必须严格控制在哈希数组范围内。

图二-2-2

上图中，圆形代表了关键字，方形格子则代表了哈希数组，箭头表示下标访问。
例如：一共 4 个人，编号为 $(1, 3, 4, 6)$ ，现在要存储每个人的年龄，那么用一个数组int age[8]就可以存储了。访问的时候直接通过下标就能获取/设置对应编号的人的年龄，这个存取的过程就是最简单的下标哈希了。

int age[8];
age[1] = 34;
printf("%d\n", age[3]);

这种简单下标哈希在之前的章节已经有大量的应用，比如：
1）并查集：对每个元素映射到对应集合的时候采用的就是下标哈希，fset[i] = i;代表 $i$ 这个元素所属的集合编号；

const int MAXN = 300010;
int fset[MAXN];

void init(int n) {
     
    for (int i = 1; i <= n; ++i) {
     
        fset[i] = i;
    }
}

2）字典树：在对子结点nodes_[]进行存储的时候，字母减去了一个偏移量后映射到数组中，采用的也是下标哈希；

const int TRIE_NODE_COUNT = 26;
class TrieNode {
     
private:
    int nodes_[TRIE_NODE_COUNT];
};

3）二分图：在染色算法中，每个结点的颜色存储到color_[]数组时，用到的也是简单下标哈希；

    if (color_[v] == -1) {
     
        color_[v] = 1 - color_[u];
        Q.push(v);
    }

3、散列哈希

接下来，我们来介绍一下更加一般的情况，即通过一个不在数组范围内的整型（或长整型），通过计算得到它的值。如图二-3-1所示：

图二-3-1

1）哈希值离散

实际问题中，我们的数组可能没有那么大，或者哈希值比较离散，离散的反义词是连续，例如： $(1 、 3 、 4 、 6)$ 相对于 $(1 、 2 、 3 、 4)$ 就是离散的。如图二-3-2所示：

图二-3-2

数组的长度只有 4，但是我们的哈希值分别为 1、3、4、6，无法采用下标进行映射；

2）除留余数法

由于数组长度为 4，所以我们可以将哈希值模 4 再进行映射，如图二-3-3所示：

图二-3-3

比如用 $x$ 代表哈希值， $f (x)$ 代表实际映射的下标，则有如下公式： $\mod 4$
这样做虽然解决了哈希值离散的问题，同时也带来了另一个问题，那就是哈希冲突。

3）哈希冲突

所谓哈希冲突，就是两个不同的哈希值通过取模映射到了同一个下标。这样就会产生二义性，如图二-3-4 所示：

图二-3-4

图中 1 和 9 模 4 的余数都为 1，所以都映射到了下标为 1 的位置，这样取的时候就无法知道原哈希值到底是 1 还是 9 了。于是，就需要有一些应对哈希冲突的解决方案，常用的有：链地址法、开放寻址法、再散列法。

a. 链地址法

数组存储值数据的链表头，将所有取模后一样的哈希值用链表串起来，查找的时候先取模找到对应下标位置，然后在对应链表上遍历找到对应哈希值的数据。如图二-3-5所示：

图二-3-5

这种方法对哈希值要求比较高，必须尽量平均分布。考虑一种极端情况：所有哈希值都模 4 同余，那么它们会映射到同一个下标，导致最后的结构退化成了链表，查找效率退化为 $O (n)$ 。

b. 开放寻址法

数组存储值数据，如果遇到取模后发现已经有数据，则往数组后移一位，如果还有继续移动，直到找到一个空闲位置，如图二-3-6所示：
图二-3-6
哈希值 9 对 4 取模以后值为 1，但是发现下标为 1 的位置上已经有元素了，于是往后继续找一个，找到下标为 2 的位置，于是产生映射 $f (9) = 2$ 。
这种方法对不同的哈希值的个数要求有限制，必须小于等于哈希数组大小，否则永远找不到就会产生死循环。而且随着哈希值增多，插入和查找效率下降。

4）负载因子

无论是链地址法还是开放地址法都会遇到一个问题，就是一旦数据量上去以后，都会导致查找效率下降，于是，这里引入一个负载因子的概念：
$负载因子 = 哈希值个数 / 数组长度$
对于链地址法来说，负载因子 > 5 就要考虑 rehash 了；而对于开放寻址法，负载因子 > 0.7 时，考虑 rehash，那么什么是 rehash 呢？

5）rehash

所谓 rehash，就是申请一块新的空间，空间的大小为原哈希数组的两倍，然后把原有的数据全部取出来映射到新的哈希数组里，再释放原有哈希数组。
实际实现的时候，为了减少申请空间带来的开销，一般是预先就一直有两个哈希数组（指针），然后采用滚动的方式进行扩容，扩容完毕交换指针。
并且由于一次 rehash 的耗时可能较长，一般采用渐进式 rehash，分散 CPU 的执行时间，具体细节可以参考 redis 源码的实现，这里不再展开来说了。

6）取模位运算优化

哈希数组的长度一般选择 2 的幂，因为我们知道取模运算是比较耗时的，而位运算相对较为高效；
选择 2 的幂作为数组长度，可以将取模运算转换成二进制位与(&)；
令 $S = 2^k$ ，那么它的二进制表示就是： $(1\underbrace{000...000}_{\rm k})_2$ ，任何一个数模上 $S$ ，就相当于取了 $S$ 的二进制低 $k$ 位，而 $(\underbrace{111...111}_{\rm k})_2$ ，所以和位与 $S - 1$ 的效果是一样的。
$\% S == x \& (S - 1);$

4、散列哈希的实现

这里介绍一种简单的哈希再散列的实现，为了尽量简化代码，假设了几个问题：
1）不涉及 rehash：因为哈希数组长度足够大，元素个数可控；
2）不考虑负载因子：因为不进行 rehash ，自然也不用考虑负载因子了；
3）采用开放寻址法：不用链地址法，避免申请堆内存的开销；
先给出代码，再进行讲解：

#define HashValueType long long 
const int MAXH = (1 << 20);
bool hashkey[MAXH];                        // 1）
HashValueType hashval[MAXH];               

int getKey(HashValueType val) {
     
    int key = (val & (MAXH-1) );           // 2）
    while (1) {
     
        if (!hashkey[key]) {
                    // 3）
            hashkey[key] = true;
            hashval[key] = val;
            return key;
        }
        else {
     
            if (hashval[key] == val) {
     
                return key;               // 4）
            }
            key = (key + 1) & (MAXH - 1); // 5）
        }
    }
}

这个函数实现的是：通过给定的哈希值 $v a l$ ，找到哈希表中哈希值对应的下标索引 $k e y$ ，如果找不到则进行插入；
1）bool hashkey[key]表示映射后 $k e y$ 这个下标位置是否有元素，HashValueType hashval[key]表示下标为 $k e y$ 这个位置的元素的值，可以是任意类型，HashValueType是一个宏定义，代表哈希数组值的类型。
2）除留余数法对传进来的元素进行一次取模，并且采用位与代替，利用位运算加速；
3）如果对应的 $k e y$ 在这个位置没有出现过，则代表找到了一个合法位置，则 $k e y$ 的槽位留给 $v a l$ ；
4）如果对应的 $k e y$ 的槽位正好和 $v a l$ 匹配，则说明哈希表已经存在过 $v a l$ 这个元素，返回 key；
5）没有找到合适的 $k e y$ 位置，进行二次寻址；
那么，我们可以根据类似的方法实现一个只查找不插入的方法，实现如下：

bool hasKey(HashValueType val) {
     
    int key = ( val & (MAXH-1) );
    while (1) {
     
        if (!hashkey[key]) {
     
            return false;
        }
        else {
     
            if (hashval[key] == val) {
     
                return true;
            }
            key = (key + 1) & (MAXH - 1);
        }
    }
}

5、字符串哈希

最后，我们来了解下对于字符串类型的关键字，如何计算哈希值，也就是如图二-5-1所示的这一步。

图二-5-1

1）B 进制

对于一个字符串：“1314”，我们可以认为它是一个十进制数，那么转化成十进制整数就是：
$1*10^3 + 3*10^2 + 1*10^1 + 4*10^0 = 1314$
也可以认为它是个 8 进制数，那么转化成十进制就是：
$1*8^3 + 3*8^2 + 1*8^1 + 4*8^0 = 716$
同样，也可以认为它是个 16 进制数，那么转化成十进制就是：
$1*16^3 + 3*16^2 + 1*16^1 + 4*16^0 = 4884$
更加一般的，所有大于 4 的进制都是可以唯一表示这个字符串的；
对于任意一个字符串，其实都是由 ASCII 字符组成，而每个字符都用 1 个字节表示，即它的范围是 $[0, 255]$ ，所以我们可以用大于 255 的数来代替进制 B，即任意一个长度为 $k$ 的字符串 $s$ 可以表示为唯一的整数如下（其中 $s [i]$ 代表第 $i$ 个字符的 ASCII 码值， $i$ 下标从 1 开始）： $hash(s) = s[1]*B^{k-1} + s[2]*B^{k-2} + ... + s[k]*B^{0}$ $(B > = 256)$

2）取模

随着字符串长度不断变大，算出来的哈希值会越来越大，从而产生溢出，所以一般采取模上一个较大的素数的形式，如下：
$hash(s) = ( s[1]*B^{k-1} + s[2]*B^{k-2} + ... + s[k]*B^{0} ) \mod P$
这样做仍然能够保证相同的字符串计算得到的哈希值是一样的，但是却无法保证不相同的字符串计算的哈希值不同，所以为了尽量不让不同的字符串映射到相同的整数， $P$ 的取值很关键，一般采取较大的素数的形式，进一步的， $B$ 也选择一个和 $P$ 互素的素数；

3）自然溢出

根据补码的性质， C++ 中如果定义 unsigned long long，溢出的部分等同于对 $P = 2^{64}$ 取模，这样就可以无视取模，任其自然溢出了。
自然溢出有利有弊：好处就是效率会高出不少，而且能够表示的范围已经是长整型能够表示的最大范围，很大程度上减少哈希冲突；坏处就是取模效果没有素数来的好，对于一些特殊构造的数据，容易造成不相同的字符串计算出相同的哈希值的情况；

4）双哈希

当有大量字符串时，这种冲突会被放大，我们可以通过取两对 $(B [0], P [0]), (B [1], P [1])$ 的值，进行双哈希，然后取两次哈希的值组成一个新的哈希值，从而大大减少冲突的概率。
$hash(0, s) = ( s[1]*B[0]^{k-1} + s[2]*B[0]^{k-2} + ... + s[k]*B[0]^{0} ) \mod P[0]$ $hash(1, s) = ( s[1]*B[1]^{k-1} + s[2]*B[1]^{k-2} + ... + s[k]*B[1]^{0} ) \mod P[1]$ $h a s h (s) = h a s h (0, s) * m a x (P [0], P [1]) + h a s h (1, s)$
得到的哈希值再进行散列哈希映射到下标即可。

5）子串哈希值

对于一个字符串 $s$ ， $s [l : r]$ 代表 $s$ 从 $l$ 到 $r$ 的子串；
$hash(s[1:1]) = ( s[1]*B^{0} ) \mod P$
$hash(s[1:2]) = ( s[1]*B^{1} + s[2]*B^{0} ) \mod P$
$hash(s[1:3]) = ( s[1]*B^{2} + s[2]*B^{1} + s[3]*B^{0}) \mod P$
$hash(s[1:4]) = ( s[1]*B^{3} + s[2]*B^{2} + s[3]*B^{1} + s[4]*B^{0}) \mod P$
$hash(s[1:5]) = ( s[1]*B^{4} + s[2]*B^{3} + s[3]*B^{2} + s[4]*B^{1} + s[5]*B^{0}) \mod P$
那么我们如何求 $h a s h (s [3 : 5])$ 呢？
直接对字符串遍历，得到的结果为 $hash(s[3:5]) = ( s[3]*B^{2} + s[4]*B^{1} + s[5]*B^{0}) \mod P$ ，那么通过如下减法，得到：
$\begin{aligned}hash(s[1:5]) - hash(s[3:5]) &= ( s[1]*B^{4} + s[2]*B^{3} ) \mod P \\ &= B^3 * ( s[1]*B^{1} + s[2]*B^{0} ) \mod P \\ &= B^3 * hash(s[1:2]) \mod P \end{aligned}$
移项后整理式子，得到：
$hash(s[3:5]) = ( hash(s[1:5]) - B^3 * hash(s[1:2]) ) \mod P$
那么对于更加一般的情况，令 $h (r) = h a s h (s [1 : r])$ ，有：
$hash(s[l:r]) = ( h(r) - B^{r-l+1} * h(l-1) ) \mod P$
其中 $h (i)$ 和 $B^i$ 都可以事先一次线性扫描预处理后放在数组中，则每次取子串哈希值的时间复杂度为 $O (1)$ 。

三、哈希表的应用

1、代替排序

【例题1】给定 $n(n <10^6)$ 个 $10^6,10^6]$ 范围内的整数，请按从大到小的顺序输出其中前 $m$ 大的数。

这是一个经典排序问题。时间复杂度 $O (n l o g n)$ ，基本也能接受。
但是，还有一种更加简单的办法，就是开一个 $2*10^6$ 的哈希数组，然后将所有输入的数字加上一个偏移量 $10^6$ 后，哈希到数组中进行标记，最后来一次全范围的扫描输出即可。

2、多元方程的整数解数

【例题2】给定一个方程 $x * a + y * b + z * c = d$ ，其中 $a, b, c, d$ 已知， $(0 < = x, y, z < = 1000)$ ，求满足条件的 $x, y, z$ 的解数。

这是一个可以利用哈希表来求解的经典问题，朴素的做法就是三层循环枚举所有满足条件的 $x ， y ， z$ ，然后判断计算结果是否为 $d$ ，这样的时间复杂度为 $O(n^3)$ ，肯定是无法接受的。
可以将等式进行移项，变成如下形式：
$x * a + y * b = d - z * c$
我们可以通过枚举 $z$ ，将所有计算得到的 $d - z * c$ 的值映射到哈希表中，记录下每个结果出现的次数，然后两层循环枚举 $(x, y)$ ，看枚举计算得到的值 $x * a + y * b$ 在哈希表出现的次数，累加所有的这些和就是最后的答案了，整个算法的时间复杂度即枚举的时间复杂度，为 $O(n^2)$ 。
再来看一个简单的变种。

【例题3】给定 5 个 $n (n < = 200)$ 个整数的集合 $，问是否存在一个下标五元组 (i, j, k, l, m) ，满足如下等式： a [0] [i] + a [1] [j] + a [2] [k] + a [3] [l] + a [4] [m] = 0$

朴素的做法就是枚举这个五元组 $(i, j, k, l, m)$ ，对数组中的五个数加和后进行判零，但是这样做的时间复杂度为 $O(n^5)$ 。
考虑将等式做一个变换如下：
$a [0] [i] + a [1] [j] = - (a [2] [k] + a [3] [l] + a [4] [m])$
那么我们如果把前两个数组的数字加和都枚举出来，然后加到哈希表中，然后就可以通过枚举后面三个数组的加和，取相反数以后去哈希表里面找，如果找到一个就算满足条件了，时间复杂度为 $O(n^3)$ 。
再来看一个更加复杂点的情况，原理还是一样，都是运用了哈希表的特性。

3、状态哈希

状态哈希在动态规划和广度优先搜索中有着广泛的应用，不理解也没有关系，来日方长，这一章先简要介绍一下，毕竟我当年理解状态的概念，也花了很久的时间。

1）动态规划的状态哈希

之前在讲动态规划的时候，强调了状态的概念，那么这一章我们再强化一下。

【例题5】一个 $\times m(n*m<=10^6)$ 的棋盘，作者从左上角出发，只能往右或者往下，每个格子颜色不同，不同颜色对应不同分数，求到达右下角的最大分数。

图三-3-1

这个问题是最简单的二维DP 了，基本上一眼就能看出状态转移方程： $d p [i] [j] = v a l (i, j) + m a x (d p [i - 1] [j], d p [i] [j - 1])$
$d p [i] [j]$ 代表从左上角 $(1, 1)$ 走到 $(i, j)$ 的最大分数， $(i, j)$ 代表位置也代表状态。
但是，由于 $n$ 和 $m$ 的最大乘积为 $10^6$ ，所以极端情况下： $n=10^6，m=1$ 或者 $n=1，m=10^6$ 的情况都是有可能出现的，这样就不能用二维数组了，那么我们能不能拿 $i$ 和 $j$ 的乘积作为状态表示呢？
答案是不能！
因为 $(i, j)$ 和 $(j, i)$ 不是同一个状态。
于是，我们结合今天学习的知识，联想到了可以将 $i$ 和 $j$ 作为一个二元组，映射到一个长整型，即：
$\to (i * 10^9 + j)$
然后就可以用散列哈希进行状态存储了。

2）广度优先搜索的状态哈希

广度优先搜索往往用来求解一些最短路问题，比如迷宫问题、数码问题、推箱子游戏等等，要求用最少的步数，到达某个位置或者完成某个目标，这里举一个最简单的例子。

【例题6】一个 $\times m(n,m <=100)$ 的迷宫，绿色的格子代表可以走，红色的格子是岩浆不能走，地图上有两个人他们以相同的方式往四个方向上、下、左、右走，每走一格需要一刻时间，问两人相遇的最短时间为多少。

图三-3-2

这是个经典的广度优先搜索问题，如果用深度优先搜索来做，状态空间太大，时间复杂度是指数级的。而广搜的时间复杂度为 $O (n m)$ ，之所以能够把时间复杂度控制在多项式级别，是因为走过的位置会被标记掉。
这个问题只要考虑一个人从起点走到终点就行，对最后的时间进行除二处理，考虑下奇偶性。
每个位置 $(i, j)$ 就代表了状态，用 $t i m e [i] [j]$ 代表从 $(1, 1)$ 到 $(i, j)$ 花费的最短时间，初始化为最大值，利用队列扩展状态，每走到一个点判断当前的时间是否比 $t i m e [i] [j]$ 小，如果大于等于的话就没必要入队了，直到队列为空或者到达目的地则搜索完毕。
这个问题就告一段落了。
但是，并不是所有问题中，位置代表状态，来看一个经典的游戏 —— 推箱子。
图三-3-3
这个问题中，推箱子的人两次访问同一个位置时，整个地图的状态是不一样的，因为箱子的位置变了。
没错！在这个问题中，状态要用人和所有箱子的位置（6个坐标）来表示。限于篇幅，就不再展开了。这个问题会在讲解广度优先搜索的时候再进行详细讲解。

4、最长回文串

【例题7】给定一个字符串，最多 $10^6$ 个字符，求最长回文子串的长度。例如字符串 “abacdcbaaaab”，最长回文子串的长度为 “baaaab”，所以答案为 6 。

思路就是枚举一个中心，然后二分长度，对于二分到的长度用字符串哈希在 $O (1)$ 的时间判断两边的字符串是否相等。由于字符串哈希是单向的，而回文串的方向是往相反方向扩散，所以需要将字符串预处理哈希后，逆序再预处理一次哈希。
对于字符串从下标 1 开始，罗列如下：

1	2	3	4	5	6	7	8	9	10	11	12
a	b	a	c	d	c	b	a	a	a	a	b

将字符串进行逆序后得到：

1	2	3	4	5	6	7	8	9	10	11	12
b	a	a	a	a	b	c	d	c	a	b	a

回文子串的长度有可能是奇数，也有可能是偶数，所以需要分情况讨论：
对于奇数的情况，如果枚举的中心下标为 $i$ ，则能够扩散的长度为 $\in [1, min(len - i +1, i)]$ ，二分这个长度，然后判断原字符串的子串 $[i - l + 1, i]$ 和逆序字符串的子串 $[l e n - i - l + 2, l e n - i + 1]$ 是否相等，相等则扩大二分区间；否则，减少；

图三-4-1

对于偶数的情况，如果枚举的中心下标为 $i$ ，则能够扩散的长度为 $\in [0, min(len - i, i)]$ ，二分这个长度，然后判断原字符串的子串 $[i - l + 1, i]$ 和逆序字符串的子串 $[l e n - i - l + 1, l e n - i]$ 是否相等，相等则扩大二分区间；否则，减少；
图三-4-2

5、最长公共子串

【例题8】给定两个长度不超过 400000 的字符串，求两个串的最长公共子串的长度。

二分一个长度 L，在第一个串上作给定长度 L 的所有子串的字符串哈希，并且散列到哈希数组中，然后在第二个子串上进行枚举长度为 L 的子串，看哈希数组中是否存在，一旦存在，说明最长公共子串的长度至少为 L，二分的答案扩大；否则，答案缩小；

本文所有示例代码均可在以下 github 上找到：github.com/WhereIsHeroFrom/模板/HASH

四、哈希题集整理

题目链接	难度	解法
HDU 1264 Counting Squares	★☆☆☆☆	简单下标哈希
HDU 1425 sort	★☆☆☆☆	简单下标哈希
HDU 2523 SORT AGAIN	★☆☆☆☆	简单下标哈希
HDU 2217 Visit	★☆☆☆☆	简单下标哈希
HDU 2220 Encode the tree	★☆☆☆☆	简单下标哈希
HDU 2240 考研路茫茫——人到大四	★☆☆☆☆	简单下标哈希
HDU 2265 Encoding The Diary	★☆☆☆☆	简单下标哈希
HDU 2270 How Many Friends Will Be Together With You	★☆☆☆☆	简单下标哈希
HDU 2341 Tower Parking	★☆☆☆☆	简单下标哈希
HDU 2369 Broken Keyboard	★☆☆☆☆	简单下标哈希
HDU 2946 Letter Cookies	★☆☆☆☆	简单下标哈希
HDU 3107 A Walk in the Park	★★☆☆☆	简单坐标哈希
HDU 1496 Equations	★★☆☆☆	等式的整数散列哈希
PKU 1186 方程的解数	★★☆☆☆	等式的整数散列哈希
HDU 1880 魔咒词典	★★☆☆☆	字符串哈希
HDU 2428 Stars	★★☆☆☆	简单下标哈希
HDU 4908 BestCoder Sequence	★★☆☆☆	统计类下标哈希
HDU 4334 Trouble	★★☆☆☆	等式的整数散列哈希
HDU 5269 ZYB loves Xor I	★★☆☆☆	位运算 + 统计散列哈希
P3370 【模板】字符串哈希	★★☆☆☆	字符串哈希模板
PKU 3349 Snowflake Snow Snowflakes	★★☆☆☆	字符串哈希模板
HDU 3763 CD	★★☆☆☆	散列哈希模板题
PKU 3974 Palindrome	★★★☆☆	二分答案 + 字符串哈希
HDU 4080 Stammering Aliens	★★★☆☆	二分答案 + 字符串哈希
PKU 2758 Checking the Text	★★★☆☆	二分答案 + 字符串哈希
PKU 2774 Long Long Message	★★★☆☆	二分答案 + 字符串哈希
HDU 4961 Boring Sum	★★★☆☆	枚举因子 + 哈希
HDU 5701 中位数计数	★★★☆☆	离散化 + 哈希
HDU 5416 CRB and Tree	★★★☆☆	位运算 + 哈希
HDU 5908 Abelian Period	★★★☆☆	枚举 + 哈希
HDU 2969 Skyscrapers	★★★☆☆	贪心 + 哈希
HDU 6768 The Oculus	★★★☆☆	字符串哈希 + 枚举可行位
HDU 5183 Negative and Positive (NP)	★★★★☆	较为复杂的等式整数哈希
HDU 5469 Antonidas	★★★★☆	树的分治 + 字符串哈希
HDU 4622 Reincarnation	★★★★★	字符串哈希或后缀自动机
HDU 6646 A + B = C	★★★★★	字符串哈希
PKU 3274 Gold Balanced Lineup	★★★★★	散列哈希

你可能感兴趣的:(夜深人静写算法,字符串,算法,哈希,数据结构,ACM)

【华为OD机试真题29.9¥】(E卷,100分) - IPv4地址转换成整数（Java & Python& JS & C++ & C ）小妖666 华为OD 华为od c++c语言
题目描述存在一种虚拟IPv4地址，由4小节组成，每节的范围为0~255，以#号间隔，虚拟IPv4地址可以转换为一个32位的整数，例如：128#0#255#255，转换为32位整数的结果为2147549183（0x8000FFFF）1#0#0#0，转换为32位整数的结果为16777216（0x01000000）现以字符串形式给出一个虚拟IPv4地址，限制第1小节的范围为1128，即每一节范围分别为(
【机器学习】决策树 ( Decision Tree ) AI天才研究院 ChatGPT DeepSeek R1 &大数据AI人工智能大模型深度学习实战机器学习决策树算法支持向量机人工智能
【机器学习】决策树(DecisionTree)文章目录【机器学习】决策树(DecisionTree)1.ID3(1)信息增益(2)ID3的算法流程(3)实现ID32.C4.53.CART(1)决策桩DecisionStump(2)回归CART：最小二乘回归树leastsquaresregressiontree⚪回归CART的例子(3)分类CART(4)处理缺失值Handlemissingfeatu
玩转python：掌握Python数据结构之栈Stack 千益浅显易懂玩转python 开发语言 python
栈（Stack）是计算机科学中一种非常基础且重要的数据结构。它的特点是后进先出（LIFO，LastInFirstOut），就像我们生活中叠盘子一样，最后放上去的盘子总是最先被拿走。本文将用通俗易懂的语言和丰富的案例，带你轻松掌握栈的概念、实现和应用。什么是栈？栈是一种线性数据结构，它只允许在一端进行数据的插入和删除操作。这一端被称为栈顶（Top），另一端被称为栈底（Bottom）。栈的操作主要有两
【ACM独立出版-录用文章全部递交EI检索-检索稳定】2025年数字化教育与信息技术国际学术会议（DEIT 2025） AEIC_GAO 数据挖掘大数据人工智能数据分析教育电商 zoom会议
【会议亮点】1.EI检索稳定：ACMInternationalConferenceProceedingsSeries独立出版2.参会人数多，口头报告和海报展示均提供正式的参会证书3.线下参会包含三餐，茶歇、会议物料：定制手提袋、会议手册、会议通知、会议日程、会议邀请函等证明类文件4.线上与线下同步进行，支持不便到线下的参会者线上参与，均享有与线下会场一样的发言权利5.主办单位为湖南师范大学教育科学
算法竞赛备赛——【数论】快速幂 Aurora_wmroy 算法竞赛备赛算法 c++数据结构蓝桥杯
快速幂计算a的b次方时间复杂度：O(logb)#includeusingnamespacestd;constintN=1e5+9;usingll=longlong;#definemod998244353llksm(lla,llb){llres=1;//a=2b=13--1101while(b){//res=2a=2^2b=6//体现倍增思想if(b&1)res=res*a%mod;//res=2a
分布式中间件：Redis介绍顾北辰20 分布式中间件分布式中间件 redis
目录Redis概述Redis的特点高性能丰富的数据结构持久化分布式特性简单易用Redis的数据结构字符串（String）哈希（Hash）列表（List）集合（Set）有序集合（SortedSet）Redis的应用场景缓存消息队列分布式锁计数器排行榜在当今的分布式系统开发中，中间件起着至关重要的作用。其中，Redis作为一款高性能的键值对存储数据库，在缓存、消息队列、分布式锁等多个领域都有着广泛的应
Python Cookbook-3.7 日期的模糊查询我不会编程555 #Python学习 python 服务器开发语言
任务程序需要读取并接受一些并不符合标准的“yyyy,mm,dd”datetime格式解决方案第三方dateutil.parser模块给出了一个简单的解答:importdatetimeimportdateutil.parserdeftryparse(date):#dateutil.parser需要一个字符串参数:根据一些例，我们#可以从4种“date”参数创建一个kwargs={#假设没有命名参数i
代码随想录算法训练营第四十八天|583. 两个字符串的删除操作，72. 编辑距离丁希希哇力扣算法刷题算法面试 python 力扣
系列文章目录代码随想录算法训练营第一天|数组理论基础，704.二分查找，27.移除元素代码随想录算法训练营第二天|977.有序数组的平方，209.长度最小的子数组，59.螺旋矩阵II代码随想录算法训练营第三天|链表理论基础，203.移除链表元素，707.设计链表，206.反转链表代码随想录算法训练营第四天|24.两两交换链表中的节点，19.删除链表的倒数第N个节点，面试题02.07.链表相交，14
链表操作的高阶技巧：K个一组翻转链表的实现与思考 Echo_Wish LeetCode专题链表网络数据结构
链表操作的高阶技巧：K个一组翻转链表的实现与思考在算法领域中，链表操作是一项基础而又充满挑战的技术，特别是在面试中常常出现的“翻转链表”问题。今天，我，Echo_Wish，将带大家深入探讨一种链表操作的高阶技巧——“K个一组翻转链表”。本文不仅会详细讲解这一问题的解决思路，还会通过具体的代码示例，帮助大家更好地理解和掌握这一技巧。问题描述“K个一组翻转链表”问题的描述如下：给定一个链表和一个整数K
算法系列之数据结构-二叉搜索树修己xj 算法算法数据结构
二叉查找树（BinarySearchTree，简称BST）是一种常用的数据结构，它能够高效地进行查找、插入和删除操作。二叉查找树的特点是，对于树中的每个节点，其左子树中的所有节点都小于该节点，而右子树中的所有节点都大于该节点。本文将介绍如何使用Java实现二叉查找树，并实现常见的操作。二叉搜索树BST二叉搜索树的核心思想和二分查找类似，都是基于分治思想，利用了有序性,通过比较和分治，将问题规模减半
算法系列之数据结构-Huffman树修己xj 算法算法数据结构 java
在数据压缩领域，Huffman编码是一种经典的无损压缩算法，而Huffman树则是实现这种编码的关键数据结构。它以其高效性和简洁性被广泛应用于各种场景，从文件压缩到通信协议，都离不开Huffman树的身影。本文将深入探讨Huffman树的原理、构建过程以及其Java如何实现Huffman树。Huffman树的构建步骤Huffman树（哈夫曼树）又称最优二叉树，是一种带权路径长度最短的二叉树，常用于
算法训练（leetcode）二刷第三十八天 | 1143. 最长公共子序列、1035. 不相交的线、53. 最大子数组和、392. 判断子序列 Star Patrick 二刷日记算法 leetcode 职场和发展
刷题记录1143.最长公共子序列1035.不相交的线53.最大子数组和动态规划优化版392.判断子序列1143.最长公共子序列leetcode题目地址本题和300.最长递增子序列相似（题解）。使用动态规划：dp数组含义：dp[i][j]表示以text1[i-1]结尾的子串A和以text2[j-1]结尾的子串B的最长公共子序列的长度。思路同300.最长递增子序列，每个状态更新基于前面的状态，为了防止
*算法训练（leetcode）第三十九天 | 115. 不同的子序列、583. 两个字符串的删除操作、72. 编辑距离 Star Patrick 刷题日记算法 leetcode c++动态规划
刷题记录*115.不同的子序列*583.两个字符串的删除操作解法一解法二*72.编辑距离*115.不同的子序列leetcode题目地址dp[i][j]代表：以i-1结尾的s中包含以j-1结尾的t的个数。有以下两种情况：s[i-1]==t[i-1]：考虑s[i-1]不考虑s[i-1]s[i-1]!=t[i-1]题解思路时间复杂度：O(n2)O(n^2)O(n2)空间复杂度：O(n∗m)O(n*m)O
*算法训练（leetcode）第十七天 | 235. 二叉搜索树的最近公共祖先、701. 二叉搜索树中的插入操作、450. 删除二叉搜索树中的节点 Star Patrick 刷题日记算法 leetcode c++
刷题记录235.二叉搜索树的最近公共祖先递归非递归701.二叉搜索树中的插入操作递归非递归*450.删除二叉搜索树中的节点235.二叉搜索树的最近公共祖先leetcode题目地址二叉搜索树（BST），左小右大。在BST中查找两个节点p、q的最近公共祖先时，使用前序遍历，访问到的第一个在两个节点的区间内[p,q]的节点就是公共祖先节点。当前节点值超出区间时借助BST性质（左小右大）向对应的方向缩小范
算法训练（leetcode）第二十三天 | 455. 分发饼干、*376. 摆动序列、53. 最大子数组和 Star Patrick 刷题日记算法 leetcode c++
刷题记录455.分发饼干*376.摆动序列53.最大子数组和455.分发饼干leetcode题目地址贪心，两个数组排序，从前向后或从后向前均可，二者需保持同序，使用两个指针分别指向两个数组，当胃口满足时两个指针同时后移并计数，若不满足则饼干指针后移寻找合适的饼干。由于使用了两次快排，所以时间复杂度为O(nlogn)。时间复杂度：O(nlogn)O(nlogn)O(nlogn)空间复杂度：O(1)O
华为OD技术面 - 手撕算法题整理清水乐园华为OD机考华为OD面试 java 算法前端
题目编号频次1.两数之和-力扣（LeetCode）72.两数相加-力扣（LeetCode）5
14.refresh操作夜月行者 #doc管理API elasticsearch
文章目录1.refresh简介1.true或者空字符串2.wait_for3.false(thedefault)2.如何选择设置1.refresh简介TheIndex,Update,Delete,andBulkAPIs支持refresh操作。控制这些api对应的请求所做的更改对搜索可见。refresh可以设置的值有true或者空字符串。wait_forfalse1.true或者空字符串在操作发生后
Scala的正则表达式3 痕517 scala
贪婪模式与非贪婪模式objecttest{//正则表达式defmain(args:Array[String]):Unit={//贪婪模式//正则匹配默认是贪婪模式的//?非贪婪模式,加在量词的后面//在如下字符串中查找满足正则表达式要求的内容//找全部的手机号//规则：//1.11位数字.//2.第一个数字是1.//3.第二个数字是3-9的数.valreg1="1[3-9]\\d{9}".rreg
Java高频面试之集合-01 牛马baby java 面试开发语言
hello啊，各位观众姥爷们！！！本baby今天来报道了！哈哈哈哈哈嗝面试官：说说java的集合框架Java集合框架（JavaCollectionsFramework，JCF）是Java中用于存储、操作和管理数据结构的核心库。它提供了一组标准化的接口、实现类和算法，使得开发者能够高效地处理各种数据集合。1.集合框架的核心接口Java集合框架主要围绕以下几个核心接口构建：(1)Collection接
特斯拉 FSD 算法深度剖析：软件层面全解读 python算法(魔法师版) 算法机器学习人工智能深度学习神经网络计算机视觉
一、引言特斯拉的FSD（FullSelf-Driving）系统作为自动驾驶领域的前沿成果，其软件层面的算法设计至关重要。本文将从软件的角度，深入探讨特斯拉FSD所采用的算法，包括感知、规划、控制等多个方面，以期为读者呈现一个全面、详细的FSD算法全景图。二、特斯拉FSD系统概述特斯拉FSD系统旨在实现车辆的完全自动驾驶，涵盖从感知周围环境到做出驾驶决策的全过程。该系统依托于特斯拉自研的硬件平台和软
算法训练（leetcode）二刷第三十九天 | 115. 不同的子序列、583. 两个字符串的删除操作、72. 编辑距离 Star Patrick 二刷日记算法 leetcode 职场和发展
刷题记录*115.不同的子序列583.两个字符串的删除操作思路一：转求公共子序列思路二：编辑距离（统计删除次数）72.编辑距离*115.不同的子序列leetcode题目地址编辑距离问题。题目要求在s串中查找t串出现的次数。dp数组含义：dp[i][j]表示以s[i-1]结尾的子串A中出现以t[j-1]为结尾的子串B的个数状态转移方程：题目要求在s串中查找t串出现的次数，因此只考虑对s串进行编辑。当
QT中的字符器类型依旧阳光的老码农 C++语法 qt 开发语言
一、QT中的字符串类型在Qt中，字符串处理是非常常见且重要的任务。Qt提供了几种不同的字符串类型，每种类型都有其特定的用途和优势。以下是Qt中主要的字符串类型及其特点：1.QStringQString是Qt中最常用的字符串类，用于处理Unicode字符串。它提供了一整套丰富的函数来处理字符串，包括创建、修改、搜索、比较等。特点：Unicode支持：QString内部使用UTF-16编码，支持Uni
DeepSeek大模型如何提升论文与代码效率智能计算研究中心其他
内容概要DeepSeek大模型作为人工智能领域的前沿成果，通过670亿参数的混合专家架构（Mixture-of-Experts,MoE），在多模态任务处理与专业场景应用中展现了显著优势。其核心技术突破体现在多语言处理能力、视觉语言理解模块以及深度优化的自然语言处理算法上，能够覆盖学术研究、代码开发、内容创作等多元场景。例如，在论文写作领域，模型通过智能选题推荐、文献综述生成及SEO关键词拓展功能，
hasOwnProperty是什么？【JavaScript方法】幸运小圣 JavaScript javascript 开发语言
hasOwnPropertyhasOwnProperty是什么？用于判断一个对象是否包含特定的自身属性。它只会返回对象自身具有的属性，而不会返回从原型链上继承的属性。obj.hasOwnProperty(prop)obj是需要检查的对象。prop是需要检查是否存在的属性名（字符串）。返回值:如果对象obj具有名为prop的自身属性，则返回true。否则返回false。constobj={name:
老榕树的Java专题：MySql中的函数程序员_老榕树树哥java专题：从0到1 java mysql 开发语言
MySQL提供了丰富的函数，可用于数据处理、字符串操作、数值计算、日期和时间处理等多个方面。以下是各类常用函数的介绍：字符串函数CONCAT(str1,str2,...)功能：将多个字符串连接成一个字符串。示例：SELECTCONCAT('Hello','','World');结果为HelloWorld。SUBSTRING(str,start,length)功能：从字符串str的start位置开始
c语言实现：输入一个字符串，统计出这个字符串的字符个数 artificiali c语言算法 c语言
最近开始学遇到的一个小问题先上代码：#include#includeintmain(){charstr[100];intcount=0,i;printf("请输入一个字符串：");gets(str);//遍历字符串每个字符，累加字符数for(i=0;str[i]!='\0';i++){count++;}printf("输入的字符串中共有%d个字符。\n",count);return0;}在以上代码
iOS安全和逆向系列教程第13篇：iOS动态分析基础自学不成才 iOS安全和逆向系列教程 ios cocoa macos
iOS逆向工程专栏第13篇：iOS动态分析基础引言在前面的文章中，我们详细探讨了iOS系统架构、逆向开发环境搭建、Mach-O文件格式分析，以及各种静态分析工具和技术。通过静态分析，我们可以了解应用的结构、类和方法定义，以及基本的控制流程。然而，静态分析也存在明显的局限性：我们无法观察应用的实际运行状态，难以分析加密算法的实现细节，也无法直接查看网络请求的完整内容。这就是为什么我们需要动态分析技术
决策树 vs 神经网络：何时使用？ HP-Succinum 机器学习决策树神经网络算法
目录1.决策树（DecisionTrees）1.1特点1.2优点1.3缺点1.4适用场景2.神经网络（NeuralNetworks）2.1特点2.2优点2.3缺点2.4适用场景3.何时选择哪种方法？4.结合使用的可能性5.总结在机器学习领域，决策树（DecisionTrees）和神经网络（NeuralNetworks）是两种常见但风格截然不同的算法。它们各自适用于不同类型的问题，本文将介绍它们的特
Github 2025-03-07 Java开源项目日报Top7 老孙正经胡说 github java 开源 Github趋势分析开源项目 Python Golang
根据GithubTrendings的统计，今日(2025-03-07统计)共有7个项目上榜。根据开发语言中项目的数量，汇总情况如下：开发语言项目数量Java项目7TypeScript项目1Ruby项目1Java实现的算法集合：使用Gitpod.io进行编辑和贡献创建周期：2883天开发语言：Java协议类型：MITLicenseStar数量：57266个Fork数量：18692次关注人数：5726
机器视觉3D线激光轮廓仪的精度为什么高视觉人机器视觉杂说 3d 机器人 opencv 人工智能视觉检测
3D激光轮廓仪的高精度源于其硬件设计、光学系统、软件算法及环境控制等多方面的协同优化，以下是具体原因的分点解析：激光光源的高性能单色性与方向性：激光具有极好的单色性和准直性，光束发散角小，能形成稳定的光斑，减少光路偏差。高稳定性：激光器输出功率和波长稳定，避免因光源波动导致的测量误差。短波长优势：部分激光采用短波长（如蓝光），可检测更微小的表面细节，提升分辨率。高分辨率传感器CMOS/CCD传感器
SQL的各种连接查询 xieke90 UNION ALL UNION 外连接内连接 JOIN
一、内连接概念：内连接就是使用比较运算符根据每个表共有的列的值匹配两个表中的行。内连接（join 或者inner join ） SQL语法： select * fron
java编程思想--复用类百合不是茶 java 继承代理组合 final类
复用类看着标题都不知道是什么,再加上java编程思想翻译的比价难懂,所以知道现在才看这本软件界的奇书一:组合语法:就是将对象的引用放到新类中即可代码: package com.wj.reuse; /** * * @author Administrator 组
[开源与生态系统]国产CPU的生态系统 comsci cpu
计算机要从娃娃抓起...而孩子最喜欢玩游戏.... 要让国产CPU在国内市场形成自己的生态系统和产业链,国家和企业就不能够忘记游戏这个非常关键的环节.... 投入一些资金和资源,人力和政策,让游
JVM内存区域划分Eden Space、Survivor Space、Tenured Gen，Perm Gen解释商人shang jvm内存
jvm区域总体分两类，heap区和非heap区。heap区又分：Eden Space（伊甸园）、Survivor Space(幸存者区)、Tenured Gen（老年代-养老区）。非heap区又分：Code Cache(代码缓存区)、Perm Gen（永久代）、Jvm Stack(java虚拟机栈)、Local Method Statck(本地方法栈)。 HotSpot虚拟机GC算法采用分代收
页面上调用 QQ oloz qq
<A href="tencent://message/?uin=707321921&Site=有事Q我&Menu=yes"> <img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:1></a>
一些问题文强chu 问题
1.eclipse 导出 doc 出现“The Javadoc command does not exist.” javadoc command 选择 jdk/bin/javadoc.exe 2.tomcate 配置 web 项目 ..... SQL:3.mysql * 必须得放前面否则 select&nbs
生活没有安全感小桔子生活孤独安全感
圈子好小，身边朋友没几个，交心的更是少之又少。在深圳，除了男朋友，没几个亲密的人。不知不觉男朋友成了唯一的依靠，毫不夸张的说，业余生活的全部。现在感情好，也很幸福的。但是说不准难免人心会变嘛，不发生什么大家都乐融融，发生什么很难处理。我想说如果不幸被分手(无论原因如何)，生活难免变化很大，在深圳，我没交心的朋友。明
php 基础语法 aichenglong php 基本语法
1 .1 php变量必须以$开头 <?php $a=” b”; echo ?> 1 .2 php基本数据库类型 Integer float/double Boolean string 1 .3 复合数据类型数组array和对象 object 1 .4 特殊数据类型 null 资源类型(resource) $co
mybatis tools 配置详解 AILIKES mybatis
MyBatis Generator中文文档 MyBatis Generator中文文档地址： http://generator.sturgeon.mopaas.com/ 该中文文档由于尽可能和原文内容一致，所以有些地方如果不熟悉，看中文版的文档的也会有一定的障碍，所以本章根据该中文文档以及实际应用，使用通俗的语言来讲解详细的配置。本文使用Markdown进行编辑，但是博客显示效
继承与多态的探讨百合不是茶 JAVA面向对象继承对象
继承 extends 多态继承是面向对象最经常使用的特征之一：继承语法是通过继承发、基类的域和方法 //继承就是从现有的类中生成一个新的类，这个新类拥有现有类的所有extends是使用继承的关键字：在A类中定义属性和方法； class A{ //定义属性 int age； //定义方法 public void go
JS的undefined与null的实例 bijian1013 JavaScript JavaScript
<form name="theform" id="theform"> </form> <script language="javascript"> var a alert(typeof(b)); //这里提示undefined if(theform.datas
TDD实践（一） bijian1013 java 敏捷 TDD
一.TDD概述 TDD：测试驱动开发，它的基本思想就是在开发功能代码之前，先编写测试代码。也就是说在明确要开发某个功能后，首先思考如何对这个功能进行测试，并完成测试代码的编写，然后编写相关的代码满足这些测试用例。然后循环进行添加其他功能，直到完全部功能的开发。
[Maven学习笔记十]Maven Profile与资源文件过滤器 bit1129 maven
什么是Maven Profile Maven Profile的含义是针对编译打包环境和编译打包目的配置定制，可以在不同的环境上选择相应的配置，例如DB信息，可以根据是为开发环境编译打包，还是为生产环境编译打包，动态的选择正确的DB配置信息 Profile的激活机制 1.Profile可以手工激活，比如在Intellij Idea的Maven Project视图中可以选择一个P
【Hive八】Hive用户自定义生成表函数(UDTF) bit1129 hive
1. 什么是UDTF UDTF，是User Defined Table-Generating Functions，一眼看上去，貌似是用户自定义生成表函数，这个生成表不应该理解为生成了一个HQL Table，貌似更应该理解为生成了类似关系表的二维行数据集 2. 如何实现UDTF 继承org.apache.hadoop.hive.ql.udf.generic
tfs restful api 加auth 2.0认计 ronin47
　　目前思考如何给tfs的ngx-tfs api增加安全性。有如下两点：　　一是基于客户端的ip设置。这个比较容易实现。　　二是基于OAuth2.0认证，这个需要lua，实现起来相对于一来说，有些难度。　　现在重点介绍第二种方法实现思路。　　前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGe
jdk环境变量配置 byalias java jdk
进行java开发，首先要安装jdk，安装了jdk后还要进行环境变量配置： 1、下载jdk（http://java.sun.com/javase/downloads/index.jsp），我下载的版本是：jdk-7u79-windows-x64.exe 2、安装jdk-7u79-windows-x64.exe 3、配置环境变量：右击"计算机"-->&quo
《代码大全》表驱动法-Table Driven Approach-2 bylijinnan java
package com.ljn.base; import java.io.BufferedReader; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayList; import java.util.Collections; import java.uti
SQL 数值四舍五入小数点后保留2位 chicony 四舍五入
1.round() 函数是四舍五入用，第一个参数是我们要被操作的数据，第二个参数是设置我们四舍五入之后小数点后显示几位。 2.numeric 函数的2个参数，第一个表示数据长度，第二个参数表示小数点后位数。例如：　　select cast(round(12.5,2) as numeric(5,2))
c++运算符重载 CrazyMizzz C++
一、加+，减-，乘*，除/ 的运算符重载 Rational operator*(const Rational &x) const{ return Rational(x.a * this->a); } 在这里只写乘法的，加减除的写法类似二、<<输出,>>输入的运算符重载 &nb
hive DDL语法汇总 daizj hive 修改列 DDL 修改表
hive DDL语法汇总１、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name; 2、修改表备注 hive> ALTER TABLE table_name SET TBLPROPERTIES ('comment' = new_comm
jbox使用说明 dcj3sjt126com Web
参考网址：http://www.kudystudio.com/jbox/jbox-demo.html jBox v2.3 beta [ 点击下载] 技术交流QQGroup：172543951 100521167 [2011-11-11] jBox v2.3 正式版 - [调整&修复] IE6下有iframe或页面有active、applet控件
UISegmentedControl 开发笔记 dcj3sjt126com
// typedef NS_ENUM(NSInteger, UISegmentedControlStyle) { // UISegmentedControlStylePlain, // large plain &
Slick生成表映射文件 ekian scala
Scala添加SLICK进行数据库操作，需在sbt文件上添加slick-codegen包 "com.typesafe.slick" %% "slick-codegen" % slickVersion 因为我是连接SQL Server数据库，还需添加slick-extensions，jtds包 "com.typesa
ES-TEST gengzg test
package com.MarkNum; import java.io.IOException; import java.util.Date; import java.util.HashMap; import java.util.Map; import javax.servlet.ServletException; import javax.servlet.annotation
为何外键不再推荐使用 hugh.wang mysql DB
表的关联，是一种逻辑关系，并不需要进行物理上的“硬关联”，而且你所期望的关联，其实只是其数据上存在一定的联系而已，而这种联系实际上是在设计之初就定义好的固有逻辑。在业务代码中实现的时候，只要按照设计之初的这种固有关联逻辑来处理数据即可，并不需要在数据库层面进行“硬关联”，因为在数据库层面通过使用外键的方式进行“硬关联”，会带来很多额外的资源消耗来进行一致性和完整性校验，即使很多时候我们并不
领域驱动设计 julyflame VO DAO 设计模式 DTO po
概念： VO（View Object）：视图对象，用于展示层，它的作用是把某个指定页面（或组件）的所有数据封装起来。 DTO（Data Transfer Object）：数据传输对象，这个概念来源于J2EE的设计模式，原来的目的是为了EJB的分布式应用提供粗粒度的数据实体，以减少分布式调用的次数，从而提高分布式调用的性能和降低网络负载，但在这里，我泛指用于展示层与服务层之间的数据传输对
单例设计模式 hm4123660 java Singleton 单例设计模式懒汉式饿汉式
单例模式是一种常用的软件设计模式。在它的核心结构中只包含一个被称为单例类的特殊类。通过单例模式可以保证系统中一个类只有一个实例而且该实例易于外界访问，从而方便对实例个数的控制并节约系统源。如果希望在系统中某个类的对象只能存在一个，单例模式是最好的解决方案。 &nb
logback zhb8015 log logback
一、logback的介绍 Logback是由log4j创始人设计的又一个开源日志组件。logback当前分成三个模块：logback-core,logback- classic和logback-access。logback-core是其它两个模块的基础模块。logback-classic是log4j的一个改良版本。此外logback-class
整合Kafka到Spark Streaming——代码示例和挑战 Stark_Summer spark storm zookeeper PARALLELISM processing
作者Michael G. Noll是瑞士的一位工程师和研究员，效力于Verisign，是Verisign实验室的大规模数据分析基础设施（基础Hadoop）的技术主管。本文，Michael详细的演示了如何将Kafka整合到Spark Streaming中。期间， Michael还提到了将Kafka整合到 Spark Streaming中的一些现状，非常值得阅读，虽然有一些信息在Spark 1.2版
spring-master-slave-commondao 王新春 DAO spring dataSource slave master
互联网的web项目，都有个特点：请求的并发量高，其中请求最耗时的db操作，又是系统优化的重中之重。为此，往往搭建 db的一主多从库的数据库架构。作为web的DAO层，要保证针对主库进行写操作，对多个从库进行读操作。当然在一些请求中，为了避免主从复制的延迟导致的数据不一致性，部分的读操作也要到主库上。（这种需求一般通过业务垂直分开，比如下单业务的代码所部署的机器，读去应该也要从主库读取数