转自:http://taop.marchtea.com/08.06.html
常关注本blog的读者朋友想必看过此篇文章:从 B树、B+树、B*树谈到R 树 ,这次,咱们来讲另外两种树:Tire树与后缀树。不过,在此之前,先来看两个问题。
第一个问题: 一个文本文件,大约有一万行,每行一个词,要求统计出其中最频繁出现的前10个词,请给出思想,给出时间复杂度分析。
之前在此文: 海量数据处理面试题集锦与Bit-map 详解中给出的参考答案:用trie树统计每个词出现的次数,时间复杂度是O(n*le)(le表示单词的平均长度),然后是找出出现最频繁的前10个词。也可以用堆来实现(具体的操作可参考第三章、寻找最小的k个数),时间复杂度是O(n*lg10)。所以总的时间复杂度,是O(n*le)与O(n*lg10)中较大的哪一个。
第二个问题: 找出给定字符串里的最长回文。例子:输入XMADAMYX。则输出MADAM。这道题的流行解法是用后缀树(Suffix Tree),但其用途远不止如此,它能高效解决一大票复杂的字符串编程问题(当然,它有它的弱点,如算法实现复杂以及空间开销大),概括如下:
本文 第一部分 ,咱们就来了解这个 Trie树 ,然后自然而然过渡到 第二部分、后缀树 权作此番阐述,以备不时之需,在需要的时候便可手到擒来。ok,有任何问题,欢迎不吝指正或赐教。谢谢。
Trie树,即字典树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
它有3个基本性质:
举个在网上流传颇广的例子,如下:
题目:给你100000个长度不超过10的单词。对于每一个单词,我们要判断他出没出现过,如果出现了,求第一次出现在第几个位置。
分析:这题当然可以用hash来解决,但是本文重点介绍的是trie树,因为在某些方面它的用途更大。比如说对于某一个单词,我们要询问它的前缀是否出现过。这样hash就不好搞了,而用trie还是很简单。
现在回到例子中,如果我们用最傻的方法,对于每一个单词,我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd,那么在他前面的单词中,以b,c,d,f之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的,在以a开头中的单词中,我们只要考虑以b作为第二个字母的,一次次缩小范围和提高针对性,这样一个树的模型就渐渐清晰了。
好比假设有b,abc,abd,bcd,abcd,efg,hii 这6个单词,我们构建的树就是如下图这样的:
当时第一次看到这幅图的时候,便立马感到此树之不凡构造了。单单从上幅图便可窥知一二,好比大海搜人,立马就能确定东南西北中的到底哪个方位,如此迅速缩小查找的范围和提高查找的针对性,不失为一创举。
ok,如上图所示,对于每一个节点,从根遍历到他的过程就是一个单词,如果这个节点被标记为红色,就表示这个单词存在,否则不存在。
那么,对于一个单词,我只要顺着他从根走到对应的节点,再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色,就相当于插入了这个单词。
这样一来我们查询和插入可以一起完成(重点体会这个查询和插入是如何一起完成的,稍后,下文具体解释),所用时间仅仅为单词长度,在这一个样例,便是10。
我们可以看到,trie树每一层的节点数是26^i级别的。所以为了节省空间。我们用动态链表,或者用数组来模拟动态。空间的花费,不会超过单词数×单词长度。
上文中提到”比如说对于某一个单词,我们要询问它的前缀是否出现过。这样hash就不好搞了,而用trie还是很简单“。下面,咱们来看看这个前缀查询问题:
已知n个由小写字母构成的平均长度为10的单词,判断其中 是否存在某个串为另一个串的前缀子串 。下面对比3种方法:
下面解释下上述方法3中所说的为什么hash不能将建立与查询同时执行,而Trie树却可以:
读者反馈 @悠悠长风:关于这点,我有不同的看法。hash也是可以实现边建立边查询的啊。当插入911时,需要一个额外的标志位,表示它是一个完整的单词。在处理911456时,也是按照前面的查询9,91,911,当查询911时,是可以找到前面插入的911,且通过标志位知道911为一个完整单词。那么就可以判断出911为911456的前缀啊。虽然trie树更适合这个问题,但是我认为hash也是可以实现边建立,边查找。
至于,有关Trie树的查找,插入等操作的实现代码,网上遍地开花且千篇一律,诸君尽可参考,想必不用我再做多余费神。
Trie树是简单但实用的数据结构,通常用于实现字典查询。我们做即时响应用户输入的AJAX搜索框时,就是Trie开始。本质上,Trie是一颗存储多个字符串的树。相邻节点间的边代表一个字符,这样树的每条分支代表一则子串,而树的叶节点则代表完整的字符串。和普通树不同的地方是,相同的字符串前缀共享同一条分支。下面,再举一个例子。给出一组单词,inn, int, at, age, adv, ant, 我们可以得到下面的Trie:
可以看出:
查询操纵非常简单。比如要查找int,顺着路径i -> in -> int就找到了。
搭建Trie的基本算法也很简单,无非是逐一把每则单词的每个字母插入Trie。插入前先看前缀是否存在。如果存在,就共享,否则创建对应的节点和边。比如要插入单词add,就有下面几步:
除了本文引言处所述的问题能应用Trie树解决之外,Trie树还能解决下述问题(节选自此文: 海量数据处理面试题集锦与Bit-map ):
有了Trie,后缀树就容易理解了。本文接下来的第二部分,介绍后缀树。
下面是相关的实现代码
package algorithm;
import java.util.*;
/**
* Created by jdan on 2017/5/11.
*/
public class Trie {
class Node implements Comparable{
private Node[] next;
private String word;
private int cnt;
public Node() {
next = new Node[26];
word = "";
cnt = 0;
}
@Override
public int compareTo(Node node) {
return cnt - node.cnt;
}
}
Node root;
public Trie() {
root = new Node();
}
/*
* insert the String s
* */
public void insert(String s) {
int n = s.length();
Node curNode = root;
for (int i = 0; i < n; i++) {
char c = s.charAt(i);
if (curNode.next[c-'a'] == null) curNode.next[c-'a'] = new Node();
curNode = curNode.next[c-'a'];
}
curNode.word = s;
curNode.cnt++;
}
/*
* delete the String s
* */
public void delete(String s) {
int n = s.length();
Node curNode = root;
for (int i = 0; i < n; i++) {
char c = s.charAt(i);
if (curNode.next[c-'a'] == null) return;
curNode = curNode.next[c-'a'];
}
if (curNode.cnt > 0) curNode.cnt--;
}
/*
* search for the string s in the trie
* */
public boolean find(String s) {
int n = s.length();
Node curNode = root;
for (int i = 0; i < n; i++) {
char c = s.charAt(i);
if (curNode.next[c-'a'] == null) return false;
curNode = curNode.next[c-'a'];
}
return curNode.cnt > 0;
}
public void findKth(Node node, int k, PriorityQueue queue) {
if (node == null) return;
int cnt = node.cnt;
if (cnt > 0) {
if (queue.size() < k) queue.add(node);
else {
int min = queue.peek().cnt;
if (cnt > min) {
queue.poll();
queue.add(node);
}
}
}
for (int i = 0; i < 26; i++) {
if (node.next[i] != null) findKth(node.next[i], k, queue);
}
}
/*
* 查找出现次数最多的k个单词
* find the most frequent k words
* */
public List findKthLargest(int k) {
PriorityQueue queue = new PriorityQueue<>();
findKth(root, k, queue);
List res = new ArrayList<>();
while (!queue.isEmpty()) {
Node node = queue.poll();
res.add(node.word);
}
return res;
}
public void sortTrieMethod(Node node, List res) {
if (node == null) return;
if (node.cnt > 0) res.add(node.word);
for (int i = 0; i < 26; i++) {
if (node.next[i] != null) sortTrieMethod(node.next[i], res);
}
}
/*
* sort the words in trie using lexicographical order
* */
public List sortTrie() {
List res = new ArrayList<>();
sortTrieMethod(root, res);
return res;
}
public static void main(String[] args) {
Trie tree = new Trie();
tree.insert("hello");
tree.insert("hello");
tree.insert("hi");
tree.insert("hi");
tree.insert("hi");
System.out.println(tree.sortTrie());
System.out.println(tree.findKthLargest(1));
}
}
后缀树(Suffix tree)是一种数据结构,能快速解决很多关于字符串的问题。后缀树的概念最早由Weiner 于1973年提出,既而由McCreight 在1976年和Ukkonen在1992年和1995年加以改进完善。
后缀,顾名思义,甚至通俗点来说,就是所谓后缀就是后面尾巴的意思。比如说给定一长度为n的字符串S=S1S2..Si..Sn,和整数i,1 <= i <= n,子串SiSi+1...Sn便都是字符串S的后缀。
以字符串S=XMADAMYX为例,它的长度为8,所以S[1..8], S[2..8], ... , S[8..8]都算S的后缀,我们一般还把空字串也算成后缀。这样,我们一共有如下后缀。对于后缀S[i..n],我们说这项后缀起始于i。
S[1..8], XMADAMYX, 也就是字符串本身,起始位置为1
S[2..8], MADAMYX,起始位置为2
S[3..8], ADAMYX,起始位置为3
S[4..8], DAMYX,起始位置为4
S[5..8], AMYX,起始位置为5
S[6..8], MYX,起始位置为6
S[7..8], YX,起始位置为7
S[8..8], X,起始位置为8
空字串,记为$。
而后缀树,就是包含一则字符串所有后缀的压缩Trie。把上面的后缀加入Trie后,我们得到下面的结构:
仔细观察上图,我们可以看到不少值得压缩的地方。比如蓝框标注的分支都是独苗,没有必要用单独的节点同边表示。如果我们允许任意一条边里包含多个字 母,就可以把这种没有分叉的路径压缩到一条边。另外每条边已经包含了足够的后缀信息,我们就不用再给节点标注字符串信息了。我们只需要 在叶节点上标注上每项后缀的起始位置 。于是我们得到下图:
这样的结构丢失了某些后缀。比如后 缀X在上图中消失了 ,因为它正好是字符串XMADAMYX的前缀。为了避免这种情况,我们也规定 每项后缀不能是其它后缀的前缀 。要解决这个问题其实挺简单,在 待处理的子串后加一个空字串 就行了。例如我们处理XMADAMYX前,先把XMADAMYX变为 XMADAMYX$,于是就得到suffix tree--后缀树了,如下图所示:
那后缀树同最长回文有什么关系呢?我们得先知道两个简单概念:
有了上面的概念,本文引言中提出的查找最长回文问题就相对简单了。咱们来回顾下引言中提出的回文问题的具体描述:找出给定字符串里的最长回文。例如输入XMADAMYX,则输出MADAM。
思维的突破点在于考察回文的半径,而不是回文本身。所谓半径,就是回文对折后的字串。比如回文MADAM 的半径为MAD,半径长度为3,半径的中心是字母D。显然,最长回文必有最长半径,且两条半径相等。还是以MADAM为例,以D为中心往左,我们得到半径 DAM;以D为中心向右,我们得到半径DAM。二者肯定相等。因为MADAM已经是单词XMADAMYX里的最长回文,我们可以肯定从 D往左数的字串 DAMX与从D往右数的子串DAMYX共享最长前缀DAM 。而这,正是解决回文问题的关键。现在我们有后缀树,怎么把从D向左数的字串DAMX变成后缀 呢?
到这个地步,答案应该明显: 把单词XMADAMYX翻转(XMADAMYX=>XYMADAMX , DAMX 就变成后缀了 ) 就行了。于是我们把寻找回文的问题转换成了寻找两坨后缀的 LCA 的问题。当然,我们还需要知道 到底查询那些后缀间的LCA。很简单,给定字符串S,如果最长回文的中心在i,那从位置i向右数的后缀刚好是S(i),而向左数的字符串刚好是翻转S后得到的字符串S‘的后缀S'(n-i+1)。这里的n是字符串S的长度。
可能上面的阐述还不够直观,我再细细说明下:
1. 首先,还记得本第二部分开头关于后缀树的定义么: “先说说后缀的定义,顾名思义,甚至通俗点来说,就是所谓后缀就是后面尾巴的意思。比如说给定一长度为n的字符串S=S1S2..Si..Sn,和整数i, 1 <= i <= n,子串SiSi+1...Sn便都是字符串S的后缀 。”
以字符串S=XMADAMYX为例,它的长度为8,所以S[1..8], S[2..8], ... , S[8..8]都算S的后缀,我们一般还把空字串也算成后缀。这样,我们一共有如下后缀。对于后缀S[i..n],我们说这项后缀起始于i。
S[1..8], XMADAMYX, 也就是字符串本身,起始位置为1
S[2..8], MADAMYX,起始位置为2
S[3..8], ADAMYX,起始位置为3
S[4..8], DAMYX,起始位置为4
S[5..8], AMYX,起始位置为5
S[6..8], MYX,起始位置为6
S[7..8], YX,起始位置为7
S[8..8], X,起始位置为8
空字串,记为$。
2. 对单词XMADAMYX而言,回文中心为D,那么D向右的后缀 DAMYX 假设是S(i)(当N=8,i从1开始计数,i=4时,便是S(4..8));而对于翻转后的单词XYMADAMX而言,回文中心D向右对应的后缀为 DAMX ,也就是S'(N-i+1)((N=8,i=4,便是S‘(5..8)) 。此刻已经可以得出,它们共享最长前缀,即 LCA(DAMYX,DAMX)=DAM 。有了这套直观解释,算法自然呼之欲出:
预处理后缀树,使得查询LCA的复杂度为O(1)。这步的开销是O(N),N是单词S的长度 ;
对单词的每一位置i(也就是从0到N-1),获取LCA(S(i), S‘(N-i+1)) 以及LCA(S(i+1), S’(n-i+1))。查找两次的原因是我们需要考虑奇数回文和偶数回文的情况。这步要考察每坨i,所以复杂度是O(N) ;
找到最大的LCA,我们也就得到了回文的中心i以及回文的半径长度,自然也就得到了最长回文。总的复杂度O(n)。
用上图做例子,i为4时,LCA(4$, 5#)为DAM,正好是最长半径。当然,这只是直观的叙述。
上面大致描述了后缀树的基本思路。要想写出实用代码,至少还得知道下面的知识:
后缀树的用途,总结起来大概有如下几种: