看动画轻松理解「Trie树」
Trie树
Trie这个名字取自“retrieval”,检索,因为Trie可以只用一个前缀便可以在一部字典中找到想要的单词。
虽然发音与「Tree」一致,但为了将这种 字典树 与 普通二叉树 以示区别,程序员小吴一般读「Trie」尾部会重读一声,可以理解为读「TreeE」。
Trie树,也叫“字典树”。顾名思义,它是一个树形结构。它是一种专门处理字符串匹配的数据结构,用来解决在一组字符串集合中快速查找某个字符串的问题。
此外Trie树也称前缀树(因为某节点的后代存在共同的前缀,比如pan是panda的前缀)。
它的Key都为字符串,能做到高效查询和插入,时间复杂度为O(k),k为字符串长度,缺点是如果大量字符串没有共同前缀时很耗内存。
它的核心思想就是通过最大限度地减少无谓的字符串比较,使得查询高效率,即「用空间换时间」,再利用共同前缀来提高查询效率。
Trie树的特点
假设有5个字符串,它们分别是:Code,Cook,Five,File,Fat。现在需要在里面多次查找某个字符串是否存在。如果每次查找,都是拿要查找的字符串跟这5个字符串依次进行字符串匹配,那效率就比较低,有没有更高效的方法呢?
如果将这5个字符串组织成下图的结构,从肉眼上扫描过去感官上是不是比查找起来会更加迅速。
Trie树样子
通过上图,可以发现Trie树的三个特点:
通过动画理解Trie树构造的过程。在构造过程中的每一步,都相当于往Trie树中插入一个字符串。当所有字符串都插入完成之后,Trie树就构造好了。
Trie 树构造
Trie树的插入操作
Trie树的插入操作
Trie树的插入操作很简单,其实就是将单词的每个字母逐一插入Trie树。插入前先看字母对应的节点是否存在,存在则共享该节点,不存在则创建对应的节点。比如要插入新单词Cook,就有下面几步:
Trie树的查询操作
在Trie树中查找一个字符串的时候,比如查找字符串code,可以将要查找的字符串分割成单个的字符c,o,d,e,然后从Trie树的根节点开始匹配。如图所示,绿色的路径就是在Trie树中匹配的路径。
code的匹配路径
如果要查找的是字符串cod(鳕鱼)呢?还是可以用上面同样的方法,从根节点开始,沿着某条路径来匹配,如图所示,绿色的路径,是字符串cod匹配的路径。
但是,路径的最后一个节点「d」并不是橙色的,并不是单词标志位,所以cod字符串不存在。也就是说,cod是某个字符串的前缀子串,但并不能完全匹配任何字符串。
cod的匹配路径
程序员不要当一条咸鱼,要向 cook 靠拢:)。
Trie树的删除操作
Trie树的删除操作与二叉树的删除操作有类似的地方,需要考虑删除的节点所处的位置,这里分三种情况进行分析:
删除整个单词(比如hi)
删除整个单词
删除前缀单词(比如cod):
删除前缀单词
这种方式删除比较简单。
只需要将cod单词整个字符串查找完后,d节点因为不是叶子节点,只需将其单词标志去掉即可。
删除分支单词(比如cook):
删除分支单词
与 删除整个单词 情况类似,区别点在于删除到cook的第一个o时,该节点为非叶子节点,停止删除,这样就完成cook。
Trie树的应用
事实上Trie树在日常生活中的使用随处可见,比如这个:
具体来说就是经常用于统计和排序大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。
它的优点是:最大限度地减少无谓的字符串比较,查询效率比哈希表高。
1. 前缀匹配
例如:找出一个字符串集合中所有以五分钟开头的字符串。我们只需要用所有字符串构造一个Trie树,然后输出以 五−>分−>钟 开头的路径上的关键字即可。
Trie树前缀匹配常用于搜索提示。如当输入一个网址,可以自动搜索出可能的选择。当没有完全匹配的搜索结果,可以返回前缀最相似的可能。
Google搜索
2. 字符串检索
给出N个单词组成的熟词表,以及一篇全用小写英文书写的文章,按最早出现的顺序写出所有不在熟词表中的生词。
检索/查询功能是Trie树最原始的功能。给定一组字符串,查找某个字符串是否出现过,思路就是从根节点开始一个一个字符进行比较:
Trie树的局限性
如前文所讲,Trie的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
假设字符的种数有m个,有若干个长度为n的字符串构成了一个Trie树 ,则每个节点的出度为m(即每个节点的可能子节点数量为m),Trie树的高度为n。
很明显我们浪费了大量的空间来存储字符,此时Trie树的最坏空间复杂度为O(m^n)。
也正由于每个节点的出度为m,所以我们能够沿着树的一个个分支高效的向下逐个字符的查询,而不是遍历所有的字符串来查询,此时Trie树的最坏时间复杂度为O(n)。
这正是空间换时间的体现,也是利用公共前缀降低查询时间开销的体现。
作者简介:作者程序员小吴,哈工大学渣,目前正在学算法,开源项目 「 LeetCodeAnimation 」5500star,GitHub Trending 榜连续一月第一。欢迎大家关注我的微信公众号:五分钟学算法,一起学习,一起进步!
声明:本文为作者投稿,版权归其个人所有。