数据结构八-Trie树

文章出处:极客时间《数据结构和算法之美》-作者:王争。该系列文章是本人的学习笔记。

1 Trie树的使用场景

搜索引擎中的搜索词建议。当你在搜索引擎中输入词,搜索引擎提示给你一个词的列表,帮助你快速输入想搜索的词。
数据结构八-Trie树_第1张图片
这个功能要想想做得精准,肯定需要很多优化工作。但这个功能的底层数据结构就是Trie树。

2 什么是Trie树

Trie树也叫字典树,是一种树形结构,专门用于处理在一个字符串集合中查找某个字符串。

2.1 Trie树的结构

例如需要在how,hi,her,hello,so,see这六个字符串中查找某个字符串。我们也可以用字符串和这6个字符串逐个比较,只是效率不高。使用Trie树只需要一次比较就可以。我们先用这六个字符串构建一个Trie树。
数据结构八-Trie树_第2张图片
之后每次查找从Trie树的根节点开始查找。Trie树是利用字符串之间的公共前缀,将重复的前缀合并在一起。根节点不包含任何信息,每个节点是字符串中的一个字符。从根节点到红色节点的一条路径表示一个字符串。重点:红色节点并不都是叶子节点,例子中没有表示出来。

2.2 Trie树的构造过程

数据结构八-Trie树_第3张图片 数据结构八-Trie树_第4张图片

2.3 Trie树的查找过程

当我们查找一个字符串的时候从根节点开始。例如查找字符串"her",我们把字符串切分成字符h e r,从根节点开始,走出路径:/->h->e->r,并且r节点有字符串结束标志,树中包含字符串her。
例如我们查找字符串"he",我们把字符串切分成字符h e。从根节点开始,走出路径:/->h->e。但是e没有字符串结束标志,所以树中不包含he。

3 Trie树代码实现

Trie树的操作包括初始化和查找。
Trie树是一棵多叉树。在二叉树的时候节点每个节点是用左右指针指向子节点。

class BinaryTreeNode {
  char data;
  BinaryTreeNode left;
  BinaryTreeNode right;  
}


Trie树是一个多叉树,怎么存储节点的子节点呢?一种方法是假设字符串只包含小写字母,可以在字母和数组下标之间做映射,使用数组存储子节点。如果子节点的字母是a,存储在children[0];如果子节点的字母是b,存储在children[1]…

class TrieNode {
  char data;
  TrieNode children[26];
}

整体代码:

public class Trie {
    private TrieNode root = new TrieNode('/');
    public void insert(String text){

        char[] chars = text.toCharArray();
        TrieNode node = root;
        for(int i=0;i

Trie树的时间复杂度。Trie树构建的时候需要遍历所有的字符,时间复杂度O(n)。n为 所有字符串长度之和。查找的时候每个字符遍历一次,时间复杂度O(m),m是查找字符串长度。

4 Trie树适合解决的问题

4.1 Trie树的缺点:耗内存

上面的代码中每个节点都需要长度为26的数组存储子节点。但是并不是每个字母后面都会跟着26个字母,很多数组 中的值是空的。
这还是只考虑了小写字母的情况,当要存储的包含数字、中文的时候按照这种方式存储会需要 更多的内容。这个时候可以考虑使用哈希表存储子节点。也可以使用有序数组、跳表、红黑树等,牺牲一定的性能。例如使用有序数组,那插入的时候要维护数组有序,多消耗时间,查询每一层子节点的时候不是O(1),而是需要二分。

4.2 Trie树的优点:前缀匹配

对于支持动态数组高效操作的数据结构有散列表、红黑树、跳表等。这些数据结构也可以实现字符串查找。而Trie树除了字符串匹配之外,更常用于字符串前缀匹配。就是前面提到的搜索词提示。词库是用户的热门搜索词,这些词构建一棵Trie树。我们把用户输入的词作为前缀子串去Trie树中匹配,将匹配到的字符串返回。
实际工程中会遇到 一些问题需要解决:
1 词库中匹配到的词可能很多,怎么排序?
2 在用户拼写错误的情况下依然能够返回正确的提示词,怎么做到?

你可能感兴趣的:(trie树)