模式匹配:TrieTree原理

一、基本知识

1、定义

在计算机科学中,TrieTree又称为前缀树、字典树,是一种有序树,用于保存关联数组,通常为字符串。在前缀树中,通常有一个根节点,每一个节点的子节点都拥有相同的前缀,如果保存的是字符串,那么代表拥有相同的前缀字符串。

2、结构图

假设存在一棵树,存储了字符串集合{“a”, “to”, “tea”, “ted”, “ten”, “i”, ‘in”, “inn”},TrieTree结构如下:
模式匹配:TrieTree原理_第1张图片
通常在实现前缀树的时候,会在节点结构中设置一个标志,用来标记本节点是否构成一个单词,如上图中标记为蓝色的节点。
前缀树可以很方便的进行扩展,只要按照规则,顺序搜索增加节点或标志位,同样删除时只需要去除标志位或者删除节点即可。

3、特点

前缀树的核心思想是空间换时间,利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。
它有三个基本性质:
(1)根节点不包含字符,除根节点外每一个节点都只包含一个字符
(2)从根节点到某一个节点,路径上经过的字符连接起来,为该节点对应的字符串
(3)每个节点的所有子节点包含的字符串都不相同

二、前缀树的优缺点

1、优点

(1)插入和查询的效率很高,都为O(m),其中m为待插入查询的字符串的长度。对比hash表查询的时间复杂度O(1),看起来是慢了,但是hash搜索的效率通常取决于hash函数的好坏,如果hash函数导致冲突效率并不一定快。
(2)前缀树中不同的关键字不会产生冲突
(3)前缀树不用那个求hash值,对短字符串有更快的速度,减少了遍历字符串求hash值的过程

2、缺点

(1)当hash函数很好时,前缀树的查找效率不比哈希搜索快
(2)前缀树的空间消耗比较大

三、应用

1、字符串检索
2、词频统计
3、字符串排序
4、前缀匹配
5、作为其他数据结构算法的组成

你可能感兴趣的:(结构算法,自然语言基础)