Trie树|字典树的简介

http://blog.csdn.net/cai0538/article/details/6956555

Trie树|字典树的简介

分类: c/c++编程语言 25人阅读 评论(0) 收藏 举报
Trie树|字典树的简介
Trie,又称字典树、单词查找树,是一种树形结构,用于保存大量的字符串, 其核心思想是空间换时间 。它的优点是:利用字符串的公共前缀来节约存储空间。
相对来说,Trie树是一种比较简单的数据结构.理解起来比较简单,正所谓简单的东西也得付出代价.故Trie树也有它的缺点,Trie树的内存消耗非常大.当然,或许用左儿子右兄弟的方法建树的话,可能会好点.

其基本性质可以归纳为:
1. 根节点不包含字符,除根节点外每一个节点都只包含一个字符。 
2. 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串。 
3. 每个节点的所有子节点包含的字符都不相同。

其基本操作有:查找 插入和删除,当然删除操作比较少见.我在这里只是实现了对整个树的删除操作,至于单个word的删除操作也很简单.

搜索字典项目的方法为:

(1) 从根结点开始一次搜索;

(2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;

(3) 在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。
(4) 迭代过程……
(5) 在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。
其他操作类似处理.

举个简单的例子

给你100000个长度不超过10的单词。对于每一个单词,我们要判断他出没出现过,如果出现了,第一次出现第几个位置。
这题当然可以用hash来,但是我要介绍的是trie树。在某些方面它的用途更大。比如说对于某一个单词,我要询问它的前缀是否出现过。这样hash就不好搞了,而用trie还是很简单。
现在回到例子中,如果我们用最傻的方法,对于每一个单词,我们都要去查找它前面的单词中是否有它。那么这个算法的复杂度就是O(n^2)。显然对于100000的范围难以接受。现在我们换个思路想。假设我要查询的单词是abcd,那么在他前面的单词中,以b,c,d,f之类开头的我显然不必考虑。而只要找以a开头的中是否存在abcd就可以了。同样的,在以a开头中的单词中,我们只要考虑以b作为第二个字母的……这样一个树的模型就渐渐清晰了……
假设有b,abc,abd,bcd,abcd,efg,hii这6个单词,我们构建的树就是这样的

Trie树|字典树的简介_第1张图片

对于每一个节点,从根遍历到他的过程就是一个单词,如果这个节点被标记为红色,就表示这个单词存在,否则不存在。
那么,对于一个单词,我只要顺着他从跟走到对应的节点,再看这个节点是否被标记为红色就可以知道它是否出现过了。把这个节点标记为红色,就相当于插入了这个单词。
这样一来我们询问和插入可以一起完成,所用时间仅仅为单词长度,在这一个样例,便是10。
我们可以看到,trie树每一层的节点数是26^i级别的。所以为了节省空间。我们用动态链表,或者用数组来模拟动态。空间的花费,不会超过单词数×单词长度。

[cpp] view plain copy print ?
  1. #include <cstdio>   
  2. #include <iostream>   
  3. #include <cstring>   
  4. using namespace std;  
  5.   
  6.   
  7. const int num_chars = 26;  
  8.   
  9.   
  10. class Trie {  
  11. public:  
  12.       Trie():root(NULL){};  
  13.       Trie(Trie& tr);  
  14.   
  15.      int search(const char* word, char* entry ) const;  
  16.      int insert(const char* word, const char* entry);  
  17.      int remove(const char* word, char* entry);  
  18. private:  
  19.      struct Trie_node  
  20.      {  
  21.          char* data;  
  22.           Trie_node* branch[num_chars];  
  23.           Trie_node();  
  24.      }* root;  
  25. };  
  26. Trie::Trie_node::Trie_node()   
  27. {  
  28.       data = NULL;  
  29.     for (int i=0; i<num_chars; ++i)   
  30.           branch[i] = NULL;  
  31. }  
  32.   
  33. int Trie::search(const char* word, char* entry ) const   
  34. {  
  35.     int position = 0;//依旧是从根开始找    
  36.     char char_code;  
  37.     Trie_node *location = root;  
  38.     while( location!=NULL && *word!=0 )   
  39.     {  
  40.         if (*word>='A' && *word<='Z')   
  41.               char_code = *word-'A';  
  42.         else if (*word>='a' && *word<='z')   
  43.               char_code = *word-'a';  
  44.         else return 0;  
  45.   
  46.   
  47.          location = location->branch[char_code];  
  48.          position++;  
  49.          word++;  
  50.     }  
  51.     if ( location != NULL && location->data != NULL )   
  52.     {  
  53.         strcpy(entry,location->data);  
  54.         return 1;  
  55.     }  
  56.     else return 0;  
  57. }  
  58. int Trie::insert(const char* word, const char* entry)   
  59. {  
  60.     int result = 1, position = 0;  
  61.     if ( root == NULL ) root = new Trie_node;  
  62.     char char_code;//标识Trie_node节点中branch[char_code];    
  63.       Trie_node *location = root;//赋值root,从根节点开始查找插入    
  64.     while( location!=NULL && *word!=0 )  
  65.     {  
  66.         //考虑大小写两种情况    
  67.         if (*word>='A' && *word<='Z')   
  68.               char_code = *word-'A';  
  69.         else if (*word>='a' && *word<='z')   
  70.               char_code = *word-'a';  
  71.         else return 0;  
  72.   
  73.         //如果以前插入的word不包含这个字符,则创建新的节点    
  74.         if( location->branch[char_code] == NULL )   
  75.               location->branch[char_code] = new Trie_node;  
  76.   
  77.   
  78.           location = location->branch[char_code];  
  79.           position++;  
  80.           word++;  
  81.     }  
  82.     //如果当前要插入的word在树中已有 ,返回result=0;    
  83.     if (location->data != NULL)  
  84.           result = 0;  
  85.     //如果不存在,进行如下操作    
  86.     else {  
  87.           location->data = new char[strlen(entry)+1];  
  88.           strcpy(location->data, entry);  
  89.     }  
  90.     return result;  
  91. }  
  92. int main()  
  93. {  
  94.       Trie t;  
  95.       char entry[100];  
  96.       t.insert("aa""DET");   
  97.       t.insert("abacus","NOUN");  
  98.       t.insert("abalone","NOUN");   
  99.       t.insert("abandon","VERB");  
  100.       t.insert("abandoned","ADJ");   
  101.       t.insert("abashed","ADJ");  
  102.       t.insert("abate","VERB");   
  103.       t.insert("this""PRON");  
  104.     if (t.search("this", entry))  
  105.         cout<<"'this' was found. pos: "<<entry<<endl;  
  106.     if (t.search("abate", entry))  
  107.         cout<<"'abate' is found. pos: "<<entry<<endl;  
  108.     if (t.search("baby", entry))  
  109.         cout<<"'baby' is found. pos: "<<entry<<endl;  
  110.     else  
  111.         cout<<"'baby' does not exist at all!"<<endl;  
  112.       
  113.     if (t.search("aa", entry))  
  114.         cout<<"'aa was found. pos: "<<entry<<endl;  
  115.     system("PAUSE");  
  116.     return 0;  
  117. }  

 

你可能感兴趣的:(c/c++编程语言)