Trie树

在我们海量数据处理中使用Trie树。
  原理是使用字符串的公共前缀来减少时间开销,即空间换时间。优点:最大限度地减少无谓的字符串比较,查询效率比散列表高。典型应用用于统计和排序大量字符串,所以警察被搜索引擎系统用于文本词频统计。
  Trie树一般有3个基本特性
  1.根结点不包含字符,除根节点外每一个结点都只包含一个字符。
  2.从根节点到某一节点,路径上经过的字符连接起来,为该结点对应的字符串。
  3。每个结点的所有子节点包含的字符都不相同。

Trie树_第1张图片

其基本操作有:查找、插入和删除,当然删除操作比较少见。
搜索字典项目的方法为:
(1) 从根结点开始一次搜索;
(2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;
(3) 在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。
(4) 迭代过程……
(5) 在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。
其他操作类似处理
java代码如下所示

public class Trie{
private int SIZE=26;
private TrieNode root;//字典树的根

Trie(){//初始化字典树 
root=new TrieNode();
}

private class TrieNode{//字典树节点
private int num;//有多少单词通过这个节点,即节点字符出现的次数
private TrieNode[]  son;//所有的儿子节点
private boolean isEnd;//是不是最后一个节点
private char val;//节点的值

TrieNode(){
num=1;
son=new TrieNode[SIZE];
isEnd=false;
}
}

//建立字典树
public void insert(String str){//在字典树中插入一个单词
if(str==null||str.length()==0){
return;
}
TrieNode node=root;
char[]letters=str.toCharArray();
for(inti=0,len=str.length();i<len;i++){
int pos=letters[i]-'a';
if(node.son[pos]==null){
node.son[pos]=newTrieNode();
node.son[pos].val=letters[i];
}else{
node.son[pos].num++;
}
node=node.son[pos];
}
node.isEnd=true;
}

//计算单词前缀的数量
public int countPrefix(Stringprefix){
if(prefix==null||prefix.length()==0){
return-1;
}
TrieNode node=root;
char[]letters=prefix.toCharArray();
for(inti=0,len=prefix.length();i<len;i++){
int pos=letters[i]-'a';
if(node.son[pos]==null){
return 0;
} 
else{
node=node.son[pos];
}
}
return node.num;
}
//打印指定前缀的单词
public String hasPrefix(String prefix) {
    if (prefix == null || prefix.length() == 0) {
        return null;
    }
    TrieNode node = root;
    char[] letters = prefix.toCharArray();
    for (int i = 0, len = prefix.length(); i < len; i++) {
        int pos = letters[i] - 'a';
        if (node.son[pos] == null) {
            return null;
        } else {
            node = node.son[pos];
        }
    }
    preTraverse(node, prefix);
    return null;
}
// 遍历经过此节点的单词.
public void preTraverse(TrieNode node, String prefix) {
    if (!node.isEnd){
        for (TrieNode child : node.son) {
            if (child!=null){
                preTraverse(child, prefix+child.val);
            }
        }
        return;
    }
    System.out.println(prefix);
}


//在字典树中查找一个完全匹配的单词.
public boolean has(Stringstr){
if(str==null||str.length()==0){
return false;
}
TrieNode node=root;
char[]letters=str.toCharArray();
for(inti=0,len=str.length();i<len;i++){
intpos=letters[i]-'a';
if(node.son[pos]!=null){
node=node.son[pos];
}else{
return false;
}
}
return node.isEnd;
}

//前序遍历字典树.
public void preTraverse(TrieNodenode){
if(node!=null){
System.out.print(node.val+"-");
for(TrieNodechild:node.son){
preTraverse(child);
}
}
}

public TrieNode getRoot(){
return this.root;
}

public static void main(String[]args){
Trietree=newTrie();
String[]strs={"banana","band","bee","absolute","acm",};
String[]prefix={"ba","b","band","abc",};
for(Stringstr:strs){
tree.insert(str);
}
System.out.println(tree.has("abc"));
tree.preTraverse(tree.getRoot());
System.out.println();
//tree.printAllWords();
for(Stringpre:prefix){
int num=tree.countPrefix(pre);
System.out.println(pre+""+num);
}
}
}

你可能感兴趣的:(海量数据)