哈夫曼树 压缩算法
霍夫曼编码(Huffman Coding)是一种编码方式,是一种用于无损数据压缩的熵编码(权编码)算法。
在计算机数据处理中,霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。
建树初始量
public class HFM {
///定义节点
class Node {
Node left;// 左节点
Node right;//右节点
int data;// 数据
Character c;//字符串
String code = "";
}
建树
public void printCode(String str){
HashMap<Character,Integer> map = new HashMap<Character,Integer>();
for(int i=0; i<str.length(); i++){
char c = str.charAt(i);
//判断是否存在
if(map.get(c) == null){
map.put(c, 1);
} else {
//取原有的个数
int n = map.get(c);
map.put(c, n+1);
}
}
Node[] nodes = new Node[map.size()];
int n = 0;
//变量map
Set<Entry<Character,Integer>> entrySet = map.entrySet();
for(Entry<Character,Integer> entry : entrySet){
Node node = new Node();
node.c = entry.getKey();
node.data = entry.getValue();
nodes[n++] = node;
System.out.println(entry.getKey()+"个数是:"+entry.getValue());
}
while(nodes.length > 1){
Arrays.sort(nodes, c);
// sort(nodes);
//取最小的两个节点
Node n1 = nodes[0];
Node n2 = nodes[1];
//新建一个节点
Node node = new Node();
node.data = n1.data + n2.data;
node.left = n1;
node.right = n2;
//把n1和n2删除,把node加进去
Node[] nodes2 = new Node[nodes.length-1];
for(int i=2; i<nodes.length; i++){
nodes2[i-2] = nodes[i];
}
nodes2[nodes2.length-1] = node;
nodes = nodes2;
}
输入一串字符串 输出原始的编码 和哈弗曼编码
public static void main(String[] args) {
String str = "aabcabcdabcdeabcdef";
String result = "10000110....";
HFM hfm = new HFM();
hfm.printCode(str);
}
}
结果f个数是:1
d个数是:3
e个数是:2
b个数是:4
c个数是:4
a个数是:5
b[4]的编码是:00
c[4]的编码是:01
a[5]的编码是:10
d[3]的编码是:110
f[1]的编码是:1110
e[2]的编码是:1111
编码前的字符串:aabcabcdabcdeabcdef
编码后的字符串:10100001100001110100001110111110000111011111110