【数据结构与算法】哈夫曼树与哈夫曼压缩与解压缩

哈夫曼树与哈夫曼编码

压缩与解压缩技术
       这里提出一种专门针对ASCII码(英文及英文标点)的压缩技术:对文本文件中的字符,按照出现频度大小,将出现频度最大的字符,用最少的二进制位表达(替换);
       比如:假设某文件中,字母e出现了304325次,每一个e都应该是一个ASCII码,即,占用8bit;若能用2个bit的信息替换,则,可以省304325bit * (8-2) = 228243Byte        304325 * 2 / 8 = 76082         76081 / 304325 = 0.25
       假设,有如下字符及其出现频度:
       a        2
       b        8
       c        1
       d        7
       e        20
       f        3
那么我们就可以形成一棵哈夫曼树,如下图所示:
【数据结构与算法】哈夫曼树与哈夫曼压缩与解压缩_第1张图片
        其形成的原理是:先找出两个出现频度最小的,作为左右孩子,然后将两者频度之和作为根节点;再找出频度第三小的,作为左孩子,与刚才的根节点形成左右孩子,依此类推,形成一棵哈夫曼树。令:向左为0;向右为1,从根出发,到达某一个叶子节点的0、1集合,就是那个叶子节点所表示的字符对应的哈夫曼编码。
e:0
b:10
d:110
f:1110
c:11110
a:11111
而哈夫曼压缩与解压缩要解决的第一个问题就是:统计给定字符串(文件)中出现的字符种类及其频度。

哈夫曼压缩与解压缩
1.针对文件进行压缩和解压缩;即,输入是文件,输出也是文件;
2.针对文件进行操作:
       2.1统计该文件中出现的不同字节(应该只能使用:unsigned char 类型!!!)及其频度;
       2.2根据上述统计数据,构造哈夫曼树;
       2.3根据上述哈夫曼树,构造每一个字节的哈夫曼编码;
       2.4将文件中的字节,转换成哈夫曼编码;
3.将由哈夫曼编码形成的最终压缩文件作为输出。
综上,结构体应定义为:

typedef struct TREE{
	char ch;
	int freq;
	struct TREE *leftChild;
	struct TREE *rightChild;
}TREE;

其实大致思路就是这样,其中最关键的就是,先形成一个表,再由表形成树,具体怎么实现,还是直接上代码吧!!!
github:https://github.com/xiami-maker/aboutHuffman/tree/master

感悟:对于哈夫曼压缩和解压缩,主要是对于哈夫曼树的应用,还有一些思想:把压缩和解压缩过程做成工具以便代码复用,方便阅读,减少编程量,采用文件的形式来存放更具有实际意义等。需要读者浏览代码的过程中,自行体会。

你可能感兴趣的:(数据结构算法)