第六周作业1——利用哈夫曼编码英文字母表

作业要求: 对教材P167中习题5.18,思考并完成问题a-d。(原书PDF下载地址:算法概论[英文原版].pdf)

习题如下:



解:

(a): 

画出这些字母的最优二叉树:(根节点值为101不是100,应该是空格的出现频率18.3%有误,若改为17.3%就正确.但我已画完图,将错就错吧...)

第六周作业1——利用哈夫曼编码英文字母表_第1张图片


根据叶子节点在其父节点的左侧为0, 在右侧为1,可知这些字母的最优Huffman编码是:

/* 字母表的最优Huffman编码

e: 001
blank: 110

n: 0000
i: 0001
s: 0100
h: 0101
r: 0110
a: 1000
o: 1010
t: 1110

c: 01110
u: 01111
l: 10011
d: 11110

f: 100100
w: 100101
y: 101100
g: 100101
b: 100110
p: 100111
m: 111110

v: 1111110
k: 11111110

x: 1111111100
j: 1111111101
q: 1111111110
z: 1111111111

*/

(b): 

有问题(a)可得, (3*2+4*8+5*4+6*7+7+8+10*4)/27 5.74 ;

即每个字母的编码平均需要6位.

(c): 

结果肯定比熵(约为5.74)要大,因为在计算熵的时候允许有小数个比特,而实际上每个字符的编码长度都必需为整数.

(d): 

我不认为这就是英文文本压缩的下限.

除了字母及其出现的频率,还可以重点考虑单词的前缀,后缀,某些常见字母的组合,甚至整个单词.

你可能感兴趣的:(算法,Huffman,熵,最优二叉树,文本压缩)