哈夫曼编码是贪心算法的一个典型应用。哈夫曼编码利用每条数据出现的频率(概率),从信息论的角度出发,将这些数据重新编码。哈夫曼编码的编码结果是给出现频率较高的数据一个较短的编码,给出现频率较低的数据一个较长的编码。
让我们举个例子说明一下哈夫曼编码的步骤:现在有数据[a,a,a,a,a,b,b,b,b,c,c,c,d,d,e]。可以看出字符a出现了5次,字符2出现了4次,字符c出现了3次,字符d出现了2次,字符e出现了1次。
首先,我们将这5个字符看成一个森林,它们的值是它们出现的频率,我们首先要做的是把这些森林合并成一棵哈夫曼树。利用贪心算法合并每个节点。
合并算法:先选取两个根节点频率值最小的森林,将这两个森林作合并为一棵树,其根节点的值为上述两个根节点频率值的和,上述两个根节点为新树根节点的左右节点。重复合并步骤,直到将所有森林合并成一棵树算法终止。算法过程如下图:
步骤 | 状态 |
---|---|
init | |
1 | |
2 | |
3 | |
4 |
构造完哈夫曼树之后,按照遍历路径来获得每个字符的编码即可:
编码结果如下表:
字符 | 编码 |
---|---|
a | 00 |
b | 01 |
c | 10 |
d | 110 |
e | 111 |
附上python代码实现:
"""
@filename [huffman.py]
@author [zxy]
@version [v1.0]
@date [2020/3/13]
"""
import queue
class Node:
def __init__(self, x, k=-1, l=None, r=None, c=''):
self.freq = x
self.key = k
self.left = l
self.right = r
self.code = c
def __lt__(self, otr):
return self.freq < otr.freq
def huffman_code(data):
freqTable={
}
nodeList=[]
que=queue.PriorityQueue()
codeTable={
}
# frequent label init
for n in data:
if n in freqTable:
freqTable[n]+=1
else:
freqTable[n]=1
# Huffman tree init
for k,v in freqTable.items():
nodeList.append(Node(v,k))
que.put(nodeList[-1])
# Huffman tree generate
while que.qsize()>1:
n1=que.get()
n2=que.get()
n1.code='1'
n2.code='0'
nn=Node(n1.freq+n2.freq,l=n1,r=n2);
nodeList.append(nn);
que.put(nodeList[-1])
# get Huffman code
def bl(p,codestr=[]):
codestr.append(p.code)
if p.left:
bl(p.left,codestr.copy())
bl(p.right,codestr.copy())
else:
codeTable[p.key]=''.join(codestr)
bl(nodeList[-1])
# print Huffman code result
print(str(codeTable))
return codeTable
if __name__ == '__main__':
data=[1,1,1,1,1,2,2,2,2,3,3,3,4,4,5]
huffman_code(data)