哈夫曼编码(Huffman Coding)原理、运行步骤、python实现

哈夫曼编码是贪心算法的一个典型应用。哈夫曼编码利用每条数据出现的频率(概率),从信息论的角度出发,将这些数据重新编码。哈夫曼编码的编码结果是给出现频率较高的数据一个较短的编码,给出现频率较低的数据一个较长的编码。

让我们举个例子说明一下哈夫曼编码的步骤:现在有数据[a,a,a,a,a,b,b,b,b,c,c,c,d,d,e]。可以看出字符a出现了5次,字符2出现了4次,字符c出现了3次,字符d出现了2次,字符e出现了1次。

首先,我们将这5个字符看成一个森林,它们的值是它们出现的频率,我们首先要做的是把这些森林合并成一棵哈夫曼树。利用贪心算法合并每个节点。

合并算法:先选取两个根节点频率值最小的森林,将这两个森林作合并为一棵树,其根节点的值为上述两个根节点频率值的和,上述两个根节点为新树根节点的左右节点。重复合并步骤,直到将所有森林合并成一棵树算法终止。算法过程如下图:

步骤 状态
init 哈夫曼编码(Huffman Coding)原理、运行步骤、python实现_第1张图片
1 哈夫曼编码(Huffman Coding)原理、运行步骤、python实现_第2张图片
2 哈夫曼编码(Huffman Coding)原理、运行步骤、python实现_第3张图片
3 哈夫曼编码(Huffman Coding)原理、运行步骤、python实现_第4张图片
4 哈夫曼编码(Huffman Coding)原理、运行步骤、python实现_第5张图片

构造完哈夫曼树之后,按照遍历路径来获得每个字符的编码即可:

哈夫曼编码(Huffman Coding)原理、运行步骤、python实现_第6张图片

编码结果如下表:

字符 编码
a 00
b 01
c 10
d 110
e 111

附上python代码实现:

"""
@filename   [huffman.py]
@author     [zxy]
@version    [v1.0]
@date       [2020/3/13]
"""

import queue
class Node:
    def __init__(self, x, k=-1, l=None, r=None, c=''):
        self.freq = x
        self.key = k
        self.left = l
        self.right = r
        self.code = c
    def __lt__(self, otr):
        return self.freq < otr.freq

def huffman_code(data):
    freqTable={
     }
    nodeList=[]
    que=queue.PriorityQueue()
    codeTable={
     }
    
    # frequent label init
    for n in data:
        if n in freqTable:
            freqTable[n]+=1
        else:
            freqTable[n]=1
    
    # Huffman tree init
    for k,v in freqTable.items():
        nodeList.append(Node(v,k))
        que.put(nodeList[-1])
        
    # Huffman tree generate
    while que.qsize()>1:
        n1=que.get()
        n2=que.get()
        n1.code='1'
        n2.code='0'
        nn=Node(n1.freq+n2.freq,l=n1,r=n2);
        nodeList.append(nn);
        que.put(nodeList[-1])

    # get Huffman code
    def bl(p,codestr=[]):
        codestr.append(p.code)
        if p.left:
            bl(p.left,codestr.copy())
            bl(p.right,codestr.copy())
        else:
            codeTable[p.key]=''.join(codestr)
    bl(nodeList[-1])
    
    # print Huffman code result
    print(str(codeTable))
    
    return codeTable
    
    
if __name__ == '__main__':
    data=[1,1,1,1,1,2,2,2,2,3,3,3,4,4,5]
    huffman_code(data)
    

你可能感兴趣的:(数据结构与算法,算法,python,数据结构)