python 实现的huffman 编码压缩，解码解压缩

刚刚实现一个初始版本

1.TODO 仅仅能处理英文，下一步考虑unicode

似乎考虑多了，当前的程序处理中文文本是一样可以的。

2.TODO enocde ,decode，文本读写多重转换 int -> chr chr -> int -> bin

下一步直接读写int，能否直接读写bit?

3.TODO 其它方面考虑速度的优化，比如垃圾回收机制是否影响了速度等等，

和c/c++比python肯定没有速度优势，不过代码写起来比c/c++舒服多了，感觉python非常接近写伪码的感觉了，所想即所得，

一个问题只有一个解法，真正让你能够专注与算法与框架流程设计而不被语言本身所束缚。

5.TODO 设计成可以对一些文本一起压缩，全部解压缩或者对指定文本解压缩。

5.特别利用pygraphivz对huffman tree 进行了绘制，有利于调试。见前一篇随笔。

6.TODO 考虑其它压缩方法，如范式huffman 的实现。分词后对词编码而不是对字母编码的方法。

7.压缩过程中写文件遇到的一个问题，因为我只有到扫描处理完所有文件的字符a,b,c...才能计算出最后一个字节剩余了多少个bit，它们被补0，而计算好之后我希望把这个信息写到前面，即压缩文档开头序列化之后马上先记录最后一个byte补了多少个0，然后记录最后一个byte,然后从头到尾顺序记录所有其它被encode translate的byte，所以我先保持了原来的需要写的位置，当写到最后的时候，再把写指针指回，写那个位置，但是我在解压缩过程再读那个位置的时候发现最后的写操作并没有写成功。

self.infile.seek(0)

#save this pos we will write here later

pos = self.outfile.tell()

self.outfile.write(chr(0)) #store left bit

self.outfile.write(chr(0)) #if left bit !=0 this is the last byte

#.... translate other bytes

#just after the huffman tree sotre how many bits are left for last

#byte that is not used and filled with 0

self.outfile.seek(pos)

self.outfile.write(chr(leftBit)) #still wrong can't not read well

self.outfile.write(chr(num))

后来发现要再最后加一句self.outfile.flush()将内容写回硬盘，问题似乎是回写前面的位置，仅仅写到了cache中，最后file.close()的时候该cache的新内容也未被写回硬盘，不知道是不是python2.6的一个bug

反正最后加file.flush()就ok了。

当前流程

压缩过程：

读文本

计算各个字符的出现频率

建立huffman tree （二叉连表树实现，不需要parent域)

通过huffman tree 为每个字符编码（深度优先遍历huffman tree，即可得到所以字符编码)

将huffman tree 序列化写到输出文本（以便解压缩时恢复huffman tree，这里采用存储huffman tree 的前序序列，根据huffman tree的特性，每个内部节点均2度，可恢复）

再读文本，为每个字符通过dict 取出它的编码并且写到输出文本。

（注意写的时候集齐8个字符为一组，输出，但是最后一个byte可能不够8位，要用0补齐空位。

为了处理方便，我将在序列化的二叉树后面首先记录最后一个byte需要用0补齐的位数，如果需要补齐的位数不为0，则接下来输出最后一个byte，然后再从输入文件内部头开始

编码输出到输出文件。这里的技巧就是把最后一个byte放到了前面，便于处理，否则解码可能最后文件尾部会有多余字符被译出。）

解压缩过程：

读压缩好的文本

先读文件头部，根据huffman tree前序序列，恢复建立huffman tree，二叉链表树

继续读文本，根据huffman tree 进行解码，0向左，1向右，到叶节点，解码一个字符。

解码输出完成即完成解压缩。（注意我压缩的时候最后一个byte放到前面了，如果需要要

将其最后输出。）

当前程序用法

python2.6 huffman.py input.txt

输出

input.txt.compress 压缩文件

input.txt.compress.de 解压缩后的，内容应与input.txt一致。

allen:~/study/data_structure/huffman$ time python2.6 huffman.py C00-1052.txt

real 0m0.607s

user 0m0.536s

sys 0m0.060s

allen:~/study/data_structure/huffman$ diff C00-1052.txt C00-1052.txt.compress.de

allen:~/study/data_structure/huffman$ du -h C00-1052.txt

36K C00-1052.txt

allen:~/study/data_structure/huffman$ du -h C00-1052.txt.compress.de

36K C00-1052.txt.compress.de

allen:~/study/data_structure/huffman$ du -h C00-1052.txt.compress

24K C00-1052.txt.compress

网上有不少关于huffman的实现，和我这里一样都是采用最简单的基本huffman算法。

做了下对比，采用《平凡的世界》1.7M, 似乎python的效率还不错，不过应该用更大

的文件对比下。另外为什么 http://www.javaresearch.org/article/97725.htm中的实现

的压缩比率更大呢，应该压缩率一样的啊。

allen:~/study/data_structure/huffman$ time python2.6 huffman.py normal_world.log

real 0m32.236s

user 0m31.298s

sys 0m0.732s

allen:~/study/data_structure/huffman$ du -h normal_world.log

1.7M normal_world.log

allen:~/study/data_structure/huffman$ du -h normal_world.log.compress

1.3M normal_world.log.compress

allen:~/study/data_structure/huffman$ du -h normal_world.log.compress.de

1.7M normal_world.log.compress.de

allen:~/study/data_structure/huffman$ diff normal_world.log normal_world.log.compress.de

原文件《平凡的世界》，大小1.7M，压缩后1.3M，解压缩后与原文件完全相同，压缩和解压缩共耗时32s

对比 http://www.javaresearch.org/article/97725.htm,该java版本，作者提到

压缩效果

使用本程序对《平凡的世界》做压缩测试，压缩前为文本文件，大小为1.7M,压缩后为二进制文件，大小接近1M（988,817byte）,而zip压缩后体积为920,997byte,比zip差，压缩文件存储格式待改善。另外，因为从Huffman压缩算法的原理可知，该算法对字符重复率高的文本最有效，比如长篇小说或者英文小说。

另外网上有一个c版本的huffman，http://blog.sina.com.cn/s/blog_4ab057eb0100bx34.html

作者提到：

l 略大文件

test3.txt 《平凡的世界》

压缩前：1.62M

压缩后：1.39M

压缩率：86%

压缩时间14.23秒

解压时间 16.85秒

测试结果：压缩，解压成功！

压缩解压时间在可接受范围之内

  1 '''
  2 Create a huffman tree from
  3 the input is a list like
  4 [('a',3), ('b',2)]
  5 frequnce of 'a' appeard is stored as it's weight
  6 '''
  7 from Queue import PriorityQueue
  8 # if do not use treeWiter so not include pygraphviz than can use py3.0
  9 from treeWriter import TreeWriter
10 from copy import copy
11
12 class NodeBase():
13      def __init__ (self):
14         self.weight = 0
15
16      def elem(self):
17          return self.weight
18
19 class Node(NodeBase):
20      def __init__ (self, weight = 0, left = None, right = None):
21         self.weight = weight
22         self.left = left
23         self.right = right
24
25      def __str__ (self):
26          return str(self.weight)
27
28 class Leaf(NodeBase):
29      def __init__ (self, key = '' , weight = 0):
30         self.key = key
31         self.weight = weight
32
33      def __str__ (self):
34          return str(self.key)
35
36
37 def convert(c):
38      '''
39     input c = 'a' ord(a) = 97
40     bin(97) = '0b1100001'
41     return ['0', '1', '1', '0', '0', '0', '0', '1']
42      '''
43     l1 = list(bin(ord(c))) # like 0b11101
44     l2 = [ ' 0 ' ] * ( 10 - len(l1))
45     l2.extend(l1[ 2 :])
46      return l2
47
48 class HuffmanTree():
49      '''
50     base class for HuffmanTreeForCompress and HuffmanTreeForDecompress
51      '''
52      def __init__ (self):
53         self.root = None
54
55 class HuffmanTreeForCompress(HuffmanTree):
56      '''
57     create a huffman tree for the compressing process
58     here self.list like [('a',3),('b',4)

] where 'a' is key, 3 is weight
59     or say frequence of 'a' appear in the text
60      '''
61      def __init__ (self, list):
62         HuffmanTree. __init__ (self)
63         self.list = list # like [('a',3),('b',4)

]
64 self.dict = {} # like {'a':[0,1,1,0] ,

.}
65
66         self. __buildTree ()
67         self. __genEncode ()
68
69      def __initPriorityQueue (self, queue):
70          '''
71         init priority queue let lowest weight at top
72          '''
73          for key, weight in self.list:
74             leaf = Leaf(key, weight)
75             queue.put((weight,leaf))
76
77      def __buildTree (self):
78          '''
79         build the huffman tree from the list of weight using prority queue
80         greedy alogrithm,choose two least frequence node first
81          '''
82         length = len(self.list)
83         queue = PriorityQueue(length)
84         self. __initPriorityQueue (queue)
85          # while queue.qsize() > 1:
86          # do len(self.list) - 1 times same as while queue.qsize() > 1
87          for i in range(length - 1 ):
88             left = queue.get()[ 1 ]
89             right = queue.get()[ 1 ]
90             weight = left.weight + right.weight
91             node = Node(weight, left, right)
92             queue.put((weight,node))
93         self.root = queue.get()[ 1 ]
94
95      def __genEncode (self):
96          '''
97         get huffman encode for each key using depth first travel of tree
98          '''
99          def genEncodeHelp(root, encode = []):
100              if isinstance(root, Leaf):
101                  # TODO notice need copy content here,why can't list(encode)?
102                 self.dict[root.key] = copy(encode)
103                  # print self.dict[root.key]
104                  return
105             encode.append(0)
106             genEncodeHelp(root.left, encode)
107             encode[len(encode) - 1 ] = 1
108             genEncodeHelp(root.right, encode)
109             encode.pop()
110         genEncodeHelp(self.root)
111
112
113 class HuffmanTreeForDecompress(HuffmanTree):
114      '''
115     rebuild of huffman tree for the decompressing process
116      '''
117      def __init__ (self, infile):
118         HuffmanTree. __init__ (self)
119         self. __buildTree (infile)
120
121      def __buildTree (self, infile):
122          def buildTreeHelp(infile):
123             first = infile.read( 1 )
124             second = infile.read( 1 )
125              # if not (first == '\xff' and second == '\xfe'):  #is leaf
126              if first == ' \x00 ' :   # is leaf, not consider unicode now
127                  return Leaf(second)
128             node = Node()
129             node.left = buildTreeHelp(infile)
130             node.right = buildTreeHelp(infile)
131              return node
132         infile.read( 2 )
133         self.root = Node()
134         self.root.left = buildTreeHelp(infile)
135         self.root.right = buildTreeHelp(infile)
136
137 class Decompress():
138      def __init__ (self, infileName, outfileName = '' ):
139          # TODO better name, expection of opening file
140         self.infile = open(infileName, ' rb ' )
141          if outfileName == '' :
142             outfileName = infileName + ' .de '
143         self.outfile = open(outfileName, ' wb ' )
144         self.tree = None
145
146      def __del__ (self):
147         self.infile.close()
148         self.outfile.close()
149
150      def decompress(self):
151         self. __rebuildHuffmanTree ()
152         self. __decodeFile ()
153
154      def __rebuildHuffmanTree (self):
155         self.infile.seek(0)
156         self.tree = HuffmanTreeForDecompress(self.infile)
157          # HuffmanTreeWriter(self.tree).write('tree2.png') #for debug
158
159      def __decodeFile (self):
160          # right now do not consier speed up using table
161          # do not consider the last byte since it's wrong right now
162
163          # TODO use a table as 0x00 -> 0000 0000  will speed up?
164         self.outfile.seek(0)
165         leftBit = ord(self.infile.read( 1 ))
166         lastByte = self.infile.read( 1 )    # it is the last byte if leftBit != 0
167         curNode = self.tree.root
168          # import gc
169          # gc.disable()
170          while 1 :
171             c = self.infile.read( 1 ) # how about Chinese caracter? 2 bytes?
172              if c == '' :
173                  break
174             li = convert(c) # in c++ you can not return refernce to local in func here ok? yes
175              for x in li:
176                  if x == ' 0 ' :
177                     curNode = curNode.left
178                  else :
179                     curNode = curNode.right
180                  if isinstance(curNode, Leaf): # the cost of isinstance is higer than lkie root.left == None ?
181                     self.outfile.write(curNode.key)
182                     curNode = self.tree.root
183
184
185          # deal with the last bye if leftBit != 0
186          # TODO notcice code repeate can we improve?
187          if leftBit:
188             li = convert(lastByte)
189              for x in li:
190                  if x == ' 0 ' :
191                     curNode = curNode.left
192                  else :
193                     curNode = curNode.right
194                  if isinstance(curNode, Leaf): # the cost of isinstance is higer than lkie root.left == None ?
195                     self.outfile.write(curNode.key)
196                     curNode = self.tree.root
197                      break      # for the last byte if we find one than it's over,the other bits are useless
198
199         self.outfile.flush()
200          # gc.enable()
201
202
203
204 class Compress():
205      def __init__ (self, infileName, outfileName = '' ):
206         self.infile = open(infileName, ' rb ' )
207          if outfileName == '' :
208             outfileName = infileName + ' .compress '
209         self.outfile = open(outfileName, ' wb ' )
210         self.dict = {}
211         self.tree = None
212
213      def __del__ (self):
214         self.infile.close()
215         self.outfile.close()
216
217      def compress(self):
218         self. __caculateFrequence ()
219         self. __createHuffmanTree ()
220         self. __writeCompressedFile ()
221
222      def __caculateFrequence (self):
223          '''
224         The first time of reading the input file and caculate each
225         character frequence store in self.dict
226          '''
227         self.infile.seek(0)
228          while 1 :
229             c = self.infile.read( 1 ) # how about Chinese caracter? 2 bytes?
230              if c == '' :
231                  break
232              # print c
233              if c in self.dict:
234                 self.dict[c] += 1
235              else :
236                 self.dict[c] = 0
237
238      def __createHuffmanTree (self):
239          '''
240         Build a huffman tree from self.dict.items()
241          '''
242          # TODO for py 3.0 need list(self.dict.items()) instead
243         self.tree = HuffmanTreeForCompress(list(self.dict.items()))
244          # HuffmanTreeWriter(self.tree).write('tree1.png') #for debug
245
246      def __writeCompressedFile (self):
247          '''
248         Create the compressed file
249         First write the huffman tree to the head of outfile
250         than translate the input file with encode and write the result to
251         outfile
252          '''
253         self.outfile.seek(0)
254         self. __serializeTree ()
255         self. __encodeFile ()
256
257      def __serializeTree (self):
258          '''
259         In order to write the tree like node node leaf node

.
260         in pre order sequence to the compressed file head
261         here will return the sequence list
262         TODO  reuse pre order and using decorator technic!!
263         list like [(0,0), (0,0), (1,'c')

],
264         (0,0) the first 0 means internal node
265         (1,'c') the first 1 means leaf and 'c' is the key
266          '''
267          def serializeTreeHelp(root, mfile):
268              if isinstance(root, Leaf):
269                 mfile.write( ' \x00 ' ) # 0x0
270                 mfile.write(root.key)
271                  return
272             mfile.write( ' \xff ' ) # '\xff' is one character representing 0xff
273             mfile.write( ' \xfe ' ) # 0xfe
274             serializeTreeHelp(root.left, mfile)
275             serializeTreeHelp(root.right, mfile)
276         serializeTreeHelp(self.tree.root, self.outfile)
277
278
279      def __encodeFile (self):
280          '''
281         The second time of reading input file
282         translate the input file with encode and write the result to outfile
283         TODO can this be improved speed up?
284         just write \xff as \b 1111 1111 ? can this be possible so do not need
285         to caculate 255 than translate to \xff and write?
286          '''
287         self.infile.seek(0)
288          # save this pos we will write here later
289         pos = self.outfile.tell()
290         self.outfile.write(chr(0))   # store left bit
291         self.outfile.write(chr(0))   # if left bit !=0 this is the last byte
292         num = 0
293         i = 0;
294          while 1 :
295             c = self.infile.read( 1 ) # how about Chinese caracter? 2 bytes?
296              if c == '' :
297                  break
298             li = self.tree.dict[c]
299              for x in li:
300                 num = (num << 1 ) + x
301                 i += 1
302                  if (i == 8 ):
303                     self.outfile.write(chr(num))
304                     num = 0
305                     i = 0
306          # for all left bit we will fill with 0,and fil finally save left bit
307          # like the last is 11 wich has 6 bits left than will store the last
308          # byte as 1100,0000
309         leftBit = ( 8 - i) % 8
310          if leftBit:
311              for j in range(i, 8 ):
312                 num = (num << 1 )
313
314          # just after the huffman tree sotre how many bits are left for last
315          # byte that is not used and filled with 0
316         self.outfile.seek(pos)
317         self.outfile.write(chr(leftBit))   # still wrong can't not read well
318         self.outfile.write(chr(num))
319         self.outfile.flush()   # well need this, why? remember !!!!
320          # self.outfile.seek(0,2)   #will not write success without this a bug???
321          # print self.outfile.read(1)
322
323
324
325 #    def test(self):
326 #        for k, v in self.dict.items():
327 #            print k
328 #            print v
329
330
331 class HuffmanTreeWriter(TreeWriter):
332      '''
333     draw a huffman tree to tree.png or user spcified file
334     For huffman debug only
335      '''
336      def writeHelp(self, root, A):
337         p = str(self.num)
338         self.num += 1
339
340          if isinstance(root, Leaf):
341             key = root.key   # TODO '\n' wrong to fix
342              # key.replace('\n', '\\n')
343              # A.add_node(p, label = str(root.elem()) + r'\n' + key, shape = 'rect')
344             A.add_node(p, label = str(root.elem()) + r ' \n ' , shape = ' rect ' )
345              return p
346
347          # if not a leaf for huffman tree it must both have left and right child
348         A.add_node(p, label = str(root.elem()))
349
350         q = self.writeHelp(root.left, A)
351         A.add_node(q, label = str(root.left.elem()))
352         A.add_edge(p, q, label = ' 0 ' )
353
354         r = self.writeHelp(root.right, A)
355         A.add_node(r, label = str(root.right.elem()))
356         A.add_edge(p, r, label = ' 1 ' )
357
358         l = str(self.num2)
359         self.num2 -= 1
360         A.add_node(l, style = ' invis ' )
361         A.add_edge(p, l, style = ' invis ' )
362         B = A.add_subgraph([q, l, r], rank = ' same ' )
363         B.add_edge(q, l, style = ' invis ' )
364         B.add_edge(l, r, style = ' invis ' )
365
366          return p   # return key root node
367
368
369
370
371 if __name__ == ' __main__ ' :
372      # d = [chr(ord('a')+i) for i in range(13)]
373      # w = [2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41]
374      # list = []
375      # for i in range(13):
376      #     list.append((d[i], w[i]))
377      # print(list)
378      # tree = HuffmanTreeForCompress(list)
379      # writer = HuffmanTreeWriter(tree)
380      # writer.write()
381      # tree.test()
382      import sys
383      if len(sys.argv) == 1 :
384         inputFileName = ' test.log '
385      else :
386         inputFileName = sys.argv[ 1 ]
387     compress = Compress(inputFileName)
388     compress.compress()
389
390     decompress = Decompress(inputFileName + ' .compress ' )
391     decompress.decompress()
392
393      # compress.test()
394

05-树9 Huffman Codes（C） L_glonar c语言数据结构
日常，这一次，耗费我三天，其实第二天时便已经将对整个框架有清晰的了解了，（看了解析了），但是一步步排除，确实让我学到了很多。In1953,DavidA.Huffmanpublishedhispaper"AMethodfortheConstructionofMinimum-RedundancyCodes",andhenceprintedhisnameinthehistoryofcomputersci
基于Huffman编码的字符串统计及WPL计算 CUGLin 数据结构与算法 c++算法数据结构霍夫曼树
一、问题描述问题概括：给定一个字符串或文件，基于Huffman编码方法，实现以下功能：1.统计每个字符的频率。2.输出每个字符的Huffman编码。3.计算并输出WPL（加权路径长度）。这个问题要求对Huffman编码算法进行实现和扩展，具体涉及以下步骤：1.从键盘输入或文件中读取字符串/内容。2.统计每个字符的出现频率。3.根据频率构建Huffman树。4.为每个字符生成对应的Huffman编码
基于C语言实现文件压缩与解压缩算法极客代码玩转C语言算法 c语言开发语言
引言随着互联网的发展，数据传输和存储的需求日益增长，文件压缩技术成为提高数据处理效率的关键技术之一。压缩技术不仅可以减少存储空间的需求，还能加快数据在网络中的传输速度。霍夫曼编码作为一种有效的无损数据压缩算法，广泛应用于各种场景。本文将详细介绍如何使用C语言实现霍夫曼编码算法，并通过具体的代码实例展示其工作原理。霍夫曼编码简介霍夫曼编码是由DavidA.Huffman于1952年提出的，它是一种统
字符串压缩算法 Jr_l #字符串算法算法 python c语言
目录RLE（游程长度编码）算法原理步骤说明示例说明代码示例python语言：C语言：优缺点Huffman编码基本原理构造Huffman树编码与解码过程代码示例python语言：C语言：优缺点LZW压缩字典构建与压缩过程步骤说明代码示例python语言：C语言：优缺点字符串压缩算法用于减少字符串的存储空间，尤其是在需要传输或保存大量文本数据时。以下是三种常见的字符串压缩算法：RLE、Huffman编
4.贪心进阶与经典好题准确、系统、简洁地讲算法 OI/ACM核心算法详解含大量优质题目及题解！算法
贪心进阶Huffman问题Huffman树正确性证明：核心：证明大的Huffman树是由小的Huffman树经过一步贪心选择得来的，即证明大的Huffman树是由少了两个最小的叶子节点的小的Huffman树加上最小的两个叶子节点得到的。只需要证明大的Huffman树的wpl等于小的Huffman树的wpl加上最小的两个叶子节点的值即可。细节上，通过一些假设利用Huffman树是所有数中最小的“#i
前端性能优化 - Gzip压缩
什么是Gzip压缩？gzip是GNUzip的缩写，是一种文件的压缩格式（也可以说是若干种文件压缩程序），类似的压缩格式还有compress，deflate等。web上使用gzip编码格式传输有几个要点：浏览器和服务器都需要支持gzip编码采用LZ77算法与Huffman编码来压缩文件，是一种无损压缩算法压缩比率在3-10倍左右（纯文本），可以大大节省服务器的网络带宽是否前端所有资源都需要Gzip压
笔记---贪心---哈夫曼Huffman树 Die love 6-feet-under 算法基础课笔记笔记算法 c++
AcWing.148.合并果子在一个果园里，达达已经将所有的果子打了下来，而且按果子的不同种类分成了不同的堆。达达决定把所有的果子合成一堆。每一次合并，达达可以把两堆果子合并到一起，消耗的体力等于两堆果子的重量之和。可以看出，所有的果子经过n−1n−1n−1次合并之后，就只剩下一堆了。达达在合并果子时总共消耗的体力等于每次合并所耗体力之和。因为还要花大力气把这些果子搬回家，所以达达在合并果子时要尽
【蓝桥杯基础练习 Huffuman树】枝脉
欸~果然，迄今为止一个浏览量都没得，我好菜啊...住嘴，你这个美少女，你一点都不菜，要相信自己加油！！--------------------------------------------------------------------------------------------------------------------Huffman树在编码中有着广泛的应用。在这里，我们只关心Huff
JPEG图像格式加速神经网络训练--使用DCT训练CNN kadog By GPT 神经网络 cnn 人工智能计算机视觉图像处理深度学习
JPEG图像格式加速神经网络训练JPEG图像格式加速神经网络训练工作原理DCT系数与JPEG直接利用DCT系数阶段1:数据准备步骤1:读取JPEG文件结构步骤2:提取量化表和Huffman表步骤3:解析图像数据步骤4:反量化步骤5:获取DCT系数阶段2:输入处理预处理1:正规化（Normalization）预处理2:中心化（Centering）预处理3:选择性剔除预处理4:量化系数补偿预处理5:重
PYTHON蓝桥杯——每日一练（简单题）詹小菜蓝桥杯蓝桥杯 python
题目Huffman树在编码中有着广泛的应用。在这里，我们只关心Huffman树的构造过程。给出一列数{pi}={p0,p1,…,pn-1}，用这列数构造Huffman树的过程如下：1.找到{pi}中最小的两个数，设为pa和pb，将pa和pb从{pi}中删除掉，然后将它们的和加入到{pi}中。这个过程的费用记为pa+pb。2.重复步骤1，直到{pi}中只剩下一个数。在上面的操作过程中，把所有的费用相
求Huffman树的带权路径长度 .魚肉数据结构算法
Huffman树的建立过程：首先得到整个叶子结点的集合：求Huffman树的带权路径长度算法：书上讲常见的求Huffman树的带权路径长度算法为：从叶子结点权值乘路径长度：WPL=7*2+5*2+5*2+3*3+2*3=49另外一种求WPL的算法为：非叶子几点权值之和：WPL=22+12+10+5=49这种方法并不是毫无道理，应为同一个结点下的两个叶子结点的路径长度是一样的，叶子结点的路径长度完全
华为OD机试真题C卷-篇2 laufing 算法与数据结构(python)华为od 算法刷题 python
文章目录启动多任务排序有效子字符串最长子字符串的长度最长子字符串的长度（二）两个字符串间的最短路径问题生成Huffman树可以处理的最大任务中文分词模拟器手机App防沉迷系统根据IP查找城市文件缓存系统寻找最优的路测线路Wonderland游乐园项目排期/最少交付时间灰度图存储精准核酸检测运输时间启动多任务排序A任务依赖B任务，执行时需要先执行B任务，完成后才可以执行A任务；若一个任务不依赖其他任
数据结构高级算法 ->yjy Java 数据结构数据库
目录最小生成树Kruskal(克鲁斯卡尔)(以边为核心)9)不相交集合（并查集合）基础UnionBySize图-相关题目4.2GreedyAlgorithm1)贪心例子DijkstraPrimKruskal最优解（零钱兑换）-穷举法Leetcode322最优解（零钱兑换）-贪心法Leetcode3223)Huffman编码问题问题引入Huffman树Huffman编解码4)活动选择问题无重叠区间-
Python之----Huffman 哈夫曼编码的实现咸鱼_翻身 Python-贪吃蛇 python
1、哈夫曼树,即带权路径最小的树,权值最小的结点远离根结点,权值越大的结点越靠近根结点：2、简单介绍完原理，我们来看这个实现：#哈夫曼编码字典(键为字母，值为编码)codeDic={}#树节点类构建classTreeNode(object):def__init__(self,data):self.val=data[0]self.priority=data[1]self.leftChild=None
蓝桥杯训练-Huffman树（哈夫曼树）（day14） Introspection 蓝桥杯蓝桥杯 python
一、题目Huffman树在编码中有着广泛的应用，在这里，只关心Huffman树的构造过程。给出一列数{pi}={p0,p1,...pn-1},用这列数构造Huffman树的过程如下：1.找出{pi}中最小的两个数，设为pa和pb,将pa和pb从{pi}中删除，然后将它们的和加入{pi}中，这个过程的费用记作pa+pb.2.重复1的步骤，直到{pi}中只剩下一个数。在上面的操作过程中，把所有的费用相
AcWing算法学习笔记：贪心（区间问题 + Huffman树 + 排序不等式 + 绝对值不等式 + 推公式）一只可爱的小猴子算法学习笔记
贪心一、区间问题①区间选点②最大不相交区间数量③区间分组④区间覆盖二、Huffman树（合并果子）三、排序不等式（排队打水）四、绝对值不等式（货仓选址）五、推公式（耍杂技的牛）一、区间问题①区间选点算法将所有区间的右端点从小到大排序遍历所有的区间若该区间内没有点（左端点大于标记值），则将该区间的右端点设为新的标记值，并且点数加一若这个区间有点，则不处理，跳过该区间代码#include#includ
适用于嵌入式单片机的压缩算法 -飞鹤- 嵌入式单片机数据库
1.简介因为MCU的内存和算力的限制，那些对内存消耗大或算力需求大的压缩算法就不适合在MCU中使用。适用于MCU的压缩算法主要有：RLE、LZ77、Huffman、LZO、DEFLATE、LZ4。2.算法2.1.RLERLE(RunLengthEncoding)，也称为行程编码，压缩算法是一种无损压缩算法。算法特点：简单、易实现。使用RLE压缩方法可以将RRRRRGGBBBBBBABCD压缩为5R
数据结构—基础知识：哈夫曼树小哼快跑数据结构数据结构算法哈夫曼树考研
数据结构—基础知识：哈夫曼树哈夫曼树的基本概念哈夫曼（Huffman）树又称最优树，是一类带权路径长度最短的树，在实际中有广泛的用途。哈夫曼树的定义，涉及路径、路径长度、权等概念，下面先给出这些概念的定义，然后再介绍哈夫曼树路径：从树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。路径长度：路径上的分支数目称作路径长度。树的路径长度：从树根到每一结点的路径长度之和。权：赋予某个实体的一个
多元Huffman编码问题南山芽木题解算法 c++贪心算法
多元Huffman编码问题Description在一个操场的四周摆放着n堆石子。现要将石子有次序地合并成一堆。规定每次至少选2堆最多选k堆石子合并成新的一堆，合并的费用为新的一堆的石子数。试设计一个算法，计算出将n堆石子合并成一堆的最大总费用和最小总费用。对于给定n堆石子,计算合并成一堆的最大总费用和最小总费用。Input输入数据的第1行有2个正整数n和k（n≤100000，k≤10000），表示
SCU_DataStructure_lab zhangbihan999 笔记 java c++数据结构霍夫曼树
链接里是一个gitcode仓库，里面是四川大学软件学院数据结构与算法课程实验的一个示例实现代码Lab01：基于C++的简易计算器Lab02：基于Java的Huffman编/解码器
数据结构—基础知识（15）：哈夫曼树阿庆i code 数据结构基础知识概念数据结构算法考研经验分享笔记
数据结构—基础知识（15）：哈夫曼树哈夫曼树的基本概念哈夫曼（Huffman）树又称最优树，是一类带权路径长度最短的树，在实际中有广泛的用途。哈夫曼树的定义，涉及路径、路径长度、权等概念，下面先给出这些概念的定义，然后再介绍哈夫曼树路径：从树中一个结点到另一个结点之间的分支构成这两个结点之间的路径。路径长度：路径上的分支数目称作路径长度。树的路径长度：从树根到每一结点的路径长度之和。权：赋予某个实
数据压缩解压（哈夫曼编码）跑马去追XX java数据结构与算法数据结构 java 算法
数据压缩解压（哈夫曼编码）基本介绍赫夫曼编码也翻译为哈夫曼编码(HuffmanCoding)，又称霍夫曼编码，是一种编码方式,属于一种程序算法赫夫曼编码是赫哈夫曼树在电讯通信中的经典的应用之一。赫夫曼编码广泛地用于数据文件压缩。其压缩率通常在20%～90%之间赫夫曼码是可变字长编码(VLC)的一种。Huffman于1952年提出一种编码方法，称之为最佳编码原理剖析通信领域中信息的处理方式1-定长编
南航数据结构课设——Huffman编码与解码 NUAA-附鹤@ 数据结构算法霍夫曼树链表
Huffman编码与解码(必做)（Huffman编码、二叉树）[问题描述]对一篇不少于5000字符的英文文章（source.txt），统计各字符出现的次数，实现Huffman编码(code.dat)，以及对编码结果的解码(recode.txt)。[基本要求]（1）输出每个字符出现的次数和编码,并存储文件(Huffman.txt)。（2）在Huffman编码后，英文文章编码结果保存到文件中(code
蓝桥杯 Java 试题基础练习 Huffuman树得之我幸cyz 蓝桥杯算法
试题基础练习Huffuman树资源限制时间限制：1.0s内存限制：512.0MB问题描述Huffman树在编码中有着广泛的应用。在这里，我们只关心Huffman树的构造过程。给出一列数{pi}={p0,p1,…,pn-1}，用这列数构造Huffman树的过程如下：1.找到{pi}中最小的两个数，设为pa和pb，将pa和pb从{pi}中删除掉，然后将它们的和加入到{pi}中。这个过程的费用记为pa+
（C++附代码！）哈夫曼编码（贪心算法） Legal！算法 c++数据结构贪心算法 huffman tree
（C++附代码！）哈夫曼编码（贪心算法）一、问题描述【问题描述】使用贪心算法求解Huffman编码问题，具体来说就是，根据每个字符的出现频率，使用最小堆构造最小优先队列，构造出字符的最优二进制表示，即前缀码。在程序开始说明部分，简要描述使用贪心算法求解Huffman编码问题的算法过程。【输入形式】在屏幕上输入字符个数和每个字符的频率。【输出形式】每个字符的Huffman编码。【样例输入】64513
数据结构C++——哈夫曼树及哈夫曼编码近景_ 数据结构与算法分析数据结构算法 c++霍夫曼树
数据结构C++——哈夫曼树及哈夫曼编码文章目录数据结构C++——哈夫曼树及哈夫曼编码一、哈夫曼树的介绍及概念二、哈夫曼树的构造及打印①哈夫曼树的存储结构②构造哈夫曼树③Select()函数的代码实现④打印哈夫曼树⑤测试的完整代码二、哈夫曼编码①哈夫曼编码的相关概念②哈夫曼编码的算法实现③输出哈夫曼编码④测试的完整代码三、总结一、哈夫曼树的介绍及概念哈夫曼(Huffman)树又称最优树，是一类带权路
如何提高车端报文数据压缩效率 MarkHD 汽车
提高车端报文的压缩效率可以采取多种方法，以下是一些常用的策略：数据类型编码：使用紧凑的数据类型编码可以减少存储和传输的空间。例如，使用整数代替浮点数，使用固定长度的数据类型代替可变长度的数据类型。数据压缩：使用数据压缩算法，如Huffman编码、LZ77或LZ78等，可以有效地减少报文的大小。这些算法通过识别和替换重复的模式或序列来工作。差分编码：如果报文包含时间序列数据，可以使用差分编码来减少数
6-112 哈夫曼编码燕朝铭算法
编写函数实现哈夫曼编码。输入结点个数(保证个数>1)及各结点的权值，为各结点进行编码。函数接口定义：CreateHuffman_tree(HuffmanTree&HT,intn);/*建立n个叶子结点的哈夫曼树*/Huffman_code(HuffmanTreeHT,HuffmanCode&HC,intn);//求哈夫曼编码其中HT为哈夫曼树，n为叶子结点个数，HC为哈夫曼编码。裁判测试程序样例：
4.贪心算法含例题 anditty 算法算法导论贪心算法 java
文章目录贪心算法一、一个基本的贪心算法问题：区间调度问题二、区间调度的推广：多个资源下的贪心算法三、最小延迟调度——交换论证四、最优超高速缓存问题五、图最短路径问题六、最小生成树问题七、实现kruskal八、聚类cluster九、霍夫曼树Huffman十、交换论证十一、例题1.贪心算法有效性证明2.依旧是贪心算法的证明——来看看交换论证3.一个比割性质和圈性质更强的性质4.多重价值贪心问题5.一个
哈夫曼编码(c++题解) hb_zhyu c++开发语言
题目描述哈夫曼编码是一种编码方式，是可变字长编码的一种，由Huffman于1952年提出。该方法完全依据字符出现概率来构造异字头的平均长度最短的码字，有时称之为最佳编码，一般就叫Huffman编码。简单地来说，就是出现概率高的字符使用较短的编码，反之出现概率低的则使用较长的编码，这便使编码之后的字符串的平均期望长度降低，从而达到无损压缩数据的目的。现在请你模拟这样的原则对给定的一个字符串进行字母统
mysql主从数据同步林鹤霄 mysql主从数据同步
配置mysql5.5主从服务器(转) 教程开始：一、安装MySQL 说明：在两台MySQL服务器192.168.21.169和192.168.21.168上分别进行如下操作，安装MySQL 5.5.22 二、配置MySQL主服务器（192.168.21.169）mysql -uroot -p &nb
oracle学习笔记 caoyong oracle
1、ORACLE的安装 a>、ORACLE的版本 8i,9i : i是internet 10g,11g : grid (网格) 12c : cloud (云计算) b>、10g不支持win7 &
数据库，SQL零基础入门天子之骄 sql 数据库入门基本术语
数据库，SQL零基础入门做网站肯定离不开数据库，本人之前没怎么具体接触SQL，这几天起早贪黑得各种入门，恶补脑洞。一些具体的知识点，可以让小白不再迷茫的术语，拿来与大家分享。数据库，永久数据的一个或多个大型结构化集合，通常与更新和查询数据的软件相关
pom.xml 一炮送你回车库 pom.xml
1、一级元素dependencies是可以被子项目继承的 2、一级元素dependencyManagement是定义该项目群里jar包版本号的，通常和一级元素properties一起使用，既然有继承，也肯定有一级元素modules来定义子元素 3、父项目里的一级元素<modules> <module>lcas-admin-war</module> <
sql查地区省市县 3213213333332132 sql mysql
-- db_yhm_city SELECT * FROM db_yhm_city WHERE class_parent_id = 1 -- 海南 class_id = 9 港、奥、台 class_id = 33、34、35 SELECT * FROM db_yhm_city WHERE class_parent_id =169 SELECT d1.cla
关于监听器那些让人头疼的事宝剑锋梅花香画图板监听器鼠标监听器
本人初学JAVA，对于界面开发我只能说有点蛋疼，用JAVA来做界面的话确实需要一定的耐心（不使用插件，就算使用插件的话也没好多少）既然Java提供了界面开发，老师又要求做，只能硬着头皮上啦。但是监听器还真是个难懂的地方，我是上了几次课才略微搞懂了些。
JAVA的遍历MAP darkranger map
Java Map遍历方式的选择 1. 阐述　　对于Java中Map的遍历方式，很多文章都推荐使用entrySet，认为其比keySet的效率高很多。理由是：entrySet方法一次拿到所有key和value的集合；而keySet拿到的只是key的集合，针对每个key，都要去Map中额外查找一次value，从而降低了总体效率。那么实际情况如何呢？　　为了解遍历性能的真实差距，包括在遍历ke
POJ 2312 Battle City 优先多列+bfs aijuans 搜索
来源：http://poj.org/problem?id=2312 题意：题目背景就是小时候玩的坦克大战，求从起点到终点最少需要多少步。已知S和R是不能走得，E是空的，可以走，B是砖，只有打掉后才可以通过。思路：很容易看出来这是一道广搜的题目，但是因为走E和走B所需要的时间不一样，因此不能用普通的队列存点。因为对于走B来说，要先打掉砖才能通过，所以我们可以理解为走B需要两步，而走E是指需要1
Hibernate与Jpa的关系，终于弄懂 avords java Hibernate 数据库 jpa
我知道Jpa是一种规范，而Hibernate是它的一种实现。除了Hibernate，还有EclipseLink(曾经的toplink)，OpenJPA等可供选择，所以使用Jpa的一个好处是，可以更换实现而不必改动太多代码。在play中定义Model时，使用的是jpa的annotations，比如javax.persistence.Entity, Table, Column, OneToMany
酸爽的console.log bee1314 console
在前端的开发中，console.log那是开发必备啊，简直直观。通过写小函数，组合大功能。更容易测试。但是在打版本时，就要删除console.log，打完版本进入开发状态又要添加，真不够爽。重复劳动太多。所以可以做些简单地封装，方便开发和上线。 /** * log.js hufeng * The safe wrapper for `console.xxx` functions *
哈佛教授：穷人和过于忙碌的人有一个共同思维特质 bijian1013 时间管理励志人生穷人过于忙碌
一个跨学科团队今年完成了一项对资源稀缺状况下人的思维方式的研究，结论是：穷人和过于忙碌的人有一个共同思维特质，即注意力被稀缺资源过分占据，引起认知和判断力的全面下降。这项研究是心理学、行为经济学和政策研究学者协作的典范。　　这个研究源于穆来纳森对自己拖延症的憎恨。他7岁从印度移民美国，很快就如鱼得水，哈佛毕业
other operate 征客丶 OS osx
一、Mac Finder 设置排序方式，预览栏在显示－》查看显示选项中二、有时预览显示时，卡死在那，有可能是一些临时文件夹被删除了，如：/private/tmp[有待验证] -------------------------------------------------------------------- 若有其他凝问或文中有错误，请及时向我指出，我好及时改正，同时也让我们一
【Scala五】分析Spark源代码总结的Scala语法三 bit1129 scala
1. If语句作为表达式 val properties = if (jobIdToActiveJob.contains(jobId)) { jobIdToActiveJob(stage.jobId).properties } else { // this stage will be assigned to "default" po
ZooKeeper 入门 BlueSkator 中间件 zk
ZooKeeper是一个高可用的分布式数据管理与系统协调框架。基于对Paxos算法的实现，使该框架保证了分布式环境中数据的强一致性，也正是基于这样的特性，使得ZooKeeper解决很多分布式问题。网上对ZK的应用场景也有不少介绍，本文将结合作者身边的项目例子，系统地对ZK的应用场景进行一个分门归类的介绍。值得注意的是，ZK并非天生就是为这些应用场景设计的，都是后来众多开发者根据其框架的特性，利
MySQL取得当前时间的函数是什么格式化日期的函数是什么 BreakingBad mysql Date
取得当前时间用 now() 就行。在数据库中格式化时间用DATE_FORMA T(date, format) . 根据格式串format 格式化日期或日期和时间值date，返回结果串。可用DATE_FORMAT( ) 来格式化DATE 或DATETIME 值，以便得到所希望的格式。根据format字符串格式化date值: %S, %s 两位数字形式的秒（ 00,01,
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
4_JAVA+Oracle面试题(有答案) chenke oracle
基础测试题卷面上不能出现任何的涂写文字，所有的答案要求写在答题纸上，考卷不得带走。选择题 1、 What will happen when you attempt to compile and run the following code? （3） public class Static { static { int x = 5; // 在static内有效 } st
新一代工作流系统设计目标 comsci 工作算法脚本
用户只需要给工作流系统制定若干个需求，流程系统根据需求，并结合事先输入的组织机构和权限结构，调用若干算法，在流程展示版面上面显示出系统自动生成的流程图，然后由用户根据实际情况对该流程图进行微调，直到满意为止，流程在运行过程中，系统和用户可以根据情况对流程进行实时的调整，包括拓扑结构的调整，权限的调整，内置脚本的调整。。。。。在这个设计中，最难的地方是系统根据什么来生成流
oracle 行链接与行迁移 daizj oracle 行迁移
表里的一行对于一个数据块太大的情况有二种(一行在一个数据块里放不下) 第一种情况: INSERT的时候，INSERT时候行的大小就超一个块的大小。Oracle把这行的数据存储在一连串的数据块里(Oracle Stores the data for the row in a chain of data blocks)，这种情况称为行链接(Row Chain)，一般不可避免(除非使用更大的数据
[JShop]开源电子商务系统jshop的系统缓存实现 dinguangx jshop 电子商务
前言 jeeshop中通过SystemManager管理了大量的缓存数据，来提升系统的性能，但这些缓存数据全部都是存放于内存中的，无法满足特定场景的数据更新（如集群环境）。JShop对jeeshop的缓存机制进行了扩展，提供CacheProvider来辅助SystemManager管理这些缓存数据，通过CacheProvider,可以把缓存存放在内存,ehcache,redis，memcache
初三全学年难记忆单词 dcj3sjt126com english word
several 儿子；若干 shelf 架子 knowledge 知识；学问 librarian 图书管理员 abroad 到国外，在国外 surf 冲浪 wave 浪；波浪 twice 两次；两倍 describe 描写；叙述 especially 特别；尤其 attract 吸引 prize 奖品；奖赏 competition 比赛；竞争 event 大事；事件 O
sphinx实践 dcj3sjt126com sphinx
安装参考地址:http://briansnelson.com/How_to_install_Sphinx_on_Centos_Server yum install sphinx 如果失败的话使用下面的方式安装 wget http://sphinxsearch.com/files/sphinx-2.2.9-1.rhel6.x86_64.rpm yum loca
JPA之JPQL（三） frank1234 orm jpa JPQL
1 什么是JPQL JPQL是Java Persistence Query Language的简称，可以看成是JPA中的HQL， JPQL支持各种复杂查询。 2 检索单个对象 @Test public void querySingleObject1() { Query query = em.createQuery("sele
Remove Duplicates from Sorted Array II hcx2013 remove
Follow up for "Remove Duplicates":What if duplicates are allowed at most twice? For example,Given sorted array nums = [1,1,1,2,2,3], Your function should return length
Spring4新特性——Groovy Bean定义DSL jinnianshilongnian spring 4
Spring4新特性——泛型限定式依赖注入 Spring4新特性——核心容器的其他改进 Spring4新特性——Web开发的增强 Spring4新特性——集成Bean Validation 1.1(JSR-349)到SpringMVC Spring4新特性——Groovy Bean定义DSL Spring4新特性——更好的Java泛型操作API Spring4新
CentOS安装Mysql5.5 liuxingguome centos
CentOS下以RPM方式安装MySQL5.5 首先卸载系统自带Mysql： yum remove mysql mysql-server mysql-libs compat-mysql51 rm -rf /var/lib/mysql rm /etc/my.cnf 查看是否还有mysql软件： rpm -qa|grep mysql 去http://dev.mysql.c
第14章工具函数（下） onestopweb 函数
index.html <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/
POJ 1050 SaraWon 二维数组子矩阵最大和
POJ ACM第1050题的详细描述，请参照 http://acm.pku.edu.cn/JudgeOnline/problem?id=1050 题目意思：给定包含有正负整型的二维数组，找出所有子矩阵的和的最大值。如二维数组 0 -2 -7 0 9 2 -6 2 -4 1 -4 1 -1 8 0 -2 中和最大的子矩阵是 9 2 -4 1 -1 8 且最大和是15
Java8全新打造，英语学习supertool yangshangchuan java superword 闭包 java8 函数式编程
superword是一个Java实现的英文单词分析软件，主要研究英语单词音近形似转化规律、前缀后缀规律、词之间的相似性规律等等。Clean code、Fluent style、Java8 feature: Lambdas, Streams and Functional-style Programming。升学考试、工作求职、充电提高，都少不了英语的身影，英语对我们来说实在太重要

python 实现的huffman 编码压缩，解码解压缩

压缩效果

你可能感兴趣的:(Huffman)