hguisu

gzip压缩算法

gzip,zlib,以及图形格式png，使用的是同一个压缩算法deflate。我们通过对gzip源码的分析来对deflate压缩算法做一个详细的说明：

第一，gzip压缩算法基本原理的说明。

第二，gzip压缩算法实现方法的说明。

第三，gzip实现源码级的说明。

1. Gzip压缩算法的原理

         gzip 对于要压缩的文件，首先使用LZ77算法的一个变种进行压缩，对得到的结果再使用Huffman编码的方法（实际上gzip根据情况，选择使用静态Huffman编码或者动态Huffman编码，详细内容在实现中说明）进行压缩。所以明白了LZ77算法和Huffman编码的压缩原理，也就明白了gzip的压缩原理。我们来对LZ77算法和Huffman编码做一个简单介绍。
1.1 LZ77算法简介
        这一算法是由Jacob Ziv 和 Abraham Lempel 于 1977 年提出，所以命名为 LZ77。

1.1.1 LZ77算法的压缩原理

        如果文件中有两块内容相同的话，那么只要知道前一块的位置和大小，我们就可以确定后一块的内容。所以我们可以用（两者之间的距离，相同内容的长度）这样一对信息，来替换后一块内容。由于（两者之间的距离，相同内容的长度）这一对信息的大小，小于被替换内容的大小，所以文件得到了压缩。
下面我们来举一个例子。
有一个文件的内容如下：
http://jiurl.yeah.net
http://jiurl.nease.net
其中有些部分的内容，前面已经出现过了，下面用()括起来的部分就是相同的部分。
http://jiurl.yeah.net
(http://jiurl.)nease(.net)
我们使用 (两者之间的距离，相同内容的长度) 这样一对信息，来替换后一块内容。
http://jiurl.yeah.net
(22,13)nease(23,4)

其中：
(22,13)中，22为相同内容块与当前位置之间的距离，13为相同内容的长度。
(23,4)中，23为相同内容块与当前位置之间的距离，4为相同内容的长度。
由于（两者之间的距离，相同内容的长度）这一对信息的大小，小于被替换内容的大小，所以文件得到了压缩。

1.1.2 LZ77使用滑动窗口寻找匹配串
       LZ77算法使用"滑动窗口"的方法，来寻找文件中的相同部分，也就是匹配串。我们先对这里的串做一个说明，它是指一个任意字节的序列，而不仅仅是可以在文本文件中显示出来的那些字节的序列。这里的串强调的是它在文件中的位置，它的长度随着匹配的情况而变化。
       LZ77从文件的开始处开始，一个字节一个字节的向后进行处理。一个固定大小的窗口（在当前处理字节之前，并且紧挨着当前处理字节），随着处理的字节不断的向后滑动，就象在阳光下，飞机的影子滑过大地一样。对于文件中的每个字节，用当前处理字节开始的串，和窗口中的每个串进行匹配，寻找最长的匹配串。窗口中的每个串指，窗口中每个字节开始的串。如果当前处理字节开始的串在窗口中有匹配串，就用(之间的距离，匹配长度) 这样一对信息，来替换当前串，然后从刚才处理完的串之后的下一个字节，继续处理。如果当前处理字节开始的串在窗口中没有匹配串，就不做改动的输出当前处理字节。
      处理文件中第一个字节的时候，窗口在当前处理字节之前，也就是还没有滑到文件上，这时窗口中没有任何内容，被处理的字节就会不做改动的输出。随着处理的不断向后，窗口越来越多的滑入文件，最后整个窗口滑入文件，然后整个窗口在文件上向后滑动，直到整个文件结束。

1.1.3 使用LZ77算法进行压缩和解压缩
       为了在解压缩时，可以区分“没有匹配的字节”和“（之间的距离，匹配长度）对”，我们还需要在每个“没有匹配的字节”或者“（之间的距离，匹配长度）对”之前，放上一位，来指明是“没有匹配的字节”，还是“（之间的距离，匹配长度）对”。我们用0表示“没有匹配的字节”，用1表示“（之间的距离，匹配长度）对”。
       实际中，我们将固定（之间的距离，匹配长度）对中的，“之间的距离”和“匹配长度”所使用的位数。由于我们要固定“之间的距离”所使用的位数，所以我们才使用了固定大小的窗口，比如窗口的大小为32KB，那么用15位（2^15=32K）就可以保存0-32K范围的任何一个值。实际中，我们还将限定最大的匹配长度，这样一来，“匹配长度”所使用的位数也就固定了。
       实际中，我们还将设定一个最小匹配长度，只有当两个串的匹配长度大于最小匹配长度时，我们才认为是一个匹配。我们举一个例子来说明这样做的原因。比如，“距离”使用15位，“长度”使用8位，那么“（之间的距离，匹配长度）对”将使用23位，也就是差1位3个字节。如果匹配长度小于3个字节的话，那么用“（之间的距离，匹配长度）对”进行替换的话，不但没有压缩，反而会增大，所以需要一个最小匹配长度。
压缩：
       从文件的开始到文件结束，一个字节一个字节的向后进行处理。用当前处理字节开始的串，和滑动窗口中的每个串进行匹配，寻找最长的匹配串。如果当前处理字节开始的串在窗口中有匹配串，就先输出一个标志位，表明下面是一个(之间的距离，匹配长度) 对，然后输出(之间的距离，匹配长度) 对，然后从刚才处理完的串之后的下一个字节，继续处理。如果当前处理字节开始的串在窗口中没有匹配串，就先输出一个标志位，表明下面是一个没有改动的字节，然后不做改动的输出当前处理字节，然后继续处理当前处理字节的下一个字节。
解压缩：
        从文件开始到文件结束，每次先读一位标志位，通过这个标志位来判断下面是一个(之间的距离，匹配长度) 对，还是一个没有改动的字节。如果是一个（之间的距离，匹配长度）对，就读出固定位数的（之间的距离，匹配长度）对，然后根据对中的信息，将匹配串输出到当前位置。如果是一个没有改动的字节，就读出一个字节，然后输出这个字节。
我们可以看到，LZ77压缩时需要做大量的匹配工作，而解压缩时需要做的工作很少，也就是说解压缩相对于压缩将快的多。这对于需要进行一次压缩，多次解压缩的情况，是一个巨大的优点。

1.2 Huffman编码简介

1.2.1 Huffman编码的压缩原理
       我们把文件中一定位长的值看作是符号，比如把8位长的256种值，也就是字节的256种值看作是符号。我们根据这些符号在文件中出现的频率，对这些符号重新编码。对于出现次数非常多的，我们用较少的位来表示，对于出现次数非常少的，我们用较多的位来表示。这样一来，文件的一些部分位数变少了，一些部分位数变多了，由于变小的部分比变大的部分多，所以整个文件的大小还是会减小，所以文件得到了压缩。

1.2.2 Huffman编码使用Huffman树来产生编码
       要进行Huffman编码，首先要把整个文件读一遍，在读的过程中，统计每个符号（我们把字节的256种值看作是256种符号）的出现次数。然后根据符号的出现次数，建立Huffman树，通过Huffman树得到每个符号的新的编码。对于文件中出现次数较多的符号，它的Huffman编码的位数比较少。对于文件中出现次数较少的符号，它的Huffman编码的位数比较多。然后把文件中的每个字节替换成他们新的编码。
建立Huffman树：
        把所有符号看成是一个结点，并且该结点的值为它的出现次数。进一步把这些结点看成是只有一个结点的树。
每次从所有树中找出值最小的两个树，为这两个树建立一个父结点，然后这两个树和它们的父结点组成一个新的树，这个新的树的值为它的两个子树的值的和。如此往复，直到最后所有的树变成了一棵树。我们就得到了一棵Huffman树。

通过Huffman树得到Huffman编码：
        这棵Huffman树，是一棵二叉树，它的所有叶子结点就是所有的符号，它的中间结点是在产生Huffman树的过程中不断建立的。
我们在Huffman树的所有父结点到它的左子结点的路径上标上0，右子结点的路径上标上1。
现在我们从根节点开始，到所有叶子结点的路径，就是一个0和1的序列。我们用根结点到一个叶子结点路径上的0和1的序列，作为这个叶子结点的Huffman编码。
       我们可以看到，Huffman树的建立方法就保证了，出现次数多的符号，得到的Huffman编码位数少，出现次数少的符号，得到的Huffman编码位数多。
各个符号的Huffman编码的长度不一，也就是变长编码。对于变长编码，可能会遇到一个问题，就是重新编码的文件中可能会无法如区分这些编码。
比如，a的编码为000，b的编码为0001，c的编码为1，那么当遇到0001时，就不知道0001代表ac，还是代表b。出现这种问题的原因是a的编码是b的编码的前缀。
由于Huffman编码为根结点到叶子结点路径上的0和1的序列，而一个叶子结点的路径不可能是另一个叶子结点路径的前缀，所以一个Huffman编码不可能为另一个Huffman编码的前缀，这就保证了Huffman编码是可以区分的。

1.2.3 使用Huffman编码进行压缩和解压缩
     为了在解压缩的时候，得到压缩时所使用的Huffman树，我们需要在压缩文件中，保存树的信息，也就是保存每个符号的出现次数的信息。
压缩：
      读文件，统计每个符号的出现次数。根据每个符号的出现次数，建立Huffman树，得到每个符号的Huffman编码。将每个符号的出现次数的信息保存在压缩文件中，将文件中的每个符号替换成它的Huffman编码，并输出。
解压缩：
      得到保存在压缩文件中的，每个符号的出现次数的信息。根据每个符号的出现次数，建立Huffman树，得到每个符号的Huffman编码。将压缩文件中的每个Huffman编码替换成它对应的符号，并输出。

2. Gzip压缩算法的实现

2.1 寻找匹配串的实现

     为一个串寻找匹配串需要进行大量的匹配工作，而且我们还需要为很多很多个串寻找匹配串。所以 gzip 在寻找匹配串的实现中使用哈希表来提高速度。
     要达到的目标是，对于当前串，我们要在它之前的窗口中，寻找每一个匹配长度达到最小匹配的串，并找出匹配长度最长的串。
     在gzip 中，最小匹配长度为3，也就是说，两个串，最少要前3个字节相同，才能算作匹配。为什么最小匹配长度为3，将在后面说明。
     gzip 对遇到的每一个串，首先会把它插入到一个“字典”中。这样当以后有和它匹配的串，可以直接从“字典”中查出这个串。
     插入不是乱插，查也不是乱查。插入的时候，使用这个插入串的前三个字节，计算出插入的“字典”位置，然后把插入串的开始位置保存在这个“字典”位置中。查出的时候，使用查出串的前三个字节，计算出“字典”位置，由于插入和查出使用的是同一种计算方法，所以如果两个串的前三个字节相同的话，计算出的“字典”位置肯定是相同的，所以就可以直接在该“字典”位置中，取出以前插入时，保存进去的那个串的开始位置。于是查出串，就找到了一个串，而这个串的前三个字节和自己的一样（其实只是有极大的可能是一样的，原因后面说明），所以就找到了一个匹配串。
      如果有多个串，他们的前三个字节都相同，那么他们的“字典”位置，也都是相同的，他们将被链成一条链，放在那个“字典”位置上。所以，如果一个串，查到了一个“字典”位置，也就查到了一个链，所有和它前三个字节相同的串，都在这个链上。
      也就是说，当前串之前的所有匹配串被链在了一个链上，放在某个“字典”位置上。而当前串使用它的前三个字节，进行某种计算，就可以得到这个“字典”位置（得到了“字典”位置之后，它首先也把自己链入到这个链上），也就找到了链有它的所有匹配串的链，所以要找最长的匹配，也就是遍历这个链上的每一个串，看和哪个串的匹配长度最大。

寻找匹配串的实现具体的说明
我们前面所说的“字典”，是一个数组，叫做head[]（为什么叫head,后面进行说明）。
我们前面所说的“字典”位置，放在一个叫做ins_h的变量中。
我们前面所说的链，是在一个叫做prev[]的数组中。

插入head[ins_h]：
当前字节为第 strstart 个字节。通过第strstart,strstart+1,strstart+2,这三个字节，使用一个设计好的哈希函数算出ins_h，也就是插入的位置。然后将当前字节的位置，即strstart，保存在head[ins_h]中。
注意由 strstart,strstart+1,strstart+2,这三个字节（也就是strstart开始处的串的头三个字节，也就是当前字节和之后的两个字节）确定了ins_h。head[ins_h]中保存的又是strstart，也就是这个串开始的位置。

判断是否有匹配：
当前串的前三个字节，使用哈希函数算出ins_h，这时如果head[ins_h]的值不为空的话，那么head[ins_h]中的值，便是之前保存在这里的另一个串的位置，并且这个串的前三个字节算出的ins_h，和当前串的前三个字节算出的ins_h相同。也就是说有可能有匹配。如果head[ins_h]的值为空的话，那么肯定没有匹配。
gzip所使用的哈希函数：

gzip 所使用的哈希函数，用三个字节来计算一个ins_h，这是由于最小匹配为三个字节。

对于相同的三个字节，通过哈希函数得到的ins_h必然是相同的。
而不同的三个字节，通过哈希函数有可能得到同一个ins_h，不过这并不要紧，
当gzip发现head[ins_h]不空后，也就是说有可能有匹配串的话，会对链上的每一个串进行真正的串的比较。

所以一个链上的串，只是前三个字节用哈希函数算出的值相同，而并不一定前三个字节都是相同的。但是这样已经很大的缩小了需要进行串比较的范围。

我们来强调一下，前三个字节相同的串，必然在同一个链上。在同一个链上的，不一定前三个字节都相同。

不同的三个字节有可能得到同一个结果的原因是，三个字节，一共24位，有2^24种可能值。而三个字节的哈希函数的计算结果为15位，有2^15种可能值。也就是说2^24种值，与2^15种值进行对应，必然是多对一的，也就是说，必然是有多种三个字节的值，用这个哈希函数计算出的值都是相同的。

而我们使用哈希函数的理由是，实际上，我们只是在一个窗口大小的范围内（后面将会看到）寻找匹配串，一个窗口的大小范围是很有限的，能出现的三个字节的值组合情况也是很有限的，将远远小于2^24，使用合适的哈希函数是高效的。

prev[]链的作用，前三个字节相同的所有的串所在的链：

head[ins_h] 中的值，有两个作用。一个作用，是一个前三个字节计算结果为ins_h的串的位置。另一个作用，是一个在prev[]数组中的索引，用这个索引在prev[]中，将找到前一个前三个字节计算结果为ins_h的串的位置。即prev[head[ins_h]]的值（不为空的话）为前一个前三个字节计算结果为ins_h的串的位置。

prev[]的值，也有两个作用。一个作用，是一个前三个字节计算结果为ins_h的串的位置。另一个作用，是一个在prev[]数组中的索引，用这个索引在prev[]中，将找到前一个前三个字节计算结果为ins_h的串的位子哈。即prev[]的值（不为空的话）为前一个三个字节计算结果为ins_h的串的位置。

直到prev[]为空，表示链结束。

我们来举一个例子，串，
0abcd abce,abcf_abcg

当处理到abcg的a时，由abcg的abc算出ins_h。
这时的head[ins_h]中为 11，即串"abcf abcg"的开始位置。
这时的prev[11]中为 6，即串"abce abcf abcg"的开始位置。
这时的prev[6]中为 1，即串"abcd abce abcf abcg"的开始位置。
这时的prev[1]中为 0。表示链结束了。

我们看到所有头三个字母为abc的串，被链在了一起，从head可以一直找下去，直到找到0。

prev[]链的建立：

gzip在每次处理当前串的时候，首先用当前串的前三个字节计算出ins_h，然后，就要把当前的串也插入到相应的链中，也就是把当前的串的位置，保存到 head[ins_h] 中，而此时，head[ins_h] 中（不空的话）为前一个串的开始位置。所以这时候需要把前一个串的位置，也就是原来的head[ins_h]放入链中。于是把现在的head[ins_h]的值，用当前串的位置做索引，保存到 prev[] 中。然后再把 head[ins_h] 赋值为当前串的位置。

如果当前串的位置为strstart的话，那么也就是
prev[strstart] = head[ins_h];
head[ins_h] = strstart;

就这样，每次把一个串的位置加入到链中，链就形成了。

现在我们也就知道了，前三个字节计算得到同一ins_h的所有的串被链在了一起，head[ins_h]为链头，prev[]数组中放着的更早的串的位置。head数组和prev数组的名字，也正反应了他们的作用。

prev[]链的特点：

越向前（prev）与当前处理位置之间的距离越大。比如，当前处理串，算出了ins_h，而且head[ins_h]中的值不空，那么head[ins_h]就是离当前处理串距离最近的一个可能的匹配串，并且顺着prev[]向前所找到的串，越来距离越远。

匹配串中的字节开始的串的插入：

我们说过了，所有字节开始的串，都将被插入“字典”。对于确定了的匹配串，匹配串中的每个字节开始的串，仍要被插入“字典”，以便后面串可以和他们进行匹配。

注意：

对于文件中的第0字节，情况很特殊，它开始的串的位置为0。所以第0串的前三个字节计算出ins_h之后，在head[ins_h]中保存的位置为0。而对是否有可能有匹配的判断，就是通过head[ins_h]不为0，并且head[ins_h]的值为一个串的开始位置。所以第0字节开始的串，由于其特殊性，将不会被用来匹配，不过这种情况只会出现在第0个字节，所以通常不会造成影响，即使影响，也会极小。

例如，文件内容为
jiurl jiurl
找到的匹配情况如下，[]所括部分。
jiurl j[iurl]

2.2 懒惰啊匹配（lazy match）

对于当前字节开始的串，寻找到了最长匹配之后，gzip并不立即决定使用这个串进行替换。而是看看这个匹配长度是否满意，如果匹配长度不满意，而下一个字节开始的串也有匹配串的话，那么gzip就找到下一个字节开始的串的最长匹配，看看是不是比现在这个长。这叫懒惰啊匹配。如果比现在这个长的话，将不使用现在的这个匹配。如果比现在这个短的话，将确定使用现在的这个匹配。

我们来举个例子，串
0abc bcde abcde
处理到第10字节时，也就是"abcde"的a时，找到最长匹配的情况如下，[]所括部分。
0abc bcde [abc]de
这时，再看看下一个字节，也就是第11字节的情况，也就是'abcde"的b，找到最长匹配的情况如下，[]所括部分。
0abc bcde a[bcde]
发现第二次匹配的匹配长度大，就不使用第一次的匹配串。我们也看到了如果使用第一次匹配的话，将错过更长的匹配串。
在满足懒惰啊匹配的前提条件下，懒惰啊匹配不限制次数，一次懒惰啊匹配发现了更长的匹配串之后，仍会再进行懒惰啊匹配，如果这次懒匹配，发现了更长的匹配串，那么上一次的懒匹配找到的匹配串就不用了。

进行懒惰啊匹配是有条件的。进行懒惰啊匹配必须满足两个条件，第一，下一个处理字节开始的串，要有匹配串，如果下一个处理字节开始的串没有匹配串的话，那么就确定使用当前的匹配串，不进行懒匹配。第二，当前匹配串的匹配长度，gzip不满意，也就是当前匹配长度小于max_lazy_match（max_lazy_match在固定的压缩级别下，有固定的值）。

讨论：

我们可以看到了做另外一次尝试的原因。如果当前串有匹配就使用了的话，可能错过更长匹配的机会。使用懒惰啊匹配会有所改善。
不过从我简单的分析来看，使用懒惰啊匹配对压缩率的改善似乎是非常有限的。

2.3 大于64KB的文件，窗口的实现

窗口的实现：

实际中，当前串（当前处理字节开始的串）只是在它之前的窗口中寻找匹配串的，也就是说只是在它之前的一定大小的范围内寻找匹配串的。有这个限制的原因，将在后面说明。

gzip 的窗口大小为 WSIZE，32KB。

内存中有一个叫window[]的缓冲区，大小为2个窗口的大小，也就是64KB。文件的内容将被读到这个window[]中，我们在window[]上进行LZ77部分的处理，得到结果将放在其他缓冲区中。

gzip 对window[]中的内容，从开始处开始，一个字节一个字节的向后处理。有一个指针叫strstart（其实是个索引），指向当前处理字节，当当前处理字节开始的串没有匹配时，不做改动的输出当前处理字节，strstart向后移动一个字节。当当前处理字节开始的串找到了匹配时，输出（匹配长度，相隔距离）对，strstart向后移动匹配长度个字节。我们把strstart到window[]结束的这部分内容，叫做 lookahead buffer，超前查看缓冲区。这样叫的原因是，在我们处理当前字节的时候，就需要读出之后的字节来进行串的匹配。在一个变量lookahead中，保存着超前查看缓冲区所剩的字节数。lookahead，最开始被初始化为整个读入内容的大小，随着处理的进行，strstart不断后移，超前查看缓冲区不断减小，lookahead的值也不断的减小。

我们需要限制查找匹配串的范围为一个窗口的大小（这么做的原因后面说明），也就是说，只能在当前处理字节之前的32KB的范围内寻找匹配串。而，由于处理是在2个窗口大小，也就是64KB大小的缓冲区中进行的，所以匹配链上的串与当前串之间的距离是很有可能超过32KB的。那么gzip是如何来实现这个限制的呢？

gzip 通过匹配时的判断条件来实现这个限制。当当前串计算ins_h，发现head[ins_h]值不为空时（head[ins_h]为一个串的开始位置），说明当前串有可能有匹配串，把这个值保存在 hash_head中。这时就要做一个限制范围的判断，strstart - hash_head <= 窗口大小，strstart-hash_head 是当前串和最近的匹配串之间的距离，（注意前面说过，链头和当前串的距离最近，越向前（prev）与当前处理位置之间的距离越大），也就是说要判断当前串和距离最近的匹配串之间的距离是否在一个窗口的范围之内。如果不是的话，那么链上的其他串肯定更远，肯定更不在一个窗口的范围之内，就不进行匹配处理了。如果是在一个窗口的范围之内的话，还需要在链上寻找最长的匹配串，在和每个串进行比较的时候，也需要判断当前串和该串的距离是否超过一个窗口的范围，超过的话，就不能进行匹配。

实际中，gzip为了使代码简单点，距离限制要比一个窗口的大小还要小一点。

对于小于64KB的文件处理过程：

初始化的时候，会首先从文件中读64KB的内容到window[]中。

对于小于64KB的文件，整个文件都被读入到window[]中。在window[]上进行LZ77的处理，从开始直到文件结束。

大于64KB的文件处理过程：

每处理一个字节都要判断 lookahead < MIN_LOOKAHEAD ，也就是window中还没有处理的字节是否还够MIN_LOOKAHEAD ，如果不够的话，就会导致 fill_window()，从文件中读内容到window[]中。由于我们一次最大可能使用的超前查看缓冲区的大小为，最大匹配长度（258个字节，后面进行说明）加上最小匹配长度，也就是下一个处理字节开始的串，可以找到一个最大匹配长度的匹配，发生匹配之后，还要预读一个最小匹配长度来计算之后的ins_h。

不管是大于64KB的文件，还是小于64KB的文件，随着处理的进行，最终都要到文件的结束，在接近文件结束的时候，都会出现 lookahead < MIN_LOOKAHEAD ，对于这种情况，fill_window() 读文件，就再读不出文件内容了，于是fill_window()会设置一个标志eofile，表示文件就要结束了，之后肯定会接着遇到 lookahead < MIN_LOOKAHEAD ，不过由于设置了 eofile 标志，就不会再去试图读文件到window[]中了。

压缩开始之前的初始化，会从文件中读入64KB的内容到window[]中，窗口大小为32KB，也就是读入2窗的内容到window[]中。我们把第一窗的内容叫做w1_32k，第二窗的内容叫做w2_32k。

压缩不断进行，直到 lookahead < MIN_LOOKAHEAD，也就是处理到了64KB内容的接近结束部分，也就是如果再处理，超前查看缓冲区中的内容就可能不够了。由于 lookahead < MIN_LOOKAHEAD ，将执行 fill_window()。

fill_window() 判断是否压缩已经进行到了2窗内容快用完了，该把新的内容放进来了。如果是的话，

fill_window() 把第二窗的内容 w2_32k，复制到第一窗中，第一窗中的内容就被覆盖掉了，然后对match_start,strstart之类的索引，做修正。
然后更新匹配链的链头数组，head[]，从头到尾过一遍，如果这个头中保存的串的位置，在w2_32k中，就对这个串的位置做修正。
如果这个头中保存的串的位置，在w1_32k中，就不要了，设为空，因为第一窗的内容我们已经覆盖掉了。
然后更新prev[]数组，从头到尾过一遍，如果某项的内容，在w2_32k中，就做修正。如果这项的内容，在w1_32k中，就不要了，设为空，因为第一窗的内容我们已经覆盖掉了。

最后fill_window()从文件中再读出一窗内容，也就是读出32KB的内容，复制到第二个窗中，注意第二个窗口中原来的内容，已经被复制到了第一个窗口中。

就这样，一窗窗的处理，直到整个文件结束。

分析：

到第二窗文件内容也快要处理完的时候，才会从文件中读入新的内容。而这时，第一窗中的所有串，对于当前处理字节和之后的字节来说，已经超出了一个窗口的距离，当前处理字节和之后的字节不能和第一窗的串进行匹配了，也就是说第一窗的内容已经没有用了。所有插入字典的第一窗的串也已经没有用了。所以覆盖第一窗的内容是合理的，将字典中第一窗的串的开始位置都设为空也是合理的。

将第二窗的内容复制到第一窗中，那么第二窗在字典中的所有索引都需要做相应的修正。

由于第二窗的内容已经复制到了第一窗中，所以我们可以将新的内容读入到第二窗中，新的内容之前的32KB的内容，就是原来的第二窗中的内容。而这时，做过修正的字典中，仍然有原来第二窗中所有串的信息，也就是说，新的内容，可以继续利用前面一个窗口大小的范围之内的串，进行压缩，这也是合理的。

2.4 其他问题1

现在来说明一下，为什么最小匹配长度为3个字节。这是由于，gzip 中，(匹配长度，相隔距离)对中，"匹配长度"的范围为3-258，也就是256种可能值，需要8bit来保存。"相隔距离"的范围为0-32K，需要15bit来保存。所以一个(匹配长度，相隔距离)对需要23位，差一位3个字节。如果匹配串小于3个字节的话，使用(匹配长度，相隔距离)对进行替换，不但没有压缩，反而还会增大。所以保存(匹配长度，相隔距离)对所需要的位数，决定了最小匹配长度至少要为3个字节。

最大匹配长度为258的原因是，综合各种因素，决定用8位来保存匹配长度，8位的最大值为255。实际中，我们在(匹配长度，相隔距离)对中的“匹配长度”保存的是，实际匹配长度-最小匹配长度，所以255对应的实际匹配长度为258。

在进行匹配时，会对匹配长度进行判断，保证到达最大匹配长度时，匹配就停止。也就是说，即使有两个串的相同部分超过了最大匹配长度，也只匹配到最大匹配长度。

保存相隔距离所用的位数和窗口大小是互相决定的，综合两方面各种因素，确定了窗口大小，也就确定了保存相隔距离所使用的位数。

2.5 gzip 的 LZ77部分的实现要点

gzip 的 LZ77 部分的实现主要在函数 defalte() 中。

所使用的缓冲区

window[] 用来放文件中读入的内容。

l_buf[]，d_buf[]，flag_buf[] 用来放LZ77压缩得到的结果。
l_buf[] 中的每个字节是一个没有匹配的字节，或者是一个匹配的对中的匹配长度-3。l_buf[]共用了inbuf[]。
d_buf[] 中的每个unsigned short，是一个匹配的对中的相隔距离。
flag_buf[] 中每位是一个标志，用来指示l_buf[]中相应字节是没有匹配的字节，还是一个匹配的对中的匹配长度-3。

prev[]，head[] 用来存放字典信息。实际上 head 为宏定义 prev+WSIZE。

初始化过程中，调用 lm_init()。
lm_init() 中，从输入文件中读入2个窗口大小，也就是64KB的内容到window[]中。lookahead 中为返回的读入字节数。使用window中的头两个字节，UPDATE_HASH，初始化ins_h。

deflate() 中，一个处理循环中，首先 INSERT_STRING 把当前串插入字典，INSERT_STRING 是一个宏，作用就是用哈希函数计算当前串的ins_h，然后把原来的head[ins_h]中的内容，链入链中（放到prev中），同时把原来的head[ins_h]保存在hash_head变量中，用来后面进行匹配判断，然后把当前串的开始位置，保存在head[ins_h]中。

判断hash_head中保存的内容不为空，说明匹配链上有内容。调用 longest_match () 寻找匹配链上的最长匹配。
hash_head中保存的内容为空，说明当前字节开始的串，在窗口中没有匹配。
由于使用了lazy match，使得判断的情况更复杂。

匹配串的输出，或者是没有匹配的字节的输出，都是调用函数 ct_tally()。
对于匹配串，输出之后，还需要为匹配串中的每个字节使用 INSERT_STRING，把匹配串中每个字节开始的串都插入到字典中。

ct_tally()中，把传入的"没有匹配的字节"或者是"匹配长度-3"放到l_buf[]中，然后为以后的Huffman编码做统计次数的工作，如果传入的是匹配情况，传入的参数中会有相隔距离，把相隔距离保存在d_buf[]中。根据传入的参数，可以判断是哪种情况，然后设置一个变量中相应的标志位，每8个标志位，也就是够一个字节，就保存到flag_buf[]中。还有一些判断，我们将在后面进行说明。

2.6 分块输出

LZ77 压缩的结果放在，l_buf[]，d_buf[]，flag_buf[] 中。
对于 LZ77 的压缩结果，可能使用一块输出或者分成多块输出（LZ77压缩一定的部分之后，就进行一次块输出，输出一块）。块的大小不固定。

输出的时候，会对LZ77的压缩结果，进行Huffman编码，最终把Huffman编码的结果输出到outbuf[]缓冲区中。
进行Huffman编码，并输出的工作，在 flush_block() 中进行。

在ct_tally()中进行判断，如果满足一些条件的话，当从ct_tally()中返回之后，就会对现有的LZ77的结果，进行Huffman编码，输出到一个块中。
在整个文件处理结束，deflate()函数要结束的时候，会把LZ77的结果，进行Huffman编码，输出到一个块中。

在ct_tally()中，每当l_buf[]中的字节数（每个字节是一个没有匹配的字节或者一个匹配长度）增加0x1000，也就是4096的时候。将估算压缩的情况，以判断现在结束这个块是否比较好，如果觉得比较好，就输出一个块。如果觉得不好，就先不输出。

而当l_buf[]满了的时候，或者d_buf[]满了的时候，将肯定对现有的LZ77压缩的结果，进行Huffman编码，输出到一个块中。

决定输出一块的话，会只针对这一块的内容，建立Huffman树，这一块内容将会被进行Huffman编码压缩，并被输出到outbuf[]中。如果是动态Huffman编码，树的信息也被输出到outbuf[]中。输出之后，会调用init_block()，初始化一个新块，重新初始化一些变量，包括动态树的结点被置0，也就是说，将为新块将来的Huffman树重新开始统计信息。

输出块的大小是不固定的，首先在进行Huffman编码之前，要输出的内容的大小就是不固定，要看情况，进行Huffman编码之后，就更不固定了。
块的大小不固定，那么解压缩的时候，如何区分块呢。编码树中有一个表示块结束的结点，EOB，在每次输出块的最后，输出这个结点的编码，所以解压缩的时候，当遇到了这个结点就表明一个块结束了。

每个块最开始的2位，用来指明本块使用的是哪种编码方式，00表示直接存储，01表示静态Huffman编码，10表示动态Huffman编码。接下来的1位，指明本块是否是最后一块，0表示不是，1表示是最后一块。

输出一个块，对现在字典中的内容没有影响，下一个块，仍将用之前形成的字典，进行匹配。

2.7 静态Huffman编码与动态Huffman编码

静态Huffman编码就是使用gzip自己预先定义好了一套编码进行压缩，解压缩的时候也使用这套编码，这样不需要传递用来生成树的信息。
动态Huffman编码就是使用统计好的各个符号的出现次数，建立Huffman树，产生各个符号的Huffman编码，用这产生的Huffman编码进行压缩，这样需要传递生成树的信息。

gzip 在为一块进行Huffman编码之前，会同时建立静态Huffman树，和动态Huffman树，然后根据要输出的内容和生成的Huffman树，计算使用静态Huffman树编码，生成的块的大小，以及计算使用动态Huffman树编码，生成块的大小。然后进行比较，使用生成块较小的方法进行Huffman编码。

对于静态树来说，不需要传递用来生成树的那部分信息。动态树需要传递这个信息。而当文件比较小的时候，传递生成树的信息得不偿失，反而会使压缩文件变大。也就是说对于文件比较小的时候，就可能会出现使用静态Huffman编码比使用动态Huffman编码，生成的块小。

2.8 编码的产生

deflate算法在Huffman树的基础上，又加入了几条规则，我们把这样的树称作deflate树，使得只要知道所有位长上的结点的个数，就可以得到所有结点的编码。这样做的原因是，减少需要存放在压缩压缩文件中的用来生成树的信息。要想弄明白，deflate如何生成Huffman编码，一定要弄明白一些Huffman树，和deflate树的性质，下面内容是对Huffman树和deflate树做了些简单研究得到的。

Huffman树的性质

1 叶子结点为n的话，那么整颗树的总结点为 2n-1。
简单证明说明，先证，最小的树，也就是只有三个结点，一个根节点，两个叶子节点的树符合。然后在任何符合的树上做最小的添加得到的树也符合。所以都符合。

2 最左边的叶子结点的编码为0，但是位长不一定。

deflate中增加了附加条件的huffman树的性质

1 同样位长的叶子结点的编码值为连续的，右面的总比左面的大1。

2 (n+1)位长最左面的叶子结点（也就是编码值最小的叶子结点）的值为n位长最右面的叶子结点（也就是编码值最大的叶子结点）的值+1，然后变长一位（也就是左移1位）。

3 n位长的叶子结点，最右面的叶子结点（也就是编码值最大的叶子结点）的值为最左面的叶子结点（也就是编码值最小的叶子结点）的值加上 n位长的叶子结点的个数减 1。

4 (n+1)位长最左面的叶子结点（也就是编码值最小的叶子结点）的值为 n位长最左面的叶子结点（也就是编码值最小的叶子结点）的值加上 n位长的叶子结点的个数，然后变长一位（也就是左移1位）。

还有一些树的性质，比如，树的某一深度上最大可能编码数。

从所有编码的位长，得到所有编码的编码：
统计每个位长上的编码个数放在bl_count[]中。
根据 bl_count[] 中的值，计算出每个位长上的最小编码值，放在 next_code[] 中。
计算方法为，code = (code + bl_count[bits-1]) << 1;
理由是deflate二叉树的性质，(n+1)位长最左面的叶子结点（也就是编码值最小的叶子结点）的值为 n位长最左面的叶子结点（也就是编码值最小的叶子结点）的值加上 n位长的叶子结点的个数，然后变长一位（也就是左移1位）。

然后按照代码值的顺序，为所有的代码编码。
编码方法为，某一位长对应的next_code[n]，最开始是这个位长上最左边的叶子结点的编码，然后++，就是下一个该位长上下一个叶子结点的编码，依次类推，直到把这个位长上的叶子结点编码完。实际上的编码为bi_reverse(next_code[])。
这样编码的理由是，deflate二叉树的性质。

1. Gzip压缩算法的源码详解

main() 中调用函数 treat_file() 。
　　treat_file() 中打开文件，调用函数 zip()。注意这里的 work 的用法，这是一个函数指针。
　　zip() 中输出gzip文件格式的头，调用 bi_init，ct_init，lm_init，
　　其中在lm_init中将 head 初始化清0。初始化strstart为0。从文件中读入64KB的内容到window缓冲区中。
　　由于计算strstart=0时的ins_h，需要0,1,2这三个字节和哈希函数发生关系，所以在lm_init中，预读0,1两个字节，并和哈希函数发生关系。
　　
　　然后lm_init调用 deflate()。
　　deflate() gzip的LZ77的实现主要deflate()中。

/* global buffers */

DECLARE(uch, inbuf,  INBUFSIZ +INBUF_EXTRA);

DECLARE(uch, outbuf, OUTBUFSIZ+OUTBUF_EXTRA);

DECLARE(ush, d_buf,  DIST_BUFSIZE);

DECLARE(uch, window, 2L*WSIZE);

#ifndef MAXSEG_64K

    DECLARE(ush, tab_prefix, 1L<<BITS);

#else

    DECLARE(ush, tab_prefix0, 1L<<(BITS-1));

    DECLARE(ush, tab_prefix1, 1L<<(BITS-1));

#endif

实际上定义了一些全局数组：inbuf,outbuf,d_buf,window,tab_prefix,tab_prefix0,tabfix1.1

入口程序：gzip-1.2.4/gzip.c

函数： int main (argc, argv)

int argc;

char **argv;

功能： 1)通过命令内容(gzip,gunzip,unzip等)，设置操作类型(压缩或是解压缩)。

2)通过参数，设置一些全局变量的值，对我们而言，有用的是：ascii(表示为文本文件，可以根据本地的换行符来代替解压后的文件中的换行符)、decompress(表示进行解压操作)和level(转换操作的级别-进行更快的转换还是进行更大压缩比的转换，当然，这只对压缩而言)。

3)为输入、输出及窗口的缓冲分配内存。7

4)调用treat_file(argv[optind++]);对文件进行操作。

函数： local void treat_file(iname)
char *iname;
参数：为文件的名称；
功能： 1)得到输入的文件的状态：name,size,time,mode等。
2)创建输出文件的名称。
3)当进行解压操作时，调用 local int get_method(in) 来得到gz文件的压缩方法。
4)如果命令行中的参数-l，则调用do_list()显示文件信息。
5)调用local int create_outfile()创建输出文件。
6) 调用(*work)(ifd, ofd)进行压缩、解压缩的操作。这时的work指针被get_method()
函数置为unzip()函数(解压时)，或是为默认的zip()函数。在解压缩时，
这个过程是在循环中的，因为可能会包含多个文件。

函数： local int get_method(in)
int in; /* input file descriptor */
参数：文件名称
功能： 1)验证第一第二字节是否为0x1F,0x8B。
2)验证第三字节是否为0x08(deflate)。
3)设置函数指针work = unzip。(work的默认值是zip)
4)得到做为flags的第四字节。
5)如果设置了第1、5、6、7位，则给出错误提示。(编号0到7是从最低位开始)
6)将第5到8字节中的时间值保存在全局变量time_stamp中。
7)跳过第9字节(压缩时采用的算法-更快或是比例更高)和第10字节(压缩时的操作系统)。
8)如果设置了flags的第1位，则得到当前文件的编号
9)如果设置了flags的第2位(存在有附加的内容)，则得到附加内容的长度，并跳过这部分内容。
10)如果设置了flags的第3位(存在有原始文件的名称)，则得到原始文件的名称。
11)如果设置了flags的第4位(存在一段不用解析的内容，是给人提供可读信息的)，跳过这部分可读信息。
12) 设置头部信息的长度：header_bytes，包括了最后的CRC及文件长度部分。
返回：函数压缩方法(一般为“deflate”，程序中的返回值为8)

在文件gzip-1.2.4/unzip.c中：
函数： int unzip(in, out)
int in, out; /* input and output file descriptors */
参数：为输入、输出文件。
功能： 1)初始化全局变量crc。
2)调用函数inflate()进行解码操作。
3)得到原来文件中保存的CRC及长度值。如果与当前计算出的值不同，则产生提示。

在文件gzip-1.2.4/inflate.c中
函数： int inflate()
说明： ulg bb; /* 是 bit buffer */
unsigned bk; /* 是bit buffer中还有多少位，即剩余的位数 */
功能： 1) 循环调用inflate_block(&e)，一块一块的解压数据。
2)若bk>-8,即bb中有完整的字节，则将此字节放回输入中。
3)输出解压得到的内容。

函数： int inflate_block(e)
int *e; /* last block flag */
参数：如果是1，是说明当前块是最后一块。
功能：

1)得到第一位，这一位说明当前块是否为最后一块(0，不是；1，是)并相应的设置参数。
2)得到下两位的值：
0，本块没有压缩，
1，用固定的Huffman编码压缩，见RFC1951的3.2.6节。
2，用动态的Huffman编码压缩，见RFC1951的3.2.7节。
3)根据前面得到的值，调用不同的函数解压：
inflate_stored(); 对于未压缩的数据，调用这个函数。
inflate_fixed(); 对于用固定的Huffman编码压缩的数据，调用这个函数。
inflate_dynamic(); 对于用动态的Huffman编码压缩的数据，调用这个函数。

函数： int inflate_stored()
功能：处理非压缩的数据内容
1) 丢弃不足一字节的位。由于非压缩的数据中，内容都是以字节为单位的，所以原来按位读取的时候，会剩余不足一字节位内容，现在要去掉这些位。
2) 2)读入两字节的内容，其值是未压缩的数据长度。再读入两字节的内容，其值应该是前两字节所表示的长度的补码，若不是，则错误。
3) 3)逐字节的读入内容，并输出到输出文件中。
函数： int inflate_fixed()
功能：用固定的Huffman编码压缩的数据
1) 为0至287的文字/length值设定编码长度:
                   Lit Value    Bits        Codes
                   ---------    ----        -----
                     0 - 143     8          00110000 through
                                            10111111
                   144 - 255     9          110010000 through
                                            111111111
                   256 - 279     7          0000000 through
                                            0010111
                   280 - 287     8          11000000 through
                                            11000111
2) 调用huft_build()建造文字/length值的Huffman树
3) 设置所有distance值(从0至29)的编码长度为5。
4) 调用huft_build()建造distance值的Huffman树
5) 调用函数inflate_codes()进行解码。

函数： int inflate_dynamic()
功能：用动态的Huffman编码压缩的数据
1) 读入5位的值HLIT，算出nl = 257+HLIT。这是需要编码的最大值。
2) 读入5位的值HDIST，算出nd = 1+HDIST。这是distance的最大值。
3) 读入4位的值HCLEN，算出nb = 4+HCLEN。说明有多少种编码长度。
4) 再读入3*nb位，每三位的值表示用多少位来表示所对应的编码长度。
5) 调用huft_build()建造编码长度的Huffman树。
6) 利用这个Huffman树，对接下来的若干位解码出nl+nd个值，这些值依次是0~nl-1的编码长度(对于文字/length平说)，及0~nd-1的编码长度(对于distance来说)。
7) 利用上面解码出的两组长度值，两次调用huft_build()函数，建造两个Huffman树 (一个是为文字/length，另一个是为distance)。
8) 调用函数inflate_codes()进行解码。

函数： int inflate_codes(tl, td, bl, bd)
struct huft *tl, *td;　/* literal/length and distance decoder tables */
int bl, bd; /* number of bits decoded by tl[] and td[] */
参数： tl,td是进行Huffman编码解码时用到的结构体，由于length和distance用不同的编码方式，所以要有两个指针进行解码。
在两种编码中，用struct huft结构编码时，分别以bl,bd位进行编码。
功能：用两个以经做好的链表来进行解码。
1）解码一个值X，如果0<=X<=255，则X是一个字符，输出，循环1）。
2）如果X==255，则说明块结束，函数返回。
3） X>255，则说明读到的是一个length值，根据这个值，及其后的附加位，得到真实的length值。
4）继续读入一个值，这个值是distance的标志值，根据这个值及其后的附加位得到真实的distance。
5）在已经输出的串中，向前查找distance个字节，拷贝length个字节到输出串的末尾。
6）循环1）
函数： int huft_build()　和函数int huft_free()比较独立，可以直接引用，不再分析。
功能： int huft_build() ：建立Huffman解码链表。
int huft_free() ：清除链表。

在文件gzip-1.2.4/zip.c中：
函数： int zip(in, out)
int in, out; /* input and output file descriptors */
参数：为输入、输出文件。
功能：
1）向输出写入三字节：0x1F 0x8B 0x08。
2）向输出写入一个含有8个标志位的字节。
3）向输出写入4字节的系统时间。
4）初始化CRC的值。
5）调用bi_init(out)初始化读入位串的程序。
6）调用ct_init()进行分配内存，初始化变量表，保存原始文件信息的操作。
7）调用lm_init()为新文件初始化“最长匹配”的程序。
8）再向输出写入2字节，一个为额外的标志，一个为系统类型。
9）如果需要，则保存原始文件名称。
10) 保存头部信息的长度。
11) 调用函数deflate()压缩。
12) 写入4字节的CRC值。
13) 写入4字节的原始内容长度值。
14）修改前面保存的头部信息长度的值。

在文件gzip-1.2.4/deflate.c中：
函数： ulg deflate()
功能：压缩数据。此函数通过一些复杂的算法来进行压缩操作，可以直接引用。
1) 如果需要快速压缩，则调用函数deflate_fast()，然后返回。
2) 将当前内容插入到哈希表中，并查找最长匹配。
3) 若找到匹配内容，则输出<length,distence>对的编码，否则输出字符编码。

你可能感兴趣的:(算法,压缩,File,Build,解压缩,Descriptor,distance)

信息系统项目管理师必背核心考点（六十八）数字证书、数字签名 qiangge2015 信息系统项目管理师软考软考高级科科过信息系统项目管理师信息系统项目管理师考点信息系统项目管理师培训信息系统项目管理师数字证书数字签名
科科过为您带来软考信息系统项目管理师核心重点考点（六十八）数字证书、数字签名和CA认证中心，内含思维导图+真题【信息系统项目管理师核心考点】数字证书1.具有不可抵赖性的特征（一段电子文档）2.包含信息：①版本号②序列号③签名算法标识符④认证机构⑤有效期限⑥主题信息⑦认证机构的数字签名⑧公钥信息【信息系统项目管理师核心考点】数字签名防止信息抵赖（发送者的私钥加密）【信息系统项目管理师核心考点】CA认
永磁同步电机无速度算法--基于宽频带同步基频提取滤波器的滑模观测器 Neil motor 算法
一、原理介绍当电机运行至中高速阶段时，反电动势能被观测器准确估计，因此基于电机模型的反电动势法成为无位置控制系统的不二之选。而SMO由于对电机参数变化不敏感，鲁棒性高，结构简单等优点被广泛应用。在实际应用中，无位置控制系统中的开关频率受时间延迟、系统惯性以及数字离散化等的限制，不能满足控制函数可无限开关的条件，因此，状态变量只能在稳定点来回小幅度运动，而不能收敛在平衡点处，因此导致滑模观测器的抖振
3.27学习总结 2402_88131930 学习
今天完成组合总和II的算法题，相对于之前的多了一个复杂的去重工作，因为它里面有重复的元素，需要去重，先排序，如果遍历到的值和前一个相同则跳过跟着黑马的Java做拼图的项目
思维链在环境污染源追踪中的新角色 AI大模型应用之禅 DeepSeek R1 &AI大模型与大数据 ai
《思维链在环境污染源追踪中的新角色》关键词：环境污染源追踪，思维链，人工智能，数据挖掘，环境监测摘要：随着全球环境污染问题的日益严峻，如何有效地追踪环境污染源已成为当前环保领域的重要任务。本文将探讨思维链这一新兴技术手段在环境污染源追踪中的应用，分析其理论基础、组成结构、核心概念及其在实际操作中的应用。通过对环境污染源追踪问题的背景介绍、核心概念与联系的分析、算法原理的讲解以及系统分析与架构设计的
【推荐系统】由浅入深 HP-Succinum 机器学习算法机器学习人工智能
目录一、相似度计算方法1.杰卡德系数2.余弦相似度3.编辑距离二、推荐系统算法1.基于内容的推荐系统2.协同过滤推荐系统三、冷启动问题与数据稀疏性问题1.冷启动问题2.数据稀疏性问题四、数据预处理的重要性五、结论在互联网时代，推荐系统已经成为各大平台提升用户体验和增加用户粘性的重要工具。无论是电商平台的商品推荐，还是视频平台的内容推荐，其核心思想都是通过计算对象之间的相似度，为用户提供个性化的推荐
装mathtype遇到的问题 mariorio
装mathtype需要注意：问题：问题1：字体解决方法：将mathtype的文件夹下fonts的字体都复制到windows的fonts文件夹下问题2：解决方法2：步骤一确保路径被office信任。依次打开word->文件->选项->信任中心->信任中心设置->添加新位置，添加C:\ProgramFiles\MicrosoftOffice\Office14\STARTUP。步骤2：步骤二在MathT
【c++笔试强训】（第四十七篇） single594 c++开发语言算法 java 牛客
目录活动安排（贪⼼-区间）题目解析讲解算法原理编写代码合唱团（动态规划-线性dp）题目解析讲解算法原理编写代码活动安排（贪⼼-区间）题目解析1.题目链接：活动安排_牛客题霸_牛客网2.题目描述描述给定nn个活动，每个活动安排的时间为[a_i,b_i)[ai,bi)。求最多可以选择多少个活动，满足选择的活动时间两两之间没有重合。输入描述：第一行输入一个整数nn(1\len\le2\cdot10^51
【贪心算法】（第十二篇） single594 1024程序员节贪心算法算法数据结构 java c++vscode
目录⽆重叠区间（medium）题目解析讲解算法原理编写代码⽤最少数量的箭引爆⽓球（medium）题目解析讲解算法原理编写代码⽆重叠区间（medium）题目解析1.题目链接：.-力扣（LeetCode）2.题目描述给定⼀个区间的集合intervals，其中intervals[i]=[start(i),end(i)]。返回需要移除区间的最⼩数量，使剩余区间互不重叠。⽰例1:输⼊:intervals=[
【优选算法】（第二十五篇） single594 算法数据结构 java c++leetcode 排序算法 vscode
目录计算右侧⼩于当前元素的个数（hard）题目解析讲解算法原理编写代码翻转对（hard）题目解析讲解算法原理编写代码计算右侧⼩于当前元素的个数（hard）题目解析1.题目链接：.-力扣（LeetCode）2.题目描述给你⼀个整数数组nums，按要求返回⼀个新数组counts。数组counts有该性质：counts[i]的值是nums[i]右侧⼩于nums[i]的元素的数量。⽰例1：输⼊：nums=
从基础到实践（二十三）：MCU选型设计指南硬件进化论单片机嵌入式硬件硬件工程电脑数码相机智能手表智能电视
MCU（微控制器）是电子系统的核心控制单元，负责协调硬件资源与执行关键任务。其高度集成CPU、存储器、定时器及丰富外设（ADC、PWM、通信接口等），可实时处理传感器数据、驱动执行机构，并实现复杂算法（如PID控制）。在工业、汽车、消费电子等领域，MCU通过精准控制、低功耗管理及多协议通信，确保系统高效可靠运行。其小型化与低成本特性，使其成为万物互联时代智能设备的“大脑”，支撑从简单开关控制到边缘
算法练习 Day2 Eureka.C 算法 c++leetcode
前两天有些事情耽搁了，还是要赶快赶上进度的。力扣27.移除元素给你一个数组nums和一个值val，你需要原地移除所有数值等于val的元素。元素的顺序可能发生改变。然后返回nums中与val不同的元素的数量。假设nums中不等于val的元素数量为k，要通过此题，您需要执行以下操作：更改nums数组，使nums的前k个元素包含不等于val的元素nums的其余元素和nums的大小并不重要。返回k。用户评
SVM算法练习 dedsec0x 支持向量机算法机器学习
目录一、前言二、使用libSVM②libsvm实现模型训练并写出决策函数的数学公式三、参考文章一、前言libSVM简介LIBSVM是台湾大学林智仁(LinChih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包，他不但提供了编译好的可在Windows系列系统的执行文件，还提供了源代码，方便改进、修改以及在其它操作系统上应用；该软件对SVM所涉及的参数调节相对比较
算法练习篇目：删除有序数组中的重复项无敌的牛算法数据结构
由于题目是非严格递增数组，这个我们可以利用库中自带的函数erase来进行操作，如果连续两个字符相等你就删除一个。进行循环知道删除完毕。具体代码如下：classSolution{public:intremoveDuplicates(vector&nums){intpos=1;autoit=nums.begin();while(it!=nums.end()-1){if(*it==*(it+1)){nu
算法练习5 无敌的牛算法算法
今天这道题目主要是通过类来实现的，运用了运算符重载等相关知识。先写一个日期的类，然后根据每月的天数，将给出的n天进行减法，每减一次month++，当month==13时，month=1,year++,当n-当月的天数usingnamespacestd;classdate{public:date(intyear,intmonth=1,intday=0){_year=year;_month=month
算法练习日记 2301_79973387 算法
day4力扣454题https://leetcode.cn/problems/4sum-ii/description/四数相加2：本题和二数相加、三数相加完全不同，本题不用考虑去重的情况，所以更加简单。用map记录nums1和nums2中各数字加起来的和出现了多少次。其中value是和，key是出现的次数。代码如下classSolution{public:intfourSumCount(vecto
滤波---概览 MzKyle 滤波
滤波的定义与核心作用滤波是信号处理中的核心技术，指通过特定装置或算法从信号中提取有用成分（如目标频率、特定时间特征），同时抑制或滤除无用成分（如噪声、干扰）的过程。其本质是通过频率选择或时间选择实现信号分离。其核心目标是：噪声抑制：分离信号与噪声频带选择：提取感兴趣的频率成分信号重构：恢复被干扰的原始信号特征提取：突出信号的特定特征滤波技术广泛应用于通信系统（如调制解调）、生物医学工程（如心电图滤
多层感知机（MLP）全面指南 MobiCetus 强化学习开发语言 java 算法 c++python eclipse github
多层感知机（MLP）是一种人工神经网络，由多个神经元层组成。MLP中的神经元通常使用非线性激活函数，使得网络能够学习数据中的复杂模式。MLP在机器学习中非常重要，因为它能够学习数据中的非线性关系，使其成为分类、回归和模式识别等任务中的强大模型。神经网络基础神经网络或人工神经网络是机器学习中的基本工具，支持着许多最先进的算法和应用，广泛应用于计算机视觉、自然语言处理、机器人技术等领域。一个神经网络由
（4）绪论三：归纳偏好在下_诸葛《机器学习》算法机器学习数据挖掘
通过学习得到的一个模型对应了假设空间的一个假设（这是上节假设空间的内容）归纳偏好或偏好：机器学习算法在学习过程中对某种类型假设的偏好（对于一个新西瓜来说：让一个训练好的模型来判断它为好瓜还是坏瓜？可以根据某种特征判断它为好瓜，也可以根据另外一种特征判断它为坏瓜，归纳偏好就是看哪一个特征更为重要，从而根据比例将新西瓜进行分类）如果没要偏好，说明两种特征都一样重要，这时模型对新西瓜的预测，时而判断它是
AI时代，程序员会被取代吗？有个人神神叨叨人工智能
一、当编程史遇见AI：一场持续百年的范式革命从1945年ENIAC计算机需要物理接线编程，到ChatGPT用自然语言生成代码，编程技术经历了三次重大跃迁：硬件抽象层（1940s-1950s）从打孔卡到汇编语言，程序员摆脱物理电路操作算法抽象层（1950s-1990s）Fortran/Java等高级语言让编程聚焦逻辑而非机器指令意图抽象层（2020s-）GitHubCopilot等工具实现"所想即所
一文读懂「Transformer」算法模型朱晓霞AI transformer 深度学习人工智能
前面讲到过chatgpt的知识，提到了chatgpt的实现原理包含了transformer内容，所有非常有必要来补充一下这部分的内容。资料：一文读懂「Attention」注意力机制一、什么是Transformer？Transformer是Google的团队在2017年提出的一种NLP经典模型，现在比较火热的Bert也是基于Transformer。Transformer模型使用了Self-Atten
基于MATLAB代码模糊控制自动泊车系统平行泊车，模糊控制算法 985计算机硕士路径规划 matlab 算法开发语言
基于MATLAB代码模糊控制自动泊车系统平行泊车，模糊控制算法附带说明文档和.fis和.m文件以下是基于MATLAB的模糊控制自动泊车系统实现代码，适用于平行泊车场景。模糊控制算法通过规则推理生成车辆的转向角和速度，从而实现平滑、稳定的自动泊车。1.系统概述1.1平行泊车问题车辆需要从初始位置（车道中间）移动到目标停车位中。控制输入包括：前轮转角（SteeringAngle）车速（Velocity
JavaSE——IO流（上） Clrove.11 JavaSE java 开发语言
一、文件文件是保存数据的地方，文件中的数据最终是由01这样的数字组成的，从文件中读到内存或者从内存中写一些数据到文件中，一行行二进制数据就像河流一样流动。1.1创建文件newFile(StringpathName)根据路径建立一个File对象publicvoidcreate01(){StringpathName="D:\\news.txt";Filefile=newFile(pathName);t
数据结构与算法分析：树与哈希表（一）愚戏师数据结构与算法分析算法数据结构链表广度优先宽度优先深度优先
遇到的问题，都有解决方案，希望我的博客能为你提供一点帮助。一、概述背景：链表处理大量数据时，线性访问耗时多。二叉查找树多数操作平均运行时间为O(logN)，相对于链表树更加高效。1.预备知识1.1.树的定义与基本概念树（Tree）:非线性数据结构，由节点（Node）和边（Edge）组成，满足以下条件：存在唯一根节点（Root），无父节点。除根节点外，每个节点有且仅有一个父节点。从根到任意节点有唯一
毕设成品 opencv图像增强算法系统 m0_71572237 毕业设计 python 毕设
文章目录0简介1.基于直方图均衡化的图像增强2\.基于拉普拉斯算子的图像增强4\.基于伽马变换的图像增强软件实现效果最后0简介今天学长向大家分享一个毕业设计项目毕业设计opencv图像增强算法系统项目运行效果：毕业设计基于机器视觉的图像增强项目分享:见文末!1.基于直方图均衡化的图像增强直方图均衡化是通过调整图像的灰阶分布，使得在0~255灰阶上的分布更加均衡，提高了图像的对比度，达到改善图像主观
毕业设计基于Astart的寻路算法设计与实现 m0_71572237 算法毕业设计 python 毕设
文章目录0简介算法介绍广度优先搜索Dijkstra算法最佳优先搜索A*算法启发函数关于距离曼哈顿距离对角距离欧几里得距离算法实现坐标点与地图算法主体测试入口实现效果最后0简介今天学长向大家分享一个毕业设计项目毕业设计基于Astart的寻路算法设计与实现项目运行效果：毕业设计基于Astart的自动寻路算法项目分享:见文末!算法介绍A*（念做：AStar）算法是一种很常用的路径查找和图形遍历算法。它有
(4-6）轨迹规划算法和优化：基于萤火虫算法优化（FLA）算法的无人机的路径规划系统码农三叔人工智能无人机算法 python 运动控制路径规划萤火虫算法优
FireflyAlgorithm（萤火虫算法，FLA）是一种启发式优化算法，其灵感来源于萤火虫的闪烁行为。FLA算法通过模拟萤火虫群体中的个体之间的相互吸引和相对亮度来搜索解空间，主要应用于全局优化问题，例如路径规划、函数优化等。FireflyAlgorithm（萤火虫算法，FLA）是一种启发式优化算法，其灵感来源于萤火虫的闪烁行为。FLA算法通过模拟萤火虫群体中的个体之间的相互吸引和相对亮度来搜
电力系统仿真：电力系统优化调度_5.电力系统优化调度基础 kkchenkx 电力系统仿真电力系统仿真 matlab
5.电力系统优化调度基础5.1优化调度的概念和重要性电力系统优化调度是指在满足电力系统安全、稳定、经济运行的前提下，通过数学模型和优化算法对系统中的各种资源进行合理配置和调度，以达到最佳运行状态的过程。优化调度的目标通常包括最小化运行成本、提高系统可靠性和灵活性、减少环境污染等。在微电网与分布式发电系统中，优化调度尤为重要，因为它涉及到多种能源的协调和管理，如太阳能、风能、储能系统等。5.2优化调
prompt_status:5: command not found: wc解决办法佩奇的技术笔记 mac
问题出现背景想配置uniapp的命令行，在.zprofile配置路径的时候PATH前面少打了一个$，执行了source，导致各种命令都失效。解决办法用fider打开用户文件夹，Command+Shift+.显示隐藏文件，用文本编辑器修改一下，加上$号，不要只有PATH就可以了。
手动调参 vs 自动化：大语言模型微调的终极对决！从零开始学习人工智能自动化语言模型人工智能
在大语言模型的发展进程中，微调技术始终占据着关键地位。通过微调，这些模型能够更好地适应特定任务和领域，从而显著提升其性能和实用性。然而，在实际操作中，许多团队如Qwen选择采用手动调参而非自动化调参工具，这一决策背后蕴含着多方面的考量。一、模型复杂性与计算资源限制大语言模型的复杂性不容小觑，其参数量往往达到数十亿甚至上百亿。微调这样一个庞大的模型需要消耗大量的计算资源。若采用网格搜索或遗传算法等自
python中的pickle *Major*
python中的picklepython中的picklepython中的picklepickle模块是对Python对象结构进行二进制序列化和反序列化的协议实现.pickle可以把字典、列表等结构化数据存到本地文件，读取后返回的还是字典、列表等结构化数据importpicklea={'name':'Major','age':22}withopen('text.txt','wb')asfile:pi
LeetCode[位运算] - #137 Single Number II Cwind java Algorithm LeetCode 题解位运算
原题链接：#137 Single Number II 要求：给定一个整型数组，其中除了一个元素之外，每个元素都出现三次。找出这个元素注意：算法的时间复杂度应为O(n)，最好不使用额外的内存空间难度：中等分析：与#136类似，都是考察位运算。不过出现两次的可以使用异或运算的特性 n XOR n = 0, n XOR 0 = n，即某一
《JavaScript语言精粹》笔记 aijuans JavaScript
0、JavaScript的简单数据类型包括数字、字符创、布尔值（true/false）、null和undefined值，其它值都是对象。 1、JavaScript只有一个数字类型，它在内部被表示为64位的浮点数。没有分离出整数，所以1和1.0的值相同。 2、NaN是一个数值，表示一个不能产生正常结果的运算结果。NaN不等于任何值，包括它本身。可以用函数isNaN(number)检测NaN,但是
你应该更新的Java知识之常用程序库 Kai_Ge java
在很多人眼中，Java 已经是一门垂垂老矣的语言，但并不妨碍 Java 世界依然在前进。如果你曾离开 Java，云游于其它世界，或是每日只在遗留代码中挣扎，或许是时候抬起头，看看老 Java 中的新东西。 Guava Guava[gwɑ:və]，一句话，只要你做Java项目，就应该用Guava（Github）。 guava 是 Google 出品的一套 Java 核心库，在我看来，它甚至应该
HttpClient 120153216 httpclient
/** * 可以传对象的请求转发，对象已流形式放入HTTP中 */ public static Object doPost(Map<String,Object> parmMap,String url) { Object object = null; HttpClient hc = new HttpClient(); String fullURL
Django model字段类型清单 2002wmj django
Django 通过 models 实现数据库的创建、修改、删除等操作，本文为模型中一般常用的类型的清单，便于查询和使用： AutoField：一个自动递增的整型字段，添加记录时它会自动增长。你通常不需要直接使用这个字段；如果你不指定主键的话，系统会自动添加一个主键字段到你的model。(参阅自动主键字段) BooleanField：布尔字段,管理工具里会自动将其描述为checkbox。 Cha
在SQLSERVER中查找消耗CPU最多的SQL 357029540 SQL Server
返回消耗CPU数目最多的10条语句 SELECT TOP 10 total_worker_time/execution_count AS avg_cpu_cost, plan_handle, execution_count, (SELECT SUBSTRING(text, statement_start_of
Myeclipse项目无法部署，Undefined exploded archive location 7454103 eclipse MyEclipse
做个备忘！错误信息为： Undefined exploded archive location 原因：在工程转移过程中，导致工程的配置文件出错；解决方法：
GMT时间格式转换 adminjun GMT 时间转换
普通的时间转换问题我这里就不再罗嗦了，我想大家应该都会那种低级的转换问题吧，现在我向大家总结一下如何转换GMT时间格式，这种格式的转换方法网上还不是很多，所以有必要总结一下，也算给有需要的朋友一个小小的帮助啦。 1、可以使用 SimpleDateFormat SimpleDateFormat EEE-三位星期 d-天 MMM-月 yyyy-四位年
Oracle数据库新装连接串问题 aijuans oracle数据库
割接新装了数据库，客户端登陆无问题，apache/cgi-bin程序有问题，sqlnet.log日志如下： Fatal NI connect error 12170. VERSION INFORMATION: TNS for Linux: Version 10.2.0.4.0 - Product
回顾java数组复制 ayaoxinchao java 数组
在写这篇文章之前，也看了一些别人写的，基本上都是大同小异。文章是对java数组复制基础知识的回顾，算是作为学习笔记，供以后自己翻阅。首先，简单想一下这个问题：为什么要复制数组？我的个人理解：在我们在利用一个数组时，在每一次使用，我们都希望它的值是初始值。这时我们就要对数组进行复制，以达到原始数组值的安全性。java数组复制大致分为3种方式：①for循环方式 ②clone方式 ③arrayCopy方
java web会话监听并使用spring注入 bewithme Java Web
在java web应用中，当你想在建立会话或移除会话时，让系统做某些事情，比如说，统计在线用户，每当有用户登录时，或退出时，那么可以用下面这个监听器来监听。 import java.util.ArrayList; import java.ut
NoSQL数据库之Redis数据库管理(Redis的常用命令及高级应用) bijian1013 redis 数据库 NoSQL
一 .Redis常用命令 Redis提供了丰富的命令对数据库和各种数据库类型进行操作，这些命令可以在Linux终端使用。 a.键值相关命令 b.服务器相关命令 1.键值相关命令 &
java枚举序列化问题 bingyingao java 枚举序列化
对象在网络中传输离不开序列化和反序列化。而如果序列化的对象中有枚举值就要特别注意一些发布兼容问题: 1.加一个枚举值新机器代码读分布式缓存中老对象，没有问题，不会抛异常。老机器代码读分布式缓存中新对像，反序列化会中断，所以在所有机器发布完成之前要避免出现新对象，或者提前让老机器拥有新增枚举的jar。 2.删一个枚举值新机器代码读分布式缓存中老对象，反序列
【Spark七十八】Spark Kyro序列化 bit1129 spark
当使用SparkContext的saveAsObjectFile方法将对象序列化到文件，以及通过objectFile方法将对象从文件反序列出来的时候，Spark默认使用Java的序列化以及反序列化机制，通常情况下，这种序列化机制是很低效的，Spark支持使用Kyro作为对象的序列化和反序列化机制，序列化的速度比java更快，但是使用Kyro时要注意，Kyro目前还是有些bug。 Spark
Hybridizing OO and Functional Design bookjovi erlang haskell
推荐博文： Tell Above, and Ask Below - Hybridizing OO and Functional Design 文章中把OO和FP讲的深入透彻，里面把smalltalk和haskell作为典型的两种编程范式代表语言，此点本人极为同意，smalltalk可以说是最能体现OO设计的面向对象语言，smalltalk的作者Alan kay也是OO的最早先驱，
Java-Collections Framework学习与总结-HashMap BrokenDreams Collections
开发中常常会用到这样一种数据结构，根据一个关键字，找到所需的信息。这个过程有点像查字典，拿到一个key，去字典表中查找对应的value。Java1.0版本提供了这样的类java.util.Dictionary(抽象类)，基本上支持字典表的操作。后来引入了Map接口，更好的描述的这种数据结构。 &nb
读《研磨设计模式》-代码笔记-职责链模式-Chain Of Responsibility bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ /** * 业务逻辑：项目经理只能处理500以下的费用申请，部门经理是1000，总经理不设限。简单起见，只同意“Tom”的申请 * bylijinnan */ abstract class Handler { /*
Android中启动外部程序 cherishLC android
1、启动外部程序引用自： http://blog.csdn.net/linxcool/article/details/7692374 //方法一 Intent intent=new Intent(); //包名包名+类名（全路径） intent.setClassName("com.linxcool", "com.linxcool.PlaneActi
summary_keep_rate coollyj SUM
BEGIN /*DECLARE minDate varchar(20) ; DECLARE maxDate varchar(20) ;*/ DECLARE stkDate varchar(20) ; DECLARE done int default -1; /* 游标中注册服务器地址 */ DE
hadoop hdfs 添加数据目录出错 daizj hadoop hdfs 扩容
由于原来配置的hadoop data目录快要用满了，故准备修改配置文件增加数据目录，以便扩容，但由于疏忽，把core-site.xml, hdfs-site.xml配置文件dfs.datanode.data.dir 配置项增加了配置目录，但未创建实际目录，重启datanode服务时，报如下错误： 2014-11-18 08:51:39,128 WARN org.apache.hadoop.h
grep 目录级联查找 dongwei_6688 grep
在Mac或者Linux下使用grep进行文件内容查找时，如果给定的目标搜索路径是当前目录，那么它默认只搜索当前目录下的文件，而不会搜索其下面子目录中的文件内容，如果想级联搜索下级目录，需要使用一个“-r”参数： grep -n -r "GET" . 上面的命令将会找出当前目录“.”及当前目录中所有下级目录
yii 修改模块使用的布局文件 dcj3sjt126com yii layouts
方法一：yii模块默认使用系统当前的主题布局文件，如果在主配置文件中配置了主题比如: 'theme'=>'mythm', 那么yii的模块就使用 protected/themes/mythm/views/layouts 下的布局文件；如果未配置主题，那么 yii的模块就使用 protected/views/layouts 下的布局文件，总之默认不是使用自身目录 pr
设计模式之单例模式 come_for_dream 设计模式单例模式懒汉式饿汉式双重检验锁失败无序写入
今天该来的面试还没来，这个店估计不会来电话了，安静下来写写博客也不错，没事翻了翻小易哥的博客甚至与大牛们之间的差距，基础知识不扎实建起来的楼再高也只能是危楼罢了，陈下心回归基础把以前学过的东西总结一下。 *********************************
8、数组豆豆咖啡二维数组数组一维数组
一、概念数组是同一种类型数据的集合。其实数组就是一个容器。二、好处可以自动给数组中的元素从0开始编号，方便操作这些元素三、格式 //一维数组 1,元素类型[] 变量名 = new 元素类型[元素的个数] int[] arr =
Decode Ways hcx2013 decode
A message containing letters from A-Z is being encoded to numbers using the following mapping: 'A' -> 1 'B' -> 2 ... 'Z' -> 26 Given an encoded message containing digits, det
Spring4.1新特性——异步调度和事件机制的异常处理 jinnianshilongnian spring 4.1
目录 Spring4.1新特性——综述 Spring4.1新特性——Spring核心部分及其他 Spring4.1新特性——Spring缓存框架增强 Spring4.1新特性——异步调用和事件机制的异常处理 Spring4.1新特性——数据库集成测试脚本初始化 Spring4.1新特性——Spring MVC增强 Spring4.1新特性——页面自动化测试框架Spring MVC T
squid3(高命中率)缓存服务器配置 liyonghui160com
系统:centos 5.x 需要的软件:squid-3.0.STABLE25.tar.gz 1.下载squid wget http://www.squid-cache.org/Versions/v3/3.0/squid-3.0.STABLE25.tar.gz tar zxf squid-3.0.STABLE25.tar.gz &&
避免Java应用中NullPointerException的技巧和最佳实践 pda158 java
1) 从已知的String对象中调用equals()和equalsIgnoreCase()方法，而非未知对象。　　总是从已知的非空String对象中调用equals()方法。因为equals()方法是对称的，调用a.equals(b)和调用b.equals(a)是完全相同的，这也是为什么程序员对于对象a和b这么不上心。如果调用者是空指针，这种调用可能导致一个空指针异常 Object unk
如何在Swift语言中创建http请求 shoothao http swift
概述：本文通过实例从同步和异步两种方式上回答了”如何在Swift语言中创建http请求“的问题。如果你对Objective-C比较了解的话，对于如何创建http请求你一定驾轻就熟了，而新语言Swift与其相比只有语法上的区别。但是，对才接触到这个崭新平台的初学者来说，他们仍然想知道“如何在Swift语言中创建http请求？”。在这里,我将作出一些建议来回答上述问题。常见的
Spring事务的传播方式 uule spring事务
传播方式：新建事务 required required_new - 挂起当前非事务方式运行 supports &nbs