文件压缩/解压算法

7zip

7z has open architecture, so it can support any new compression methods. Now the following methods are integrated to 7z:

Method	Description
LZMA	Improved and optimized version of LZ77 algorithm
PPMD	Dmitry Shkarin's PPMdH with small changes
BCJ	Converter for 32-bit x86 executables
BCJ2	Converter for 32-bit x86 executables
BZip2	Standard BWT algorithm
Deflate	Standard LZ77-based algorithm

其中压缩比最大的lzma算法源代码可以在以下地址下载

LZMA SDK (Software Development Kit)

The LZMA SDK provides the documentation, samples, header files, libraries, and tools you need to develop applications that use LZMA compression.

Link	Size	Date	Version	Description
Download	300 KB	2009-02-03	4.65	LZMA SDK (C, C++, C#, Java)
Download	300 KB	2007-12-12	4.57	LZMA SDK (C, C++, C#, Java)

What's new:

4.65: Some fixes.
4.62: Some fixes. LZMA SDK is placed in the public domain.
4.58: Speed optimizations. New ANSI-C code for LZMA compression.
4.57: Speed optimizations. Some fixes.
4.49: .7z ANSI-C decoder was improved. C++ code for .7z archive handling was included.

LZMA is the default and general compression method of 7z format in the 7-Zip program. LZMA provides a high compression ratio and very fast decompression, so it is very suitable for embedded applications. For example, it can be used for ROM (firmware) compressing.

LZMA SDK includes:

C++ source code of LZMA Encoder and Decoder
ANSI-C compatible source code for LZMA decompression with example
C# source code for LZMA compression and decompression
Java source code for LZMA compression and decompression
Compiled file->file LZMA compression/decompression program for the Windows operating system

lz77

关于LZ77压缩算法

2008年05月04日星期日下午 05:23

在看木马代码的时候，涉及到一个lz77无损压缩算法的问题，上网搜了好多资料，都没找到特别好的。感觉这篇写的还算完整，贴出来分享给大家。关于该算法的资料来源与网络，版权归原作者所有，如果侵权，请及时告知。之所以这样说，是笔者听说在LZ系列算法中还有一部分压缩算法有专利，另一方面也是为了尊总知识产权。

以下内容来自互联网：
============================================================================

全新的思路

我们在第三和第四章中讨论的压缩模型都是基于对信息中单个字符出现频率的统计而设计的，直到 70 年代末期，这种思路在数据压缩领域一直占据着统治地位。在我们今天看来，这种情形在某种程度上显得有些可笑，但事情就是这样，一旦某项技术在某一领域形成了惯例，人们就很难创造出在思路上与其大相径庭的哪怕是更简单更实用的技术来。

我们敬佩那两个在数据压缩领域做出了杰出贡献的以色列人，因为正是他们打破了 Huffman 编码一统天下的格局，带给了我们既高效又简便的“字典模型”。至今，几乎我们日常使用的所有通用压缩工具，象 ARJ，PKZip，WinZip，LHArc，RAR，GZip，ACE，ZOO，TurboZip，Compress，JAR……甚至许多硬件如网络设备中内置的压缩算法，无一例外，都可以最终归结为这两个以色列人的杰出贡献。

说起来，字典模型的思路相当简单，我们日常生活中就经常在使用这种压缩思想。我们常常跟人说“奥运会”、“IBM”、“TCP”之类的词汇，说者和听者都明白它们指的是“奥林匹克运动会”、“国际商业机器公司”和“传输控制协议”，这实际就是信息的压缩。我们之所以可以顺利使用这种压缩方式而不产生语义上的误解，是因为在说者和听者的心中都有一个事先定义好的缩略语字典，我们在对信息进行压缩（说）和解压缩（听）的过程中都对字典进行了查询操作。字典压缩模型正是基于这一思路设计实现的。

最简单的情况是，我们拥有一本预先定义好的字典。例如，我们要对一篇中文文章进行压缩，我们手中已经有一本《现代汉语词典》。那么，我们扫描要压缩的文章，并对其中的句子进行分词操作，对每一个独立的词语，我们在《现代汉语词典》查找它的出现位置，如果找到，我们就输出页码和该词在该页中的序号，如果没有找到，我们就输出一个新词。这就是静态字典模型的基本算法了。

你一定可以发现，静态字典模型并不是好的选择。首先，静态模型的适应性不强，我们必须为每类不同的信息建立不同的字典；其次，对静态模型，我们必须维护信息量并不算小的字典，这一额外的信息量影响了最终的压缩效果。所以，几乎所有通用的字典模型都使用了自适应的方式，也就是说，将已经编码过的信息作为字典，如果要编码的字符串曾经出现过，就输出该字符串的出现位置及长度，否则输出新的字符串。根据这一思路，你能从下面这幅图中读出其中包含的原始信息吗？

啊，对了，是“吃葡萄不吐葡萄皮，不吃葡萄倒吐葡萄皮”。现在你该大致明白自适应字典模型的梗概了吧。好了，下面就让我们来深入学习字典模型的第一类实现——LZ77 算法。

滑动的窗口

LZ77 算法在某种意义上又可以称为“滑动窗口压缩”，这是由于该算法将一个虚拟的，可以跟随压缩进程滑动的窗口作为术语字典，要压缩的字符串如果在该窗口中出现，则输出其出现位置和长度。使用固定大小窗口进行术语匹配，而不是在所有已经编码的信息中匹配，是因为匹配算法的时间消耗往往很多，必须限制字典的大小才能保证算法的效率；随着压缩的进程滑动字典窗口，使其中总包含最近编码过的信息，是因为对大多数信息而言，要编码的字符串往往在最近的上下文中更容易找到匹配串。

参照下图，让我们熟悉一下 LZ77 算法的基本流程。

文件压缩/解压算法

1、从当前压缩位置开始，考察未编码的数据，并试图在滑动窗口中找出最长的匹配字符串，如果找到，则进行步骤 2，否则进行步骤 3。

2、输出三元符号组 ( off, len, c )。其中 off 为窗口中匹配字符串相对窗口边界的偏移，len 为可匹配的长度，c 为下一个字符。然后将窗口向后滑动 len + 1 个字符，继续步骤 1。

3、输出三元符号组 ( 0, 0, c )。其中 c 为下一个字符。然后将窗口向后滑动 len + 1 个字符，继续步骤 1。

我们结合实例来说明。假设窗口的大小为 10 个字符，我们刚编码过的 10 个字符是：abcdbbccaa，即将编码的字符为：abaeaaabaee

我们首先发现，可以和要编码字符匹配的最长串为 ab ( off = 0, len = 2 ), ab 的下一个字符为 a，我们输出三元组：( 0, 2, a )

现在窗口向后滑动 3 个字符，窗口中的内容为：dbbccaaaba

下一个字符 e 在窗口中没有匹配，我们输出三元组：( 0, 0, e )

窗口向后滑动 1 个字符，其中内容变为：bbccaaabae

我们马上发现，要编码的 aaabae 在窗口中存在( off = 4, len = 6 )，其后的字符为 e，我们可以输出：( 4, 6, e )

这样，我们将可以匹配的字符串都变成了指向窗口内的指针，并由此完成了对上述数据的压缩。

解压缩的过程十分简单，只要我们向压缩时那样维护好滑动的窗口，随着三元组的不断输入，我们在窗口中找到相应的匹配串，缀上后继字符 c 输出（如果 off 和 len 都为 0 则只输出后继字符 c )即可还原出原始数据。

当然，真正实现 LZ77 算法时还有许多复杂的问题需要解决，下面我们就来对可能碰到的问题逐一加以探讨。

编码方法

我们必须精心设计三元组中每个分量的表示方法，才能达到较好的压缩效果。一般来讲，编码的设计要根据待编码的数值的分布情况而定。对于三元组的第一个分量——窗口内的偏移，通常的经验是，偏移接近窗口尾部的情况要多于接近窗口头部的情况，这是因为字符串在与其接近的位置较容易找到匹配串，但对于普通的窗口大小（例如 4096 字节）来说，偏移值基本还是均匀分布的，我们完全可以用固定的位数来表示它。

编码 off 需要的位数 bitnum = upper_bound( log₂( MAX_WND_SIZE ))

由此，如果窗口大小为 4096，用 12 位就可以对偏移编码。如果窗口大小为 2048，用 11 位就可以了。复杂一点的程序考虑到在压缩开始时，窗口大小并没有达到 MAX_WND_SIZE，而是随着压缩的进行增长，因此可以根据窗口的当前大小动态计算所需要的位数，这样可以略微节省一点空间。

对于第二个分量——字符串长度，我们必须考虑到，它在大多数时候不会太大，少数情况下才会发生大字符串的匹配。显然可以使用一种变长的编码方式来表示该长度值。在前面我们已经知道，要输出变长的编码，该编码必须满足前缀编码的条件。其实 Huffman 编码也可以在此处使用，但却不是最好的选择。适用于此处的好的编码方案很多，我在这里介绍其中两种应用非常广泛的编码。

第一种叫 Golomb 编码。假设对正整数 x 进行 Golomb 编码，选择参数 m，令

b = 2^m

q = INT((x - 1)/b)

r = x - qb - 1

则 x 可以被编码为两部分，第一部分是由 q 个 1 加 1 个 0 组成，第二部分为 m 位二进制数，其值为 r。我们将 m = 0, 1, 2, 3 时的 Golomb 编码表列出：

值 x        m = 0       m = 1       m = 2       m = 3
-------------------------------------------------------------
    1             0         0 0        0 00        0 000
    2            10         0 1        0 01        0 001
    3           110        10 0        0 10        0 010
    4          1110        10 1        0 11        0 011
    5         11110       110 0       10 00        0 100
    6        111110       110 1       10 01        0 101
    7       1111110      1110 0       10 10        0 110
    8      11111110      1110 1       10 11        0 111
    9     111111110     11110 0      110 00       10 000

从表中我们可以看出，Golomb 编码不但符合前缀编码的规律，而且可以用较少的位表示较小的 x 值，而用较长的位表示较大的 x 值。这样，如果 x 的取值倾向于比较小的数值时，Golomb 编码就可以有效地节省空间。当然，根据 x 的分布规律不同，我们可以选取不同的 m 值以达到最好的压缩效果。

对我们上面讨论的三元组 len 值，我们可以采用 Golomb 方式编码。上面的讨论中 len 可能取 0，我们只需用 len + 1 的 Golomb 编码即可。至于参数 m 的选择，一般经验是取 3 或 4 即可。

可以考虑的另一种变长前缀编码叫做 γ 编码。它也分作前后两个部分，假设对 x 编码，令 q = int( log₂x )，则编码的前一部分是 q 个 1 加一个 0，后一部分是 q 位长的二进制数，其值等于 x - 2^q 。γ编码表如下：

值 x    γ编码
---------------------
    1       0
    2      10 0
    3      10 1
    4     110 00
    5     110 01
    6     110 10
    7     110 11
    8    1110 000
    9    1110 001

其实，如果对 off 值考虑其倾向于窗口后部的规律，我们也可以采用变长的编码方法。但这种方式对窗口较小的情况改善并不明显，有时压缩效果还不如固定长编码。

对三元组的最后一个分量——字符 c，因为其分布并无规律可循，我们只能老老实实地用 8 个二进制位对其编码。

根据上面的叙述，相信你一定也能写出高效的编码和解码程序了。

另一种输出方式

LZ77 的原始算法采用三元组输出每一个匹配串及其后续字符，即使没有匹配，我们仍然需要输出一个 len = 0 的三元组来表示单个字符。试验表明，这种方式对于某些特殊情况（例如同一字符不断重复的情形）有着较好的适应能力。但对于一般数据，我们还可以设计出另外一种更为有效的输出方式：将匹配串和不能匹配的单个字符分别编码、分别输出，输出匹配串时不同时输出后续字符。

我们将每一个输出分成匹配串和单个字符两种类型，并首先输出一个二进制位对其加以区分。例如，输出 0 表示下面是一个匹配串，输出 1 表示下面是一个单个字符。

之后，如果要输出的是单个字符，我们直接输出该字符的字节值，这要用 8 个二进制位。也就是说，我们输出一个单个的字符共需要 9 个二进制位。

如果要输出的是匹配串，我们按照前面的方法依次输出 off 和 len。对 off，我们可以输出定长编码，也可以输出变长前缀码，对 len 我们输出变长前缀码。有时候我们可以对匹配长度加以限制，例如，我们可以限制最少匹配 3 个字符。因为，对于 2 个字符的匹配串，我们使用匹配串的方式输出并不一定比我们直接输出 2 个单个字符（需要 18 位）节省空间（是否节省取决于我们采用何种编码输出 off 和 len）。

这种输出方式的优点是输出单个字符的时候比较节省空间。另外，因为不强求每次都外带一个后续字符，可以适应一些较长匹配的情况。

如何查找匹配串

在滑动窗口中查找最长的匹配串，大概是 LZ77 算法中的核心问题。容易知道，LZ77 算法中空间和时间的消耗集中于对匹配串的查找算法。每次滑动窗口之后，都要进行下一个匹配串的查找，如果查找算法的时间效率在 O(n²) 或者更高，总的算法时间效率就将达到 O(n³)，这是我们无法容忍的。正常的顺序匹配算法显然无法满足我们的要求。事实上，我们有以下几种可选的方案。

1、限制可匹配字符串的最大长度（例如 20 个字节），将窗口中每一个 20 字节长的串抽取出来，按照大小顺序组织成二叉有序树。在这样的二叉有序树中进行字符串的查找，其效率是很高的。树中每一个节点大小是 20(key) + 4(off) + 4(left child) + 4(right child) = 32。树中共有 MAX_WND_SIZE - 19 个节点，假如窗口大小为 4096 字节，树的大小大约是 130k 字节。空间消耗也不算多。这种方法对匹配串长度的限制虽然影响了压缩程序对一些特殊数据（又很长的匹配串）的压缩效果，但就平均性能而言，压缩效果还是不错的。

2、将窗口中每个长度为 3 （视情况也可取 2 或 4）的字符串建立索引，先在此索引中匹配，之后对得出的每个可匹配位置进行顺序查找，直到找到最长匹配字符串。因为长度为 3 的字符串可以有 256³ 种情况，我们不可能用静态数组存储该索引结构。使用 Hash 表是一个明智的选择。我们可以仅用 MAX_WND_SIZE - 1 的数组存储每个索引点，Hash 函数的参数当然是字符串本身的 3 个字符值了，Hash 函数算法及 Hash 之后的散列函数很容易设计。每个索引点之后是该字符串出现的所有位置，我们可以使用单链表来存储每一个位置。值得注意的是，对一些特殊情况比如 aaaaaa...之类的连续字串，字符串 aaa 有很多连续出现位置，但我们无需对其中的每一个位置都进行匹配，只要对最左边和最右边的位置操作就可以了。解决的办法是在链表节点中纪录相同字符连续出现的长度，对连续的出现位置不再建立新的节点。这种方法可以匹配任意长度的字符串，压缩效果要好一些，但缺点是查找耗时多于第一种方法。

3、使用字符树( trie )来对窗口内的字符串建立索引，因为字符的取值范围是 0 - 255，字符树本身的层次不可能太多，3 - 4 层之下就应该换用其他的数据结构例如 Hash 表等。这种方法可以作为第二种方法的改进算法出现，可以提高查找速度，但空间的消耗较多。

如果对窗口中的数据进行索引，就必然带来一个索引位置表示的问题，即我们在索引结构中该往偏移项中存储什么数据：首先，窗口是不断向后滑动的，我们每次将窗口向后滑动一个位置，索引结构就要作相应的更新，我们必须删除那些已经移动出窗口的数据，并增加新的索引信息。其次，窗口不断向后滑动的事实使我们无法用相对窗口左边界的偏移来表示索引位置，因为随着窗口的滑动，每个被索引的字符串相对窗口左边界的位置都在改变，我们无法承担更新所有索引位置的时间消耗。

解决这一问题的办法是，使用一种可以环形滚动的偏移系统来建立索引，而输出匹配字符串时再将环形偏移还原为相对窗口左边界的真正偏移。让我们用图形来说明，窗口刚刚达到最大时，环形偏移和原始偏移系统相同：

偏移：     0 1 2 3 4 ......                                              Max
          |--------------------------------------------------------------|
环形偏移： 0 1 2 3 4 ......                                              Max

窗口向后滑动一个字节后，滑出窗口左端的环形偏移 0 被补到了窗口右端：

偏移：     0 1 2 3 4 ......                                              Max
          |--------------------------------------------------------------|
环形偏移： 1 2 3 4 5 ......                                           Max 0

窗口再滑动 3 个子节后，偏移系统的情况是：

偏移：     0 1 2 3 4 ......                                              Max
          |--------------------------------------------------------------|
环形偏移： 4 5 6 7 8......                                      Max 0 1 2 3

依此类推。

我们在索引结构中保存环形偏移，但在查找到匹配字符串后，输出的匹配位置 off 必须是原始偏移（相对窗口左边），这样才可以保证解码程序的顺利执行。我们用下面的代码将环形偏移还原为原始偏移：

// 由环形 off 得到真正的off(相对于窗口左边)
// 其中 nLeftOff 为当前与窗口左边对应的环形偏移值
int GetRealOff(int off)
{
    if (off >= nLeftOff)
        return off - nLeftOff;
    else
        return (_MAX_WINDOW_SIZE - (nLeftOff - off));
}

这样，解码程序无需考虑环形偏移系统就可以顺利高速解码了。

资源

结合上面的讨论，典型的 LZ77 算法应当不难实现，我们本章给出的源码是一个较为特殊的实现。

示例程序 lz77.exe 使用对匹配串和单个字符分类输出的模型，输出匹配串时，off 采用定长编码，len 采用γ编码。索引结构采用 2 字节长字符串的索引，使用 256 * 256 大小的静态数组存储索引点，每个索引点指向一个位置链表。链表节点考虑了对 aaaaa... 之类的重复串的优化。

示例程序的独特之处在于使用了 64k 大小的固定长度窗口，窗口不做滑动（因此不需要环形偏移系统，也节省了删除索引点的时间）。压缩函数每次只对最多 64k 长的数据进行压缩，主函数将原始文件分成 64k 大小的块逐个压缩存储。使用这种方法首先可以增大匹配的概率，字符串可以在 64k 空间内任意寻找最大匹配串，以此提高压缩效率。其次，这种方法有利于实现解压缩的同步。也就是说，利用这种方法分块压缩的数据，很容易从原始文件中间的任何一个位置开始解压缩，这尤其适用于全文检索系统中全文信息的保存和随机读取。

结合上述示例程序，王笨笨开发了可压缩多个文件并可同步（随机）解压缩的文件级接口，但此接口并非自由代码(free code)。如果需要可以和王笨笨联系。

类别：『学习笔记』 | 添加到搜藏 | 浏览( 2076) | 评论 (1)

上一篇：关于反弹端口型木马下一篇：木马生成技术详解

•	小文本压缩时对LZ77压缩算法的运...	•	LZ77压缩算法C源码
•	LZ77压缩算法原理	•	lz77压缩算法(c#代码)

最近读者：

	登录后，您就出现在这里。
		变∝坏	thcircle	吴巧克力	丶丨乄淚痕灬	hjjandy	qq442006189	观心苑主人	不够知己弘毅

网友评论：

jiangzhaokui

2008年05月07日星期三下午 05:39 | 回复

呵呵，问压缩算法去 dwing 贴吧附，上次我们讨论那个保存图片的功能，我弄了个插件出来，你看下：http://hi.baidu.com/sunsee/blog/item/8c5d3f17d505f0044b90a74a.html

华为OD机考2025B卷 - 特殊的加密算法（Java & Python& JS & C++ & C ）算法大师最新华为OD机试真题华为OD机试真题 (Java/JS/Py/C)华为od java python 华为OD机考2025B卷 javascript c++
最新华为OD机试真题目录：点击查看目录华为OD面试真题精选：点击立即查看2025华为od机试2025B卷-华为机考OD2025年B卷题目描述有一种特殊的加密算法，明文为一段数字串，经过密码本查找转换，生成另一段密文数字串。规则如下：明文为一段数字串由0~9组成密码本为数字0~9组成的二维数组需要按明文串的数字顺序在密码本里找到同样的数字串，密码本里的数字串是由相邻的单元格数字组成，上下和左右是相邻
数据库领域下的时序数据库并发控制数据库管理艺术数据库专家之路大数据AI人工智能 MCP&Agent 数据库时序数据库 ai
时序数据库并发控制：原理、实现与最佳实践关键词：时序数据库、并发控制、MVCC、时间戳排序、乐观并发控制、分布式事务、性能优化摘要：本文深入探讨时序数据库中的并发控制机制，从基本原理到实际实现进行全面剖析。文章首先介绍时序数据库的特点和并发控制挑战，然后详细分析MVCC、时间戳排序等核心算法原理，并通过代码示例展示实现细节。接着探讨分布式环境下的特殊考量，提供性能优化策略和实际应用案例。最后展望未
普通话的调域中值音元系统语音识别自然语言处理语言模型 python
普通话调域中值测算为五度标调法的3.81及其取整为4的准确性与合理性研究摘要本研究通过对比分析不同计算方法得出的普通话调域中值，探讨了将调域中值测算为3.81并取整为4的准确性与合理性。研究比较了本中值算法与刘俐李(2004)算法的差异，结合石锋(1986)等实证研究数据，验证了3.81作为调域中值的科学性。结果表明，该取值不仅符合普通话声调的实际分布特征，也为五度标调法的应用提供了更精确的参考标
ros学习之路径规划许卿768503 学习
一、全局路径规划中的地图1、栅格地图（GridMap）2、概率图（CostMap）3、特征地图（FeatureMap4、拓扑地图（TopologicalMap）二、全局路径规划算法1、Dijkstra算法2、最佳路径优先搜索算法（BFS）3、A*搜索算法双向A*搜索算法重复A*搜索算法AnytimeRepairingA*(ARA*)搜索算法实时学习A*搜索（LRTA*）算法实时适应性A*搜索（RT
学而思编程周赛语言普及奠基组 | 2025年春第15周T1 新二进制热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
学而思编程周赛语言普及奠基组 | 2025年春第15周T2 散步热爱编程的通信人算法 c++
欢迎大家订阅我的专栏：算法题解：C++与Python实现！本专栏旨在帮助大家从基础到进阶，逐步提升编程能力，助力信息学竞赛备战！专栏特色1.经典算法练习：根据信息学竞赛大纲，精心挑选经典算法题目，提供清晰的代码实现与详细指导，帮助您夯实算法基础。2.系统化学习路径：按照算法类别和难度分级，从基础到进阶，循序渐进，帮助您全面提升编程能力与算法思维。适合人群：准备参加蓝桥杯、GESP、CSP-J、CS
ROS常用的路径规划算法介绍 Xian-HHappy 机器人-Robot 算法机器人路径规划 ROS
在ROS中，常用的路径规划算法主要有以下几种：全局路径规划算法A*算法：在Dijkstra算法基础上加入启发式函数，如曼哈顿距离或欧氏距离，优先探索靠近目标的节点，效率更高。需使用可容许的启发式函数以保证最优性，其通过配置启发式权重可平衡最优性与速度。在ROS中，nav2_planner中的SmacPlanner支持2D/3D的A*算法。Dijkstra算法：代价地图中的基础路径搜索方法，采用广度
遥感影像数据处理-大图滑窗切分为小图 GIS潮流遥感语义分割
功能需求据所周知，遥感影像的尺寸有大有小，大的达到几万x几万像素，而图像分割算法模型在训练中尺寸适中，比如256x256，512x512，1024x1024等等，如果直接将遥感影像的原图输入模型中进行训练，大概率会提示内存和显存不足，因此针对遥感影像的模型训练，一般都需要将影像裁剪为小图。裁剪后的效果图如下：解决思路基于上面的需求，写了一套裁剪算法流程。主要考虑的是在裁剪过程中，从左往右、从上到下
数据结构学习——KMP算法 uwvwko 算法数据结构学习 c++kmp
//KMP算法#include#include#include#includeusingnamespacestd;//next数组值的推导voidgetNext(string&str,vector&next){intstrlong=str.size();//next数组的0位为0next[0]=0;//i为当前字符的位置，从1位（第2个开始）inti=1;//length为当前字符之前的最长匹配子
python递归实现乘法_算法-递归 weixin_39817012 python递归实现乘法
我们在前面学习过递归函数，递归函数采用的就是递归算法，前面我们通过最常见的菲波那切数列去学习了递归函数，这一节我们再来详细了解一下递归算法。1.递归算法递归算法(英语：recursionalgorithm)在计算机科学中是指一种通过重复将问题分解为同类的子问题而解决问题的方法。递归式方法可以被用于解决很多的计算机科学问题，因此它是计算机科学中十分重要的一个概念，递归算法有三个特点：1)递归的过程一
自然语言处理(NLP)中的文本生成控制技术 AI天才研究院 AI大模型企业级应用开发实战 Agentic AI 实战 AI人工智能与大数据自然语言处理 easyui 人工智能 ai
自然语言处理(NLP)中的文本生成控制技术关键词：文本生成、可控生成、语言模型、Prompt工程、解码策略、条件控制、评估指标摘要：本文深入探讨自然语言处理中文本生成控制技术的最新进展。我们将从基础概念出发，系统分析各种控制方法的原理和实现，包括Prompt设计、解码策略优化、条件控制机制等核心内容。文章将结合数学模型、算法实现和实际案例，全面展示如何实现高质量、可控的文本生成，并探讨该领域面临的
算法-基础算法-枚举算法（Python）总裁余(余登武) 算法与数据结构算法 leetcode
文章目录前言解题思路题目1两数之和2计数质数前言枚举算法（EnumerationAlgorithm）：也称为穷举算法，指的是按照问题本身的性质，一一列举出该问题所有可能的解，并在逐一列举的过程中，将它们逐一与目标状态进行比较以得出满足问题要求的解。在列举的过程中，既不能遗漏也不能重复。枚举算法的核心思想是：通过列举问题的所有状态，将它们逐一与目标状态进行比较，从而得到满足条件的解。由于
论软件设计方法及其应用怎么可能-怎么可能系统架构软件设计方法
20250427-作题目软件设计（SoftwareDesign，SD)根据软件需求规格说明书设计软件系统的整体结构、划分功能模块、确定每个模块的实现算法以及程序流程等，形成软件的具体设计方案。软件设计把许多事物和问题按不同的层次和角度进行抽象，将问题或事物进行模块化分解，以便更容易解决问题。分解得越细，模块数量也就越多，设计者需要考虑模块之间的耦合度。请围绕“论软件设计方法及其应用”论题，依次从以
从 O(n³) 到按需计算：Swift 玩转稀疏矩阵乘法网罗开发 Swift swift 矩阵开发语言
文章目录摘要描述解题思路代码实现（Swift）分析这个代码是怎么做的？示例测试与输出结果时间复杂度空间复杂度总结摘要在大多数算法题里，矩阵乘法都不算太陌生了。但一旦题目提示“稀疏矩阵”——也就是大部分值都是0的那种，这就提示我们：有优化空间。这篇文章就用Swift带大家一步步搞懂怎么写一个更高效的稀疏矩阵乘法逻辑，顺便聊聊背后的思路。描述我们手上有两个矩阵，A和B，想把它们乘起来。和普通乘法不同的
java 签名 ecdsa_数字签名算法ECDSA 哈全文 java 签名 ecdsa
一介绍ECDSA：EllipticCurvDigstalSignatureAlgorithm椭圆曲线数字签名算法。速度快、强度高、签名短二参数说明三代码实现packagecom.imooc.security.ecdsa;importjava.security.KeyFactory;importjava.security.KeyPair;importjava.security.KeyPairGene
java 签名 ecdsa_Java数字签名——ECDSA算法随缘惜情 java 签名 ecdsa
ECDSA例如微软产品的序列号的验证算法。EllipticCurveDigitalSignatureAlgorithm，椭圆曲线数字签名算法。速度快，强度高，签名短——————————————————————————————————密钥长度112～571默认256——————————————————————————————————NONEwithECDSA签名长度：128实现方：JDK/BCRIP
什么是对称加密和非对称加密 MonkeyKing.sun 网络服务器运维
对称加密和非对称加密是现代密码学中的两大核心技术体系，它们用于保护数据的机密性、完整性和安全性，是构建区块链、电子支付、SSL、VPN、数字签名等系统的基础。一、什么是对称加密（SymmetricEncryption）？定义：加密和解密使用同一把密钥，称为“对称密钥”。工作原理：明文+密钥→加密算法→密文密文+同样密钥→解密算法→明文示例算法：算法简要说明AES（高级加密标准）最常用、快速、安全D
ECDSA数字签名
ECDSA算法（深入浅出密码学笔记）ECDSA标准中的步骤与DSA方案的步骤在概念上紧密相连，但ECDSA中的离散对数问题是在椭圆曲线群中构建起来的。因此，实际计算一个ECDSA签名所执行的算术运算与DSA中的完全不同。ECDSA标准是针对素数域Zp\mathbb{Z}_pZp和有限域GF(2m)GF(2^m)GF(2m)上的椭圆曲线定义的密钥生成使用椭圆曲线EEE，其中：模数为ppp；系数为aa
计算机系统中隐藏的‘时间陷阱’——为什么你的代码总比预期慢10倍？尤物程序猿 java 开发语言
引言大家经常遇到一个诡异现象：明明算法时间复杂度算得好好的，为什么实际运行速度总比预期慢得多？你以为是数据库查询的锅，优化了SQL却收效甚微；你怀疑是网络延迟，但抓包数据又显示一切正常。这背后可能隐藏着计算机系统中鲜为人知的“时间陷阱”——那些未被计入传统性能分析，却真实吞噬效率的底层机制。本文将揭示5个最典型的陷阱，从CPU缓存失效到操作系统调度暗坑，并用真实案例展示如何绕过它们。陷阱1：CPU
【学习】《算法图解》第九章学习笔记：迪杰斯特拉算法程序员
一、迪杰斯特拉算法概述迪杰斯特拉算法（Dijkstra'salgorithm）是一种解决带权有向图上单源最短路径问题的贪心算法，由荷兰计算机科学家艾兹赫尔·迪杰斯特拉（EdsgerW.Dijkstra）于1956年提出。该算法常用于路由协议，也可以用作其他图算法的子程序。（一）算法适用场景迪杰斯特拉算法适用于：带权有向图（每条边都有权重）所有权重都为非负值（不能有负权边）需要找出从一个顶点到图中所
3 大语言模型预训练数据-3.2 数据处理-3.2.2 冗余去除——2.SimHash算法文本去重实战案例：新闻文章去重场景
SimHash算法文本去重实战案例：新闻文章去重场景一、案例背景与目标二、具体实现步骤与示例1.**待去重文本示例**2.**步骤1：文本预处理与特征提取**3.**步骤2：特征向量化与哈希映射**4.**步骤3：特征向量聚合**5.**步骤4：降维生成SimHash值**6.**步骤5：计算汉明距离与去重判断**三、工程化实现代码（Python简化示例）四、案例总结与优化点一、案例背景与目标假设
选择排序算法详解老一岁排序算法数据结构算法
时间复杂度：O(n²)——无论数据初始排列如何，都需要进行n(n-1)/2次比较空间复杂度：O(1)——原地排序，不需要额外存储空间稳定性：不稳定排序（可能改变相同元素的相对位置）适用场景：小规模数据排序，或对内存使用要求严格的场景前言一、算法概述选择排序（SelectionSort）是一种简单直观的排序算法，其基本思想是：每次从未排序的部分中选择最小（或最大）的元素，放到已排序部分的末尾。这种排
银行家算法后会无期77 算法算法
文章目录银行家算法概述银行贷款案例A再次申请50万，能批准吗？B再次申请40万，能批准吗？或者C申请20万，能批准吗？安全序列和不安全序列多维度资源分配操作系统资源分配银行家算法总结数据结构银行家算法的步骤安全性算法步骤死锁的避免银行家算法概述银行家算法（Banker’sAlgorithm）是一个避免死锁（Deadlock）的著名算法，是由艾兹格·迪杰斯特拉在1965年为T.H.E系统设计的一种避
TVFEMD-CPO-TCN-BiLSTM多输入单输出模型微光-沫年 matlab 回归机器学习
47-TVFEMD-CPO-TCN-BiLSTM多输入单输出模型适合单变量，多变量时间序列预测模型（可改进，加入各种优化算法）时变滤波的经验模态分解TVFEMD时域卷积TCN双向长短期记忆网络BiLSTM时间序列预测模型另外以及有TCN-BILSTMTCN-LSTMTCN-BiLSTM-ATTENTION等！（此不包含在内，另算的！）Matlab代码！
电影院售票 - 策略模式（Strategy Pattern）
策略模式（StrategyPattern）策略模式（StrategyPattern）策略模式概述策略模式结构图策略模式主要包含的角色talkischeap，showyoumycode总结策略模式（StrategyPattern）策略模式（StrategyPattern）是一种行为型设计模式，它定义了一系列算法，并将每个算法封装起来，使它们可以相互替换。策略模式让算法独立于使用它的客户端而变化，从而
可达性分析算法Test ThetaarSofVenice 算法 java jvm
可达性分析算法相对于引用计数算法而言，可达性分析算法同样具备实现简单和执行高效等特点，更重要的是，该算法可以有效地解决在引用计数算法中循环引用的问题，防止内存泄漏的发生，这个算法目前较为常用。Java语言选择使用可达性分析算法判断对象是否存活。这种类型的垃圾收集通常叫作追踪性垃圾收集(TracingGarbageCollection)，它的基本流程如下。可达性分析算法是以GCRoot（根对象）（见
Kyle的算法记录 Z2475269074 算法
本文将展示一个小白从0->1完成算法的全部历练已经心得PS:要求做到真正的自我思考而不是对着教程敲代码，并借用AI进行辅佐与思考LinkedListLinkedList里的add和remove，都是索引/索引+值进行操作//在链表头部插入元素0lst.addFirst(0);//在链表尾部插入元素6lst.addLast(6);队列QueueQueueq=newLinkedList();//向栈顶
AI人工智能助力空间智能领域提升运营效率 AI智能探索者 AI Agent 智能体开发实战人工智能网络 ai
AI人工智能助力空间智能领域提升运营效率关键词：AI人工智能、空间智能领域、运营效率、智能算法、数据驱动摘要：本文聚焦于AI人工智能在空间智能领域的应用，旨在探讨其如何助力该领域提升运营效率。首先介绍了空间智能领域的背景和相关概念，阐述了AI在其中的核心作用和原理。接着详细讲解了相关核心算法，并结合数学模型进行分析。通过项目实战案例展示了AI在空间智能领域的具体应用和实现方式。同时探讨了实际应用场
C++数值算法深度解析：accumulate与max_element 景彡先生 C++进阶 c++算法服务器
在C++标准库中，数值算法（NumericAlgorithms）提供了高效处理数值数据的工具。本文将深入解析两个核心数值算法——accumulate（累加求和）与max_element（最大值查找）的底层原理、核心特性及最佳实践，帮助开发者掌握这些“数据统计利器”的正确使用方式。一、accumulate：通用累加器1.1底层原理与实现迭代累加：对[first,last)区间内的元素执行累积操作，初
AI驱动的智能电网:平衡供需提高效率 AI智能应用 AI大模型应用入门实战与进阶 java python javascript kotlin golang 架构人工智能
智能电网，AI，机器学习，预测模型，优化算法，供需平衡，能源效率1.背景介绍随着全球能源需求的不断增长和可再生能源的快速发展，传统电网面临着越来越多的挑战。传统的电网结构是集中式供电，难以适应分布式能源的接入和负荷需求的波动性。智能电网应运而生，它利用先进的通信技术、传感器网络和数据分析技术，实现电网的自动化、智能化和可视化，从而提高电网的可靠性、效率和安全性。人工智能（AI）作为一种新兴技术，在
分享100个最新免费的高匿HTTP代理IP mcj8089 代理IP 代理服务器匿名代理免费代理IP 最新代理IP
推荐两个代理IP网站： 1. 全网代理IP：http://proxy.goubanjia.com/ 2. 敲代码免费IP：http://ip.qiaodm.com/ 120.198.243.130:80,中国/广东省 58.251.78.71:8088,中国/广东省 183.207.228.22:83,中国/
mysql高级特性之数据分区 annan211 java 数据结构 mongodb 分区 mysql
mysql高级特性 1 以存储引擎的角度分析，分区表和物理表没有区别。是按照一定的规则将数据分别存储的逻辑设计。器底层是由多个物理字表组成。 2 分区的原理分区表由多个相关的底层表实现，这些底层表也是由句柄对象表示，所以我们可以直接访问各个分区。存储引擎管理分区的各个底层表和管理普通表一样(所有底层表都必须使用相同的存储引擎)，分区表的索引只是
JS采用正则表达式简单获取URL地址栏参数 chiangfai js 地址栏参数获取
GetUrlParam:function GetUrlParam(param){ var reg = new RegExp("(^|&)"+ param +"=([^&]*)(&|$)"); var r = window.location.search.substr(1).match(reg); if(r!=null
怎样将数据表拷贝到powerdesigner (本地数据库表) Array_06 powerDesigner
================================================== 1、打开PowerDesigner12，在菜单中按照如下方式进行操作 file->Reverse Engineer->DataBase 点击后，弹出 New Physical Data Model 的对话框 2、在General选项卡中 Model name:模板名字，自
logbackのhelloworld 飞翔的马甲日志 logback
一、概述 1.日志是啥？当我是个逗比的时候我是这么理解的：log.debug()代替了system.out.print(); 当我项目工作时，以为是一堆得.log文件。这两天项目发布新版本，比较轻松，决定好好地研究下日志以及logback。传送门1：日志的作用与方法： http://www.infoq.com/cn/articles/why-and-how-log 上面的作
新浪微博爬虫模拟登陆随意而生新浪微博
转载自：http://hi.baidu.com/erliang20088/item/251db4b040b8ce58ba0e1235 近来由于毕设需要，重新修改了新浪微博爬虫废了不少劲，希望下边的总结能够帮助后来的同学们。现行版的模拟登陆与以前相比，最大的改动在于cookie获取时候的模拟url的请求
synchronized 香水浓 java thread
Java语言的关键字，可用来给对象和方法或者代码块加锁，当它锁定一个方法或者一个代码块的时候，同一时刻最多只有一个线程执行这段代码。当两个并发线程访问同一个对象object中的这个加锁同步代码块时，一个时间内只能有一个线程得到执行。另一个线程必须等待当前线程执行完这个代码块以后才能执行该代码块。然而，当一个线程访问object的一个加锁代码块时，另一个线程仍然
maven 简单实用教程 AdyZhang maven
1. Maven介绍 1.1. 简介 java编写的用于构建系统的自动化工具。目前版本是2.0.9，注意maven2和maven1有很大区别，阅读第三方文档时需要区分版本。 1.2. Maven资源见官方网站；The 5 minute test，官方简易入门文档；Getting Started Tutorial，官方入门文档；Build Coo
Android 通过 intent传值获得null aijuans android
我在通过intent 获得传递兑现过的时候报错，空指针,我是getMap方法进行传值，代码如下 1 2 3 4 5 6 7 8 9 public void getMap(View view){ Intent i =
apache 做代理报如下错误：The proxy server received an invalid response from an upstream baalwolf response
网站配置是apache＋tomcat,tomcat没有报错，apache报错是： The proxy server received an invalid response from an upstream server. The proxy server could not handle the request GET /. Reason: Error reading fr
Tomcat6 内存和线程配置 BigBird2012 tomcat6
1、修改启动时内存参数、并指定JVM时区（在windows server 2008 下时间少了8个小时）在Tomcat上运行j2ee项目代码时，经常会出现内存溢出的情况，解决办法是在系统参数中增加系统参数： window下，在catalina.bat最前面 set JAVA_OPTS=-XX:PermSize=64M -XX:MaxPermSize=128m -Xms5
Karam与TDD bijian1013 Karam TDD
一.TDD 测试驱动开发（Test-Driven Development,TDD）是一种敏捷（AGILE）开发方法论，它把开发流程倒转了过来，在进行代码实现之前，首先保证编写测试用例，从而用测试来驱动开发（而不是把测试作为一项验证工具来使用）。 TDD的原则很简单： a.只有当某个
[Zookeeper学习笔记之七]Zookeeper源代码分析之Zookeeper.States bit1129 zookeeper
public enum States { CONNECTING, //Zookeeper服务器不可用，客户端处于尝试链接状态 ASSOCIATING, //？？？ CONNECTED, //链接建立，可以与Zookeeper服务器正常通信 CONNECTEDREADONLY, //处于只读状态的链接状态，只读模式可以在
【Scala十四】Scala核心八：闭包 bit1129 scala
Free variable A free variable of an expression is a variable that’s used inside the expression but not defined inside the expression. For instance, in the function literal expression (x: Int) => (x
android发送json并解析返回json ronin47 android
package com.http.test; import org.apache.http.HttpResponse; import org.apache.http.HttpStatus; import org.apache.http.client.HttpClient; import org.apache.http.client.methods.HttpGet; import
一份IT实习生的总结 brotherlamp PHP php资料 php教程 php培训 php视频
今天突然发现在不知不觉中自己已经实习了 3 个月了，现在可能不算是真正意义上的实习吧，因为现在自己才大三，在这边撸代码的同时还要考虑到学校的功课跟期末考试。让我震惊的是，我完全想不到在这 3 个月里我到底学到了什么，这是一件多么悲催的事情啊。同时我对我应该 get 到什么新技能也很迷茫。所以今晚还是总结下把，让自己在接下来的实习生活有更加明确的方向。最后感谢工作室给我们几个人这个机会让我们提前出来
据说是2012年10月人人网校招的一道笔试题-给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。将重物放到天平左侧，问在两边如何添加砝码 bylijinnan java
public class ScalesBalance { /** * 题目： * 给出一个重物重量为X,另外提供的小砝码重量分别为1，3，9。。。3^N。（假设N无限大，但一种重量的砝码只有一个） * 将重物放到天平左侧，问在两边如何添加砝码使两边平衡 * * 分析： * 三进制 * 我们约定括号表示里面的数是三进制，例如 47=(1202
dom4j最常用最简单的方法 chiangfai dom4j
要使用dom4j读写XML文档,需要先下载dom4j包,dom4j官方网站在 http://www.dom4j.org/目前最新dom4j包下载地址:http://nchc.dl.sourceforge.net/sourceforge/dom4j/dom4j-1.6.1.zip 解开后有两个包,仅操作XML文档的话把dom4j-1.6.1.jar加入工程就可以了,如果需要使用XPath的话还需要
简单HBase笔记 chenchao051 hbase
一、Client-side write buffer 客户端缓存请求描述：可以缓存客户端的请求，以此来减少RPC的次数，但是缓存只是被存在一个ArrayList中，所以多线程访问时不安全的。可以使用getWriteBuffer()方法来取得客户端缓存中的数据。默认关闭。二、Scan的Caching 描述： next( )方法请求一行就要使用一次RPC,即使
mysqldump导出时出现when doing LOCK TABLES daizj mysql mysqdump 导数据
　　执行　mysqldump -uxxx -pxxx -hxxx -Pxxxx database tablename > tablename.sql　导出表时，会报 mysqldump: Got error: 1044: Access denied for user 'xxx'@'xxx' to database 'xxx' when doing LOCK TABLES 解决
CSS渲染原理 dcj3sjt126com Web
从事Web前端开发的人都与CSS打交道很多，有的人也许不知道css是怎么去工作的，写出来的css浏览器是怎么样去解析的呢？当这个成为我们提高css水平的一个瓶颈时，是否应该多了解一下呢？一、浏览器的发展与CSS
《阿甘正传》台词 dcj3sjt126com
Part Ⅰ: 《阿甘正传》Forrest Gump经典中英文对白 Forrest: Hello! My names Forrest. Forrest Gump. You wanna Chocolate? I could eat about a million and a half othese. My momma always said life was like a box ochocol
Java处理JSON dyy_gusi json
Json在数据传输中很好用，原因是JSON 比 XML 更小、更快，更易解析。在Java程序中，如何使用处理JSON，现在有很多工具可以处理，比较流行常用的是google的gson和alibaba的fastjson，具体使用如下： 1、读取json然后处理 class ReadJSON { public static void main(String[] args)
win7下nginx和php的配置 geeksun nginx
1. 安装包准备 nginx : 从nginx.org下载nginx-1.8.0.zip php：从php.net下载php-5.6.10-Win32-VC11-x64.zip， php是免安装文件。 RunHiddenConsole: 用于隐藏命令行窗口 2. 配置 # java用8080端口做应用服务器，nginx反向代理到这个端口即可 p
基于2.8版本redis配置文件中文解释 hongtoushizi redis
转载自： http://wangwei007.blog.51cto.com/68019/1548167 在Redis中直接启动redis-server服务时, 采用的是默认的配置文件。采用redis-server xxx.conf 这样的方式可以按照指定的配置文件来运行Redis服务。下面是Redis2.8.9的配置文
第五章常用Lua开发库3-模板渲染 jinnianshilongnian nginx lua
动态web网页开发是Web开发中一个常见的场景，比如像京东商品详情页，其页面逻辑是非常复杂的，需要使用模板技术来实现。而Lua中也有许多模板引擎，如目前我在使用的lua-resty-template，可以渲染很复杂的页面，借助LuaJIT其性能也是可以接受的。如果学习过JavaEE中的servlet和JSP的话，应该知道JSP模板最终会被翻译成Servlet来执行；而lua-r
JZSearch大数据搜索引擎颠覆者 JavaScript
系统简介：大数据的特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。最后这一点也是和传统的数据挖掘技术有着本质的不同。业界将其归纳为4个“V”——Volume，Variety，Value，Velocity。大数据搜索引
10招让你成为杰出的Java程序员 pda158 java 编程框架
如果你是一个热衷于技术的 Java 程序员，那么下面的 10 个要点可以让你在众多 Java 开发人员中脱颖而出。　　 1. 拥有扎实的基础和深刻理解 OO 原则　　对于 Java 程序员，深刻理解 Object Oriented Programming（面向对象编程）这一概念是必须的。没有 OOPS 的坚实基础，就领会不了像 Java 这些面向对象编程语言
tomcat之oracle连接池配置小网客 oracle
tomcat版本7.0 配置oracle连接池方式：修改tomcat的server.xml配置文件： <GlobalNamingResources> <Resource name="utermdatasource" auth="Container" type="javax.sql.DataSou
Oracle 分页算法汇总 vipbooks oracle sql 算法 .net
这是我找到的一些关于Oracle分页的算法，大家那里还有没有其他好的算法没？我们大家一起分享一下！ -- Oracle 分页算法一 select * from ( select page.*,rownum rn from (select * from help) page -- 20 = (currentPag

文件压缩/解压算法

LZMA SDK (Software Development Kit)

你可能感兴趣的:(算法)