andylin02

Rsync 实现原理

前言

关于rsync的原始文档 Rsync technical report 以及Andrew Tridgell的论文 Phd thesis (pdf) 都是关于rsync算法原理的极好的文档。但是，这些文档注重的是rsync算法本身，而对算法的实现方法则描述较少。

本文试图对Linux/Unix下的rsync工具的实现进行分析，并将描述下列问题：

rsync 算法纵览（非数学性的）；
rsync 工具中，算法是如何实现的；
rsync 工具中用到的协议；
rsync 工具中，各个进程的作用(The identifiable roles the rsync processes play).

本文主要目的是为读者提供打下一个基础，在此基础上，读者可以更好的理解下列问题：

rsync工作原理
rsync缺陷
Why a requested feature is unsuited to the code-base.

当然，也许这篇文章页有助于程序员更好的阅读rsync代码。

进程与角色：常用术语介绍

当谈到Rsync时候，我们将使用一些术语来指代rsync工具在完成其任务的不同阶段下的各个角色或者进程。下面为一些后文将会用到的术语：

client/客户端	role/角色	客户端对同步过程进行初始化。
server/服务器端	role/角色	服务器是指远端的rsync进程或者客户端通过远端shell、socket所连接到的系统。服务器(server)是一个通用的术语，注意不要将其与Deamon混为一谈。
		一旦从Client到Server的链接建立起来，Client（客户端）/Server（服务器）的这两个角色的差别，就被Sender（发送者）/Receiver（接收者）所取代了。
daemon/守护进程	角色，同时也是进程	Daemon是一个rsync进程，该进程用于等待接收从Client发起的连接。在一些平台上，Daemon也被叫做服务（Service）
remote shell/远端shell	角色，同时也是一系列的进程	一个或多个进程，用于向client和远端的server之间提供连通性。
sender/发送者	role and process	可以存取待同步的文件资源的rsync进程。
receiver/接收者	role and process	作为角色：指同步过程中的目标系统；作为进程：指目标系统中，用于接收数据并接数据写入磁盘的进程。
generator/生产者	process/进程	生产者进程用于识别文件的变化，并维持文件级别的逻辑。

进程启动

当rsync客户端启动后，它首先通过管道（pipes）或者网络来与server 进程建立第一个连接。

根据远端连接的建立方式不同，rsync客户端的处理也不同。

当远端为一个通过remote shell建立起来的非Daemon server时，client会fork远端shell，并借此在远端系统上启动一个服务器（server）。此后，client和 server均通过remote shell上的管道（pipes）来通讯。此过程中，单就rsync进程而言，不涉及到网络操作。在这种模式下，server进程的rsync选项是通过用于启动remote shell的命令行来传递的。

当rsync可以通过deamon来通讯时，它实际上是在直接通过网络来通讯。此模式下，rsync的参数必须通过socket来发送，该过程具体如下：

通讯刚刚开始启动的时候，Client和Server将各自的版本号发送给对方，并选择较低的版本号作为文件传输的标准。如果Server端的rsync是一个Daemon-Mode，则 rsync的选项由Client发送至Server。之后由Client发送到Server的，是exclude list，即排除的文件列表。

Local Rsync jobs (when the source and destination are both on locally mounted filesystems) are done exactly like a push. The client, which becomes the sender, forks a server process to fulfill the receiver role. The client/sender and server/receiver communicate with each other over pipes.

The File List

The file list includes not only the pathnames but also ownership, mode, permissions, size and modtime. If the --checksum option has been specified it also includes the file checksums.

The first thing that happens once the startup has completed is that the sender will create the file list. While it is being built, each entry is transmitted to the receiving side in a network-optimised way.

When this is done, each side sorts the file list lexicographically by path relative to the base directory of the transfer. (The exact sorting algorithm varies depending on what protocol version is in effect for the transfer.) Once that has happened all references to files will be done by their index in the file list.

If necessary the sender follows the file list with id→name tables for users and groups which the receiver will use to do a id→name→id translation for every file in the file list.

After the file list has been received by the receiver, it will fork to become the generator and receiver pair completing the pipeline.

The Pipeline

Rsync is heavily pipelined. This means that it is a set of processes that communicate in a (largely) unidirectional way. Once the file list has been shared the pipeline behaves like this:

generator → sender → receiver

The output of the generator is input for the sender and the output of the sender is input for the receiver. Each process runs independently and is delayed only when the pipelines stall or when waiting for disk I/O or CPU resources.

The Generator

The generator process compares the file list with its local directory tree. Prior to beginning its primary function, if --delete has been specified, it will first identify local files not on the sender and delete them on the receiver.

The generator will then start walking the file list. Each file will be checked to see if it can be skipped. In the most common mode of operation files are not skipped if the modification time or size differs. If --checksum was specified a file-level checksum will be created and compared. Directories, device nodes and symlinks are not skipped. Missing directories will be created.

If a file is not to be skipped, any existing version on the receiving side becomes the "basis file" for the transfer, and is used as a data source that will help to eliminate matching data from having to be sent by the sender. To effect this remote matching of data, block checksums are created for the basis file and sent to the sender immediately following the file's index number. An empty block checksum set is sent for new files and if --whole-file was specified.

The block size and, in later versions, the size of the block checksum are calculated on a per file basis according to the size of that file.

The Sender

The sender process reads the file index numbers and associated block checksum sets one at a time from the generator.

For each file id the generator sends it will store the block checksums and build a hash index of them for rapid lookup.

Then the local file is read and a checksum is generated for the block beginning with the first byte of the local file. This block checksum is looked for in the set that was sent by the generator, and if no match is found, the non-matching byte will be appended to the non-matching data and the block starting at the next byte will be compared. This is what is referred to as the “rolling checksum”

If a block checksum match is found it is considered a matching block and any accumulated non-matching data will be sent to the receiver followed by the offset and length in the receiver's file of the matching block and the block checksum generator will be advanced to the next byte after the matching block.

Matching blocks can be identified in this way even if the blocks are reordered or at different offsets. This process is the very heart of the rsync algorithm.

In this way, the sender will give the receiver instructions for how to reconstruct the source file into a new destination file. These instructions detail all the matching data that can be copied from the basis file (if one exists for the transfe), and includes any raw data that was not available locally. At the end of each file's processing a whole-file checksum is sent and the sender proceeds with the next file.

Generating the rolling checksums and searching for matches in the checksum set sent by the generator require a good deal of CPU power. Of all the rsync processes it is the sender that is the most CPU intensive.

The Receiver

The receiver will read from the sender data for each file identified by the file index number. It will open the local file (called the basis) and will create a temporary file.

The receiver will expect to read non-matched data and/or to match records all in sequence for the final file contents. When non-matched data is read it will be written to the temp-file. When a block match record is received the receiver will seek to the block offset in the basis file and copy the block to the temp-file. In this way the temp-file is built from beginning to end.

The file's checksum is generated as the temp-file is built. At the end of the file, this checksum is compared with the file checksum from the sender. If the file checksums do not match the temp-file is deleted. If the file fails once it will be reprocessed in a second phase, and if it fails twice an error is reported.

After the temp-file has been completed, its ownership and permissions and modification time are set. It is then renamed to replace the basis file.

Copying data from the basis file to the temp-file make the receiver the most disk intensive of all the rsync processes. Small files may still be in disk cache mitigating this but for large files the cache may thrash as the generator has moved on to other files and there is further latency caused by the sender. As data is read possibly at random from one file and written to another, if the working set is larger than the disk cache, then what is called a seek storm can occur, further hurting performance.

The Daemon

The daemon process, like many daemons, forks for every connection. On startup, it parses the rsyncd.conf file to determine what modules exist and to set the global options.

When a connection is received for a defined module the daemon forks a new child process to handle the connection. That child process then reads the rsyncd.conf file to set the options for the requested module, which may chroot to the module path and may drop setuid and setgid for the process. After that it will behave just like any other rsync server process adopting either a sender or receiver role.

The Rsync Protocol

A well-designed communications protocol has a number of characteristics.

Everything is sent in well defined packets with a header and an optional body or data payload.
In each packet's header a type and or command specified.
Each packet has a definite length.

In addition to these characteristics, protocols have varying degrees of statefulness, inter-packet independence, human readability, and the ability to reestablish a disconnected session.

Rsync's protocol has none of these good characteristics. The data is transferred as an unbroken stream of bytes. With the exception of the unmatched file-data, there are no length specifiers nor counts. Instead the meaning of each byte is dependent on its context as defined by the protocol level.

As an example, when the sender is sending the file list it simply sends each file list entry and terminates the list with a null byte. Within the file list entries, a bitfield indicates which fields of the structure to expect and those that are variable length strings are simply null terminated. The generator sending file numbers and block checksum sets works the same way.

This method of communication works quite well on reliable connections and it certainly has less data overhead than the formal protocols. It unfortunately makes the protocol extremely difficult to document, debug or extend. Each version of the protocol will have subtle differences on the wire that can only be anticipated by knowing the exact protocol version.

notes

This document is a work in progress. The author expects that it has some glaring oversights and some portions that may be more confusing than enlightening for some readers. It is hoped that this could evolve into a useful reference.

Specific suggestions for improvement are welcome, as would be a complete rewrite.

Sync Algorithm: RSync vs. RDC

数据同步(Sync)是很多网络应用需要的解决的问题，比如文件镜像。这里就以文件同步为例，问题模型：网络中两个主机Host-A和Host-B，都有同一文件File-Old的拷贝，现在这个文件在Host-A上做了一些改变成为了File-New，需要通过同步让Host-B也获得F-New。

让我们想想怎么处理这个问题，最简单的方法，把所有数据都传输一遍，这样是简单，但是显得浪费，因为File-New相对于File-Old只是有些小改变，全部copy代价太大。如果我们能够只传输发生改变的部分，也就是增、删、改的文件部分，那就太好了。这样，我们要解决的问题变成，如何得到File-Old和File-New的差别。

如果Host-A上面保留有一个File-Old，那用普通的diff算法求一下和File-New的差别就行了，但是实际应用中，Host- A往往不会保留File-Old；或者文件格式本身有很强的版本控制功能，Host-B告诉Host-A它手上文件的版本，Host-A就能够计算出差别；更多情况下，文件就是一串bytes，没有版本控制信息，没有历史拷贝，Rsync和RDC就是解决这种情况的同步的。

RSync算法是澳大利亚人 Andrew Tridgell发明的，我看懂这个算法之后的第一感觉是："嘿，这算法我也应该能想出来！”的确，按照 Andrew Tridgell自己的话，这个算法只需要半个小时就能够理解，但是花费了他几年时间研究出来。

这里大概介绍一下Rsync算法大概原理：

1) Host-B把File-Old划分成不重合的大小为K字节的若干块，不足K字节的结尾部分加上Padding，然后对每一块求弱Hash和强Hash。弱Hash就是说很有可能两个不同的块Hash值相同，但是计算起来快，而且这里要求这个若Hash能够Rolling，也就是说已知字节1到字节K这个块的Hash值，能够很快的计算出字节2到字节K+1这个块的Hash值，往前Roll一个字节，计算很快；强Hash就是可以认为不同块肯定有不同 Hash值，Rsync用的是MD4。我们让WH表示弱Hash,SH表示强Hash。

2) Host-B把每个块的WH和SH值发送给Host-A。

3) 该Host-A上场了，他的运算量比较大。Host-A对File-New每一个长度为K的块（也就是以每个字节开头的长度为K的块）计算WH，计算出来之后和Host-B发送过来的WH匹配，如果发现有相同的，再计算这个块的SH进行匹配，如果还是相符，说明这个块在File-Old里面也存在。假如 File-New长度为N，那么Host-A要处理大约(N-K)个块，这里可见用两个Hash算法的作用，WH用来做初步比较，而且因为它可以 Rolling，所以能够很快筛选掉大多数不匹配，对于漏网之鱼，也躲不过SH的筛选。

4) 通过上面的计算，Host-A可知道，File-New中哪些块和File-Old中的块相同，这样自然也可以计算出哪些不同，Host-A把这些不同 encode一下送给Host-B。

5) Host-B收到Host-A送来的数据，decode，就得到了File-New相对于File-Old的改变，于是获得了File-New。

整个过程只需要一个round-trip，而且可以精确的得到一个字节级别的差别，Host-A的运算量相对要大一些。

Rsync的实现已经是*inx上面的一个重要工具，所以，当Microsoft在Windows 2003 Server上推出DFSR(Distributed File System Replication)时，Open Source Community颇有嘘声。其实DFSR采用的是RDC(Remote Differential Compression)算法，和RSync相差很大，并没有抄袭RSync。

我感觉，RSync有学院气息（这个算法本来就是 Andrew Tridgell的博士论文），结果很完美，File-New和 File-Old每一个字节的差别都计算出来了，但是Host-A和Host-B的计算量不对等，大部分的计算都集中在Host-A上。RDC和 RSync相比方向上有点不同，RDC并不追求计算出字节级别的diff，而是用较少的运算求出数据块级别的diff。

RDC算法要求Host-A和Host-B通过一致的规则对File-New和File-Old分别进行分块，然后对每个块计算 SH，Host-B把每个块的SH值发给Host-A，Host-A对两组SH进行diff，就可以知道有哪些块不同，哪些块被删掉了，哪些块被添加了。 RDC的关键在于分块规则，也使用WH，要让同一规则应用于File-Old和File-New的时候，分出来的块能够尽量体现出区别。

比如File-Old包含" I Love Playing Basketball”，

File-New是" I Like Playing Football"。

如果是RSync算法，Host-A能够计算出准确的差别，" I Like Playing Football" 黄色部分修改了，绿色部分是增加的，精确到每个字符，Host-A主要告诉Host-B："把第4-6号字符换成'ike'，把16-21号字符去掉，插入'Foot'”。

如果是RDC算法，可能得到下面的结果：

File-Old分块的结果，分成3块。

" I Love Playing Basketball”

File-New分块的结果，分成3块。

" I Like Playing Football"

Host-A经过比对，发现只有File-Old的第2块和File-New的第2块匹配，于是就告诉Host-B："把你的第一块换成‘I Like’，把你的第3块换成‘Football’”。

如上面看到，RDC相对而言比较浪费，相比RSync，要多传输一些数据，但是Host-A和Host-B的计算量比较平均。为了让RDC发挥好的性能，一定要制定一个好的分块机制，让包含Diff的块尽量少包含没有Diff的数据，怎么做到这一点呢，还要靠WH，通过rolling checksum来从数据中快速挖掘出数据的性质。

注意一点就是RSync的分块策略是每块都是固定长度的，而RDC则每块长度可能不一样。

虽然RDC相对浪费一点，但是传送的大部分还是Delta数据，而且计算量相对平均而且较少，目前Window 2003 Server R2上的DFS使用的就是RDC算法，还有一个应用就是Live Messenger的Shared Folder功能，用一用，就知道效率不差了:)

Note:
本文前半部分翻译，原文可从rsync官方网站上得到，但是因为时间原因，没有翻译完成，已翻译的部分也存在词不达意的现象，等以后有时间再修改吧。后半部分是转载的网友的文章，原文地址为这里

JavaScript实现批量修改文件类型算法(附完整源码) 源代码大师 JavaScript实战教程 1024程序员节
JavaScript实现批量修改文件类型算法以下是JavaScript实现批量修改文件类型的完整源码：//获取文件夹中所有文件functiongetAllFiles(dirPath,arrayOfFiles){constfiles=fs.readdirSync(dirPath)arrayOfFiles=arrayOfFiles||[]files.forEach(function(file){if(
Python 爬虫（4）HTTP协议一个不务正业的程序猿 Python 爬虫爬虫 http 网络协议
文章目录一、HTTP协议1、HTTP特点2、HTTP工作原理3、HTTP与HTTPS的区别前言：HTTP（HyperTextTransferProtocol，超文本传输协议）是互联网上应用最为广泛的一种网络协议，用于在客户端和服务器之间传输超文本（如HTML文件）。HTTP协议是Web的基础，它定义了客户端如何请求资源以及服务器如何响应这些请求。一、HTTP协议1、HTTP特点HTTP协议具有以下
【算法】动态规划 - 背包问题总结（二）妄想的男孩算法算法动态规划
概述上一篇博客讲到了背包问题中的01背包问题，今天这篇博客继续介绍背包问题中的完全背包问题。首先回顾一下背包问题，背包问题解决的是：一共有N件物品，有一个容积为V的背包，第i个物品有两个属性：体积v[i]和价值w[i]，在背包能装下的前提下，能装的物品最大价值是多少。完全背包完全背包问题的关键是，每个物品有无限个。状态转移方程根据上次求解01背包的思路，求解完全背包也需要分成两个部分，分别是状态表
【算法】动态规划 - 背包问题总结（三）妄想的男孩算法算法动态规划
概述上次介绍完了完全背包问题，今天将介绍背包问题中的多重背包和分组背包问题。回顾一下背包问题的所要解决的问题是：有N个物品，有一个容积为V的背包，每个物品有两个属性：体积v[i]和价值w[i]。在背包能装下的前提下，能装的物品的最大价值是多少？多重背包多重背包与前两个背包问题不同的是，每件物品的个数不一，用s[i]表示。多重背包问题链接：多重背包问题I多重背包问题II状态转移方程让我们再回忆一下求
深度学习简介、数据集、数据类型 Q渡劫机器学习人工智能机器学习深度学习
目录1、深度学习、机器学习、人工智能之间的关系2、数据集3、数据类型1、深度学习、机器学习、人工智能之间的关系机器学习是实现人工智能的一个途径，深度学习是实现机器学习的一种技术。深度学习是机器学习的一个子集，用于建立、模拟人脑进行数据处理和分析学习的神经网络，因此也可以被称作是深度神经网络。深度学习与传统机器学习最重要的区别在于数据量的大小和硬件依赖性。当数据量很大时，深度学习算法可以表现出更好的
猛攻大模拟day2！想跑步的小弱鸡 c++
字符串匹配纯粹的kmp算法，让我顺便又复习了一下，然后加上了一个大小写模糊匹配代码如下中间卡了一个点，后面发现是next数组得在m不同状态更新。但acwing上有更简洁得做法，决定学习一下find函数（服了何必写这个kmp呢）大小写转换还是一个个换吧没必要用高级函数（其实就是懒得背了）#includeusingnamespacestd;constintN=105;stringstr;intn,m;
12. STL的原理想要成为计算机高手复习 C++c++开发语言经验分享 STL
目录1.容器、迭代器、算法什么是迭代器?迭代器的作用？迭代器的类型？迭代器失效迭代器的实现细节：2.适配器什么是适配器？适配器种类：3.仿函数什么是仿函数？仿函数与算法和容器的关系：4.空间配置器5.STL的优缺点是什么？设计的好的地方和不好的地方？STL包含六大组件，这些组件是杂糅到一起的，互相之间有关联。问到就详细讲容器和迭代器。1.容器、迭代器、算法上一篇讲了容器，这里主要介绍它和其他组件的
论文总结【2024.11】IEEE Transactions on Geoscience and Remote Sensing 新手小白勇闯新世界论文汇总计算机视觉目标跟踪人工智能
IEEETransactionsonGeoscienceandRemoteSensing1、FFCA-YOLOforSmallObjectDetectioninRemoteSensingImages【FFCA-YOLO用于遥感图像中小目标检测】特征表示不足、背景混淆等问题使得遥感中小目标的探测任务变得艰巨。特别是当算法将部署在机上进行实时处理时，这需要在有限的计算资源下对准确性和速度进行广泛的优化
让AI决策透明：把深度学习算法变为可解释性的方法搞技术的妹子人工智能深度学习算法
让AI决策透明：深度学习在授信额度中的可解释性探索可解释性与透明度的提升1.局部可解释性方法（LIME&SHAP）2.特征重要性（FeatureImportance）3.集成方法与解释模型的组合4.注意力机制（AttentionMechanism）5.可解释性与模型性能之间的权衡结论**深度学习模型（特别是神经网络）由于其高度非线性和复杂结构，通常被视为“黑箱”**模型，缺乏直观的可解释性。然而，
遗传算法的有趣实践无恶不作的黑猫警长 python 遗传算法有趣实践 GA 生物进化遗传算法拟合图像机器学习
源码先放上我的源码链接：https://github.com/AIjugg/Genetic_Algorithm.git自己思考加纯手写的代码，有兴趣的同学可以拿去玩玩前言生物进化是一个有趣的话题，人是怎么从人猿进化到的人，长颈鹿的脖子为什么这么长，猫和老虎为什么一个这么大一个这么小只？有个人在19世纪就对这些问题感到了浓厚的兴趣，1859年，《物种起源》出版，标志着生物学进入了新的阶段。生物进化是
复制域天YT88加密狗的方式及方法 +Greer82 个人开发软件工程硬件工程单片机
一、域天YT88加密狗简介专业提供加密狗（加密锁）复制、加密狗破解、加密狗备份、license授权文件破解、注册机序列号破解、软件加密、制作加密狗写狗工具等逆向工程。域天YT88加密狗是一款多功能加密锁，采用新铝合金属外壳，具有防调试、VM虚拟机多项加密功能，为软件开发商提供了稳定可靠的软件保护工具。它支持高强度外壳加密和完美易用的API接口调用，可以自定义数据储存区和增强算法密钥，实现对软件的动
【信奥一本通提高篇】基础算法之贪心算法 C-DHEnry 信奥一本通提高篇算法贪心算法
原文https://bbs.fmcraft.top/blog/index.php/archives/22/贪心算法概述近年来的信息学竞赛试题，经常出现求一个问题的可行解或最优解的题目。这类问题就是我们通常所说的最优化问题。贪心算法是求解这类问题的一种常用算法。在众多的算法中，贪心算法可以算得上是最接近人们日常思维的一种算法，常被信息学奥赛选手用来求解一些数据规模很大的问题。一、贪心算法贪心算法是从
计算机网络考研知识点总结,2020计算机专业考研的计算机网络部分知识点 Soul App 计算机网络考研知识点总结
2020考研备考已经开始，虽然专业课复习有点早，但是知己知彼才能百战不殆。海天考研为大家整理了计算机网络部分的重点知识点，一起来看看吧。1、计算机网络体系结构这部分内容要了解计算机网络概念的概念、组成;计算机网络的分类，发展过程等。理解网络分层结构、网络协议、接口、服务等概念。重点掌握OSI参考模型和TCP/IP模型的区别和联系。2、物理层对这部分内容的考查，以基本原理和概念的形式为主。掌握信道、
DeepSeek：揭秘支持的AI模型与算法全览鸭鸭鸭进京赶烤人工智能机器人 agi ai opencv 算法计算机网络
以下是一些常见的AI模型和算法类型，DeepSeek可能支持的内容：1.自然语言处理（NLP）文本分类：用于情感分析、垃圾邮件检测等。命名实体识别（NER）：从文本中提取人名、地点、组织等信息。机器翻译：支持多语言之间的自动翻译。文本生成：如GPT系列模型，用于生成文章、对话等。问答系统：基于BERT等模型的智能问答。语义相似度计算：判断两段文本的语义是否相似。2.计算机视觉（CV）图像分类：识别
8.6考研408内部排序算法比较与应用知识点深度解析竹木有心考研算法排序算法
考研408「内部排序算法比较与应用」知识点深度解析一、排序算法核心指标1.1时间复杂度算法类型最好情况平均情况最坏情况直接插入排序O(n)O(n)O(n)O(n2)O(n^2)O(n2)O(n2)O(n^2)O(n2)冒泡排序O(n)O(n)O(n)O(n2)O(n^2)O(n2)O(n2)O(n^2)O(n2)简单选择排序O(n2)O(n^2)O(n2)O(n2)O(n^2)O(n2)O(n2)
蓝桥杯备考：贪心算法之最大字段和无敌大饺子 dot 贪心算法算法
先说，贪心策略，贪心策略就是我们从头开始选数，如果是正的说明对后面有贡献就继续往后加，如果是负的就舍弃这一段，从下一个开始往后加，#includeusingnamespacestd;intsum;constintN=2e5+10;inta[N];intmain(){intn;cin>>n;intret=-1e6;for(inti=1;i>a[i];sum+=a[i];ret=max(sum,ret
每日c/c++题备战蓝桥杯（二分答案模版）梁下轻语的秋缘 c语言 c++蓝桥杯学习算法
在算法学习中，二分答案算法是一种非常高效且常用的技巧。它的核心思想是通过不断缩小搜索范围，逐步逼近目标答案。相比传统的暴力搜索，二分答案算法的时间复杂度通常为O(logn)，特别适合处理大规模数据的查找问题。本文将详细介绍二分答案算法的两种常见模板，并结合实际应用场景，帮助你更好地理解和使用这一算法。二分答案算法的基本原理二分答案算法的核心思想是：在一个有序的区间中，通过不断将区间分成两部分，判断
利用DeepSeek备战蓝桥杯，冲刺20天晨宸莀蓝桥杯人工智能 c语言 c++
博主在大二的时候，“误打误撞”在第十五届蓝桥杯C/C++赛道B组中获得了省三的成绩，知道自己获奖后第一反应是惊讶，但也算是“欧亨利式”结局了——意料之外，情理之中。当时每周都会花一整天的时间专门学习蓝桥杯的相关知识，从STL开始学起，然后就是慢慢刷题锻炼自己的思考方式，从3月份开始每晚都刷。因为经常花大片段时间去琢磨，所以面临考场上的4小时攻坚战，这个还未学过数据结构与算法课程的大二小白，通过暴力
基于C++的PPO算法实现托马斯全旋动作的机器人训练系统程序员Thomas STM32 C++机器人 c++算法机器人
基于C++的PPO算法实现托马斯全旋动作的机器人训练系统一、系统设计框架核心架构•感知层：使用深度相机（如IntelRealSense）获取机器人本体姿态和地面接触信息，结合关节编码器和IMU传感器实时反馈关节角度、角速度、末端受力等数据。•策略层：基于PPO算法构建Actor-Critic网络，Actor网络输出各关节力矩或目标角度，Critic网络评估动作价值，通过裁剪重要性采样比（Clipp
GitHub 上值得前端学习的数据结构与算法项目 2401_84435838 github 前端学习
★algo:https://github.com/wangzheng0822/algo”数据结构和算法必知必会的50个代码实现。包含数组、链表、栈、队列、递归、排序、二分查找、散列表、字符串、二叉树、堆、图、回溯、分治、动态规划等。每个代码实现有解释，测试用例。//选择排序constselectionSort=(arr)=>{if(arr.length<=1)return//需要注意这里的边界,因
劲速云算力：以真性价比与硬核实力，赋能 AI 创新加速
在AI技术爆发式发展的今天，算力已成为驱动行业变革的核心引擎。无论是算法迭代、模型训练还是数据处理，高效稳定的算力支持都是企业与开发者突破瓶颈的关键。劲速云凭借“高可靠、高性能、高性价比”的核心理念，正以全国布局的算力网络与创新技术，为全球AI开发者与企业提供坚实的算力底座，助力其在智能时代抢占先机。一、万卡集群+智能调度：打破资源壁垒劲速云在全国12大算力枢纽（内蒙古、广东、江苏、湖北等）部署了
高精度除法（算法题）祝我好运zwhyyyy 算法
首先解释一下我们介绍的高精度乘法的情况：及为一个数是大数（如题目中的A）一个数的普通数（如题目中的B），我们仅仅介绍的是此种情况。具体代码如下(有详细注释和例子）：#includeusingnamespacestd;/*处理第1位4：t=0*10+4=4res添加4/3=1→[1]t更新为4%3=1处理第2位5：t=1*10+5=15res添加15/3=5→[1,5]t更新为15%3=0处理第3位
Python爬虫与1688图片搜索API接口：深度解析与显著收益
一、1688图片搜索API概述1688作为阿里巴巴旗下的B2B电商平台，其图片搜索API为开发者提供了通过图片搜索商品的能力。这项技术基于计算机视觉和深度学习算法，能够识别上传图片中的商品特征，并在1688海量商品库中寻找相似或相同的产品。API核心功能以图搜图：上传商品图片获取相似商品列表商品识别：自动识别图片中的商品类别和关键特征精准匹配：对于标品可实现高精度匹配批量处理：支持多图片批量搜索二
kmp算法洞阳数据结构与算法算法数据结构
kmp算法C语言实现#include#include#include//构建部分匹配表（next数组）voidcomputeLPSArray(constchar*pattern,intpattern_len,int*lps){intlength=0;//当前最长公共前后缀长度lps[0]=0;//首字符无前缀，直接置0inti=1;while(i
「读书计划」《啊哈！算法》7日结构化学习规划 SHENHUANJIE 算法学习学习计划编程数据结构算法竞赛
一、系统化知识分解（总页数÷7日周期）Day1：掌握基础排序算法（冒泡排序/桶排序）+配套动态流程解析Day2：理解栈、队列、链表结构+实践结构体编码实现Day3：解析枚举与递归原理+LeetCode基础题型实践Day4：攻克图遍历算法（深度优先搜索/广度优先搜索）+路径规划实例分析Day5：构建动态规划思维+背包问题建模训练Day6：精研算法竞赛真题（NOIP/CSP历年试题）Day7：构建完整
最长连续序列（leetcode）速通期末周 leetcode 算法数据结构 c++
难度：中等题目描述给定一个未排序的整数数组nums，找出数字连续的最长序列（不要求序列元素在原数组中连续）的长度。请你设计并实现时间复杂度为O(n)的算法解决此问题。示例1：输入：nums=[100,4,200,1,3,2]输出：4解释：最长数字连续序列是[1,2,3,4]。它的长度为4。示例2：输入：nums=[0,3,7,2,5,8,4,6,0,1]输出：9思路这道题可以用暴力法解决，先对数组
常用的排序算法------练习4 日暮南城故里算法刷题记录 java 算法数据结构
1.题目2.思路和题解这道题是很经典的荷兰国旗问题，根据题目意思，要对这个数组按照颜色排序，而此时现在的红、白、蓝三个颜色分别对应0，1，2，因此可以想到使用冒泡排序对该数组进行排序。代码如下：classSolution{publicvoidsortColors(int[]nums){for(inti=0;ii;j--){if(nums[j-1]>nums[j]){inttemp=nums[j];
【算法】手撕快速排序白衣神棍八股文排序算法数据结构算法快速排序
快速排序的思想任取一个元素作为枢轴，然后想办法把这个区间划分为两部分，小于等于枢轴的放左边，大于等于枢轴的放右边然后递归处理左右区间，直到空或只剩一个具体动画演示详见数据结构合集-快速排序(算法过程,效率分析,稳定性分析)Lomuto分区方案（单边扫描法）publicstaticvoidquickSort(int[]nums){subSort(nums,0,nums.length-1);}priv
想学习人工智能、大语言模型？这份学习路线与免费学习资源最值得推荐 hhaiming_ 人工智能学习语言模型
想学习人工智能吗？但不知道如何开始？要熟练掌握人工智能相关的技术，光学习很多课程是不够的。为了摆脱只是跟着教程学习，你需要亲自动手，从头开始编写算法，动手实践，并通过使用人工智能解决问题来做一些有趣的边项目。自上而下的方法这份课程采用自上而下的方法——先编码，后理论。建议大家在必要时才进行学习。即，如果我需要解决某个问题或制作一个原型，我会四处寻找所需的信息，学习、理解然后进行实践。例如，我目标是
终于！有人总结了大模型学习资料！ AI产品经理学习 transformer 语言模型人工智能数据库
大家好，我发现了一个大模型学习的神库，包含大量LLM教材和资料，并绘制了学习路线图。可以帮助快速掌握大模型的应用和开发技巧。前排提示，文末有大模型AGI-CSDN独家资料包哦！GitHub地址：https://github.com/mlabonne/llm-courseLLM基础知识1.机器学习之数学基石在踏足机器学习的殿堂之前，深入理解其背后的数学原理至关重要。线性代数：它如同桥梁，连接着算法与
mongodb3.03开启认证 21jhf mongodb
下载了最新mongodb3.03版本，当使用--auth 参数命令行开启mongodb用户认证时遇到很多问题，现总结如下：（百度上搜到的基本都是老版本的，看到db.addUser的就是，请忽略） Windows下我做了一个bat文件，用来启动mongodb，命令行如下： mongod --dbpath db\data --port 27017 --directoryperdb --logp
【Spark103】Task not serializable bit1129 Serializable
Task not serializable是Spark开发过程最令人头疼的问题之一，这里记录下出现这个问题的两个实例，一个是自己遇到的，另一个是stackoverflow上看到。等有时间了再仔细探究出现Task not serialiazable的各种原因以及出现问题后如何快速定位问题的所在，至少目前阶段碰到此类问题，没有什么章法 1. package spark.exampl
你所熟知的 LRU(最近最少使用) dalan_123 java
关于LRU这个名词在很多地方或听说，或使用，接下来看下lru缓存回收的实现 1、大体的想法 a、查询出最近最晚使用的项 b、给最近的使用的项做标记通过使用链表就可以完成这两个操作，关于最近最少使用的项只需要返回链表的尾部；标记最近使用的项，只需要将该项移除并放置到头部，那么难点就出现你如何能够快速在链表定位对应的该项？这时候多
Javascript 跨域周凡杨 JavaScript jsonp 跨域 cross-domain
linux下安装apache服务器 g21121 apache
安装apache 下载windows版本apache，下载地址：http://httpd.apache.org/download.cgi 1.windows下安装apache Windows下安装apache比较简单，注意选择路径和端口即可，这里就不再赘述了。 2.linux下安装apache：下载之后上传到linux的相关目录，这里指定为/home/apach
FineReport的JS编辑框和URL地址栏语法简介老A不折腾 finereport web报表报表软件语法总结
JS编辑框： 1.FineReport的js。作为一款BS产品，browser端的JavaScript是必不可少的。 FineReport中的js是已经调用了finereport.js的。大家知道，预览报表时，报表servlet会将cpt模板转为html，在这个html的head头部中会引入FineReport的js，这个finereport.js中包含了许多内置的fun
根据STATUS信息对MySQL进行优化墙头上一根草 status
mysql 查看当前正在执行的操作，即正在执行的sql语句的方法为: show processlist 命令 mysql> show global status;可以列出MySQL服务器运行各种状态值，我个人较喜欢的用法是show status like '查询值%';一、慢查询mysql> show variab
我的spring学习笔记7-Spring的Bean配置文件给Bean定义别名 aijuans Spring 3
本文介绍如何给Spring的Bean配置文件的Bean定义别名？原始的 <bean id="business" class="onlyfun.caterpillar.device.Business"> <property name="writer"> <ref b
高性能mysql 之性能剖析 annan211 性能 mysql mysql 性能剖析剖析
1 定义性能优化 mysql服务器性能，此处定义为响应时间。在解释性能优化之前，先来消除一个误解，很多人认为，性能优化就是降低cpu的利用率或者减少对资源的使用。这是一个陷阱。资源时用来消耗并用来工作的，所以有时候消耗更多的资源能够加快查询速度，保持cpu忙绿，这是必要的。很多时候发现编译进了新版本的InnoDB之后，cpu利用率上升的很厉害，这并不
主外键和索引唯一性约束百合不是茶索引唯一性约束主外键约束联机删除
目标;第一步;创建两张表用户表和文章表第二步;发表文章 1,建表; ---用户表 BlogUsers --userID唯一的 --userName --pwd --sex create
线程的调度 bijian1013 java 多线程 thread 线程的调度 java多线程
1. Java提供一个线程调度程序来监控程序中启动后进入可运行状态的所有线程。线程调度程序按照线程的优先级决定应调度哪些线程来执行。 2. 多数线程的调度是抢占式的（即我想中断程序运行就中断，不需要和将被中断的程序协商） a)
查看日志常用命令 bijian1013 linux 命令 unix
一.日志查找方法，可以用通配符查某台主机上的所有服务器grep "关键字" /wls/applogs/custom-*/error.log 二.查看日志常用命令1.grep '关键字' error.log：在error.log中搜索'关键字'2.grep -C10 '关键字' error.log：显示关键字前后10行记录3.grep '关键字' error.l
【持久化框架MyBatis3一】MyBatis版HelloWorld bit1129 helloworld
MyBatis这个系列的文章，主要参考《Java Persistence with MyBatis 3》。样例数据本文以MySQL数据库为例，建立一个STUDENTS表，插入两条数据，然后进行单表的增删改查 CREATE TABLE STUDENTS ( stud_id int(11) NOT NULL AUTO_INCREMENT,
【Hadoop十五】Hadoop Counter bit1129 hadoop
1. 只有Map任务的Map Reduce Job File System Counters FILE: Number of bytes read=3629530 FILE: Number of bytes written=98312 FILE: Number of read operations=0 FILE: Number of lar
解决Tomcat数据连接池无法释放 ronin47 tomcat 连接池　优化
近段时间，公司的检测中心报表系统(SMC)的开发人员时不时找到我，说用户老是出现无法登录的情况。前些日子因为手头上有Jboss集群的测试工作，发现用户不能登录时，都是在Tomcat中将这个项目Reload一下就好了，不过只是治标而已，因为大概几个小时之后又会再次出现无法登录的情况。今天上午，开发人员小毛又找到我，要我协助将这个问题根治一下，拖太久用户难保不投诉。简单分析了一
java-75-二叉树两结点的最低共同父结点 bylijinnan java
import java.util.LinkedList; import java.util.List; import ljn.help.*; public class BTreeLowestParentOfTwoNodes { public static void main(String[] args) { /* * node data is stored in
行业垂直搜索引擎网页抓取项目 carlwu Lucene Nutch Heritrix Solr
公司有一个搜索引擎项目，希望各路高人有空来帮忙指导，谢谢！这是详细需求：（1）通过提供的网站地址(大概100-200个网站)，网页抓取程序能不断抓取网页和其它类型的文件（如Excel、PDF、Word、ppt及zip类型），并且程序能够根据事先提供的规则，过滤掉不相干的下载内容。（2）程序能够搜索这些抓取的内容，并能对这些抓取文件按照油田名进行分类，然后放到服务器不同的目录中。
[通讯与服务]在总带宽资源没有大幅增加之前,不适宜大幅度降低资费 comsci 资源
降低通讯服务资费，就意味着有更多的用户进入，就意味着通讯服务提供商要接待和服务更多的用户，在总体运维成本没有由于技术升级而大幅下降的情况下，这种降低资费的行为将导致每个用户的平均带宽不断下降，而享受到的服务质量也在下降，这对用户和服务商都是不利的。。。。。。。。 &nbs
Java时区转换及时间格式 Cwind java
本文介绍Java API 中 Date, Calendar, TimeZone和DateFormat的使用，以及不同时区时间相互转化的方法和原理。问题描述：向处于不同时区的服务器发请求时需要考虑时区转换的问题。譬如，服务器位于东八区（北京时间，GMT+8:00），而身处东四区的用户想要查询当天的销售记录。则需把东四区的“今天”这个时间范围转换为服务器所在时区的时间范围。
readonly,只读，不可用 dashuaifu js jsp disable readOnly readOnly
readOnly 和 readonly 不同，在做js开发时一定要注意函数大小写和jsp黄线的警告！！！我就经历过这么一件事：使用readOnly在某些浏览器或同一浏览器不同版本有的可以实现“只读”功能，有的就不行，而且函数readOnly有黄线警告！！！就这样被折磨了不短时间！！！（期间使用过disable函数，但是发现disable函数之后后台接收不到前台的的数据！！！）
LABjs、RequireJS、SeaJS 介绍 dcj3sjt126com js Web
LABjs 的核心是 LAB（Loading and Blocking）：Loading 指异步并行加载，Blocking 是指同步等待执行。LABjs 通过优雅的语法（script 和 wait）实现了这两大特性，核心价值是性能优化。LABjs 是一个文件加载器。RequireJS 和 SeaJS 则是模块加载器，倡导的是一种模块化开发理念，核心价值是让 JavaScript 的模块化开发变得更
[应用结构]入口脚本 dcj3sjt126com PHP yii2
入口脚本入口脚本是应用启动流程中的第一环，一个应用（不管是网页应用还是控制台应用）只有一个入口脚本。终端用户的请求通过入口脚本实例化应用并将将请求转发到应用。 Web 应用的入口脚本必须放在终端用户能够访问的目录下，通常命名为 index.php，也可以使用 Web 服务器能定位到的其他名称。控制台应用的入口脚本一般在应用根目录下命名为 yii（后缀为.php），该文
haoop shell命令 eksliang hadoop hadoop shell
cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail test text
MultiStateView不同的状态下显示不同的界面 gundumw100 android
只要将指定的view放在该控件里面，可以该view在不同的状态下显示不同的界面，这对ListView很有用，比如加载界面，空白界面，错误界面。而且这些见面由你指定布局，非常灵活。 PS：ListView虽然可以设置一个EmptyView，但使用起来不方便，不灵活，有点累赘。 <com.kennyc.view.MultiStateView xmlns:android=&qu
jQuery实现页面内锚点平滑跳转 ini JavaScript html jquery html5 css
平时我们做导航滚动到内容都是通过锚点来做，刷的一下就直接跳到内容了，没有一丝的滚动效果，而且 url 链接最后会有“小尾巴”，就像#keleyi，今天我就介绍一款 jquery 做的滚动的特效，既可以设置滚动速度，又可以在 url 链接上没有“小尾巴”。效果体验：http://keleyi.com/keleyi/phtml/jqtexiao/37.htmHTML文件代码： &
kafka offset迁移 kane_xie kafka
在早前的kafka版本中（0.8.0），offset是被存储在zookeeper中的。到当前版本（0.8.2）为止，kafka同时支持offset存储在zookeeper和offset manager（broker）中。从官方的说明来看，未来offset的zookeeper存储将会被弃用。因此现有的基于kafka的项目如果今后计划保持更新的话，可以考虑在合适
android > 搭建 cordova 环境 mft8899 android
1 , 安装 node.js http://nodejs.org node -v 查看版本 2, 安装 npm 可以先从 https://github.com/isaacs/npm/tags 下载源码解压到
java封装的比较器，比较是否全相同，获取不同字段名字 qifeifei
非常实用的java比较器，贴上代码： import java.util.HashSet; import java.util.List; import java.util.Set; import net.sf.json.JSONArray; import net.sf.json.JSONObject; import net.sf.json.JsonConfig; i
记录一些函数用法 .Aky. 位运算 PHP 数据库函数 IP
高手们照旧忽略。想弄个全天朝IP段数据库，找了个今天最新更新的国内所有运营商IP段，copy到文件，用文件函数，字符串函数把玩下。分割出startIp和endIp这样格式写入.txt文件，直接用phpmyadmin导入.csv文件的形式导入。（生命在于折腾，也许你们觉得我傻X，直接下载人家弄好的导入不就可以，做自己的菜鸟，让别人去说吧）当然用到了ip2long()函数把字符串转为整型数
sublime text 3 rust wudixiaotie Sublime Text
1.sublime text 3 => install package => Rust 2.cd ~/.config/sublime-text-3/Packages 3.mkdir rust 4.git clone https://github.com/sp0/rust-style 5.cd rust-style 6.cargo build --release 7.ctrl

Rsync 实现原理

Rsync 实现原理

前言

进程与角色： 常用术语介绍

进程启动

The File List

The Pipeline

The Generator

The Sender

The Receiver

The Daemon

The Rsync Protocol

notes

Sync Algorithm: RSync vs. RDC

你可能感兴趣的:(算法,应用服务器,数据挖掘,网络应用,网络协议)

进程与角色：常用术语介绍