骏马金龙

rsync算法原理和工作流程分析

本文通过示例详细分析rsync算法原理和rsync的工作流程，是对rsync官方技术报告和官方推荐文章的解释。本文不会介绍如何使用rsync命令(见rsync基本用法)，而是详细解释它如何实现高效的增量传输。

以下是rsync系列篇：
　 1.rsync(一)：基本命令和用法
　 2.rsync(二)：inotify+rsync详细说明和sersync
　 3.rsync算法原理和工作流程分析
　 4.rsync技术报告(翻译)
　 5.rsync工作机制(翻译)
　 6.man rsync翻译(rsync命令中文手册)

在开始分析算法原理之前，简单说明下rsync的增量传输功能。

假设待传输文件为A，如果目标路径下没有文件A，则rsync会直接传输文件A，如果目标路径下已存在文件A，则发送端视情况决定是否要传输文件A。rsync默认使用"quick check"算法，它会比较源文件和目标文件(如果存在)的文件大小和修改时间mtime，如果两端文件的大小或mtime不同，则发送端会传输该文件，否则将忽略该文件。

如果"quick check"算法决定了要传输文件A，它不会传输整个文件A，而是只传源文件A和目标文件A所不同的部分，这才是真正的增量传输。

也就是说，rsync的增量传输体现在两个方面：文件级的增量传输和数据块级别的增量传输。文件级别的增量传输是指源主机上有，但目标主机上没有将直接传输该文件，数据块级别的增量传输是指只传输两文件所不同的那一部分数据。但从本质上来说，文件级别的增量传输是数据块级别增量传输的特殊情况。通读本文后，很容易理解这一点。

1.1 需要解决的问题

假设主机α上有文件A，主机β上有文件B(实际上这两文件是同名文件，此处为了区分所以命名为A和B)，现在要让B文件和A文件保持同步。

最简单的方法是将A文件直接拷贝到β主机上。但如果文件A很大，且B和A是相似的(意味着两文件实际内容只有少部分不同)，拷贝整个文件A可能会消耗不少时间。如果可以拷贝A和B不同的那一小部分，则传输过程会很快。rsync增量传输算法就充分利用了文件的相似性，解决了远程增量拷贝的问题。

假设文件A的内容为"123xxabc def"，文件B的内容为"123abcdefg"。A与B相比，相同的数据部分有123/abc/def，A中多出的内容为xx和一个空格，但文件B比文件A多出了数据g。最终的目标是让B和A的内容完全相同。

如果采用rsync增量传输算法，α主机将只传输文件A中的xx和空格数据给β主机，对于那些相同内容123/abc/def，β主机会直接从B文件中拷贝。根据这两个来源的数据，β主机就能组建成一个文件A的副本，最后将此副本文件重命名并覆盖掉B文件就保证了同步。

虽然看上去过程很简单，但其中有很多细节需要去深究。例如，α主机如何知道A文件中哪些部分和B文件不同，β主机接收了α主机发送的A、B不同部分的数据，如何组建文件A的副本。

1.2 rsync增量传输算法原理

假设执行的rsync命令是将A文件推到β主机上使得B文件和A文件保持同步，即主机α是源主机，是数据的发送端(sender)，β是目标主机，是数据的接收端(receiver)。在保证B文件和A文件同步时，大致有以下6个过程：

(1).α主机告诉β主机文件A待传输。

(2).β主机收到信息后，将文件B划分为一系列大小固定的数据块(建议大小在500-1000字节之间)，并以chunk号码对数据块进行编号，同时还会记录数据块的起始偏移地址以及数据块长度。显然最后一个数据块的大小可能更小。

对于文件B的内容"123abcdefg"来说，假设划分的数据块大小为3字节，则根据字符数划分成了以下几个数据块：

count=4 n=3 rem=1    这表示划分了4个数据块，数据块大小为3字节，剩余1字节给了最后一个数据块
chunk[0]：offset=0 len=3 该数据块对应的内容为123
chunk[1]：offset=3 len=3 该数据块对应的内容为abc
chunk[2]：offset=6 len=3 该数据块对应的内容为def
chunk[3]：offset=9 len=1 该数据块对应的内容为g

当然，实际信息中肯定是不会包括文件内容的。

(3).β主机对文件B的每个数据块根据其内容都计算两个校验码：32位的弱滚动校验码(rolling checksum)和128位的MD4强校验码(现在版本的rsync使用的已经是128位的MD5强校验码)。并将文件B计算出的所有rolling checksum和强校验码跟随在对应数据块chunk[N]后形成校验码集合，然后发送给主机α。

也就是说，校验码集合的内容大致如下：其中sum1为rolling checksum，sum2为强校验码。

chunk[0] sum1=3ef2c827 sum2=3efa923f8f2e7
chunk[1] sum1=57ac2aaf sum2=aef2dedba2314
chunk[2] sum1=92d7edb4 sum2=a6sd6a9d67a12
chunk[3] sum1=afe74939 sum2=90a12dfe7485c

需要注意，不同内容的数据块计算出的rolling checksum是有可能相同的，但是概率非常小。

(4).当α主机接收到文件B的校验码集合后，α主机将对此校验码集合中的每个rolling checksum计算16位长度的hash值，并将每216个hash值按照hash顺序放入一个hash table中，hash表中的每一个hash条目都指向校验码集合中它所对应的rolling checksum的chunk号码，然后对校验码集合根据hash值进行排序，这样排序后的校验码集合中的顺序就能和hash表中的顺序对应起来。

所以，hash表和排序后的校验码集合对应关系大致如下：假设hash表中的hash值是根据首个字符按照[0-9a-f]的顺序进行排序的。

同样需要注意，不同rolling checksum计算出的hash值也是有可能会相同的，概率也比较小，但比rolling checksum出现重复的概率要大一些。

(5).随后主机α将对文件A进行处理。处理的过程是从第1个字节开始取相同大小的数据块，并计算它的校验码和校验码集合中的校验码进行匹配。如果能匹配上校验码集合中的某个数据块条目，则表示该数据块和文件B中数据块相同，它不需要传输，于是主机α直接跳转到该数据块的结尾偏移地址，从此偏移处继续取数据块进行匹配。如果不能匹配校验码集合中的数据块条目，则表示该数据块是非匹配数据块，它需要传输给主机β，于是主机α将跳转到下一个字节，从此字节处继续取数据块进行匹配。注意，匹配成功时跳过的是整个匹配数据块，匹配不成功时跳过的仅是一个字节。可以结合下一小节的示例来理解。

上面说的数据块匹配只是一种描述，具体的匹配行为需要进行细化。rsync算法将数据块匹配过程分为3个层次的搜索匹配过程。

首先，主机α会对取得的数据块根据它的内容计算出它的rolling checksum，再根据此rolling checksum计算出hash值。

然后，将此hash值去和hash表中的hash条目进行匹配，这是第一层次的搜索匹配过程，它比较的是hash值。如果在hash表中能找到匹配项，则表示该数据块存在潜在相同的可能性，于是进入第二层次的搜索匹配。

第二层次的搜索匹配是比较rolling checksum。由于第一层次的hash值匹配到了结果，所以将搜索校验码集合中与此hash值对应的rolling checksum。由于校验码集合是按照hash值排序过的，所以它的顺序和hash表中的顺序一致，也就是说只需从此hash值对应的rolling chcksum开始向下扫描即可。扫描过程中，如果A文件数据块的rolling checksum能匹配某项，则表示该数据块存在潜在相同的可能性，于是停止扫描，并进入第三层次的搜索匹配以作最终的确定。或者如果没有扫描到匹配项，则说明该数据块是非匹配块，也将停止扫描，这说明rolling checksum不同，但根据它计算的hash值却发生了小概率重复事件。

第三层次的搜索匹配是比较强校验码。此时将对A文件的数据块新计算一个强校验码(在第三层次之前，只对A文件的数据块计算了rolling checksum和它的hash值)，并将此强校验码与校验码集合中对应强校验码匹配，如果能匹配则说明数据块是完全相同的，不能匹配则说明数据块是不同的，然后开始取下一个数据块进行处理。

之所以要额外计算hash值并放入hash表，是因为比较rolling checksum的性能不及hash值比较，且通过hash搜索的算法性能非常高。由于hash值重复的概率足够小，所以对绝大多数内容不同的数据块都能直接通过第一层次搜索的hash值比较出来，即使发生了小概率hash值重复事件，还能迅速定位并比较更小概率重复的rolling checksum。即使不同内容计算的rolling checksum也可能出现重复，但它的重复概率比hash值重复概率更小，所以通过这两个层次的搜索就能比较出几乎所有不同的数据块。假设不同内容的数据块的rolling checksum还是出现了小概率重复，它将进行第三层次的强校验码比较，它采用的是MD4(现在是MD5)，这种算法具有"雪崩效应"，只要一点点不同，结果都是天翻地覆的不同，所以在现实使用过程中，完全可以假设它能做最终的比较。

数据块大小会影响rsync算法的性能。如果数据块大小太小，则数据块的数量就太多，需要计算和匹配的数据块校验码就太多，性能就差，而且出现hash值重复、rolling checksum重复的可能性也增大；如果数据块大小太大，则可能会出现很多数据块都无法匹配的情况，导致这些数据块都被传输，降低了增量传输的优势。所以划分合适的数据块大小是非常重要的，默认情况下，rsync会根据文件大小自动判断数据块大小，但rsync命令的"-B"(或"--block-size")选项支持手动指定大小，如果手动指定，官方建议大小在500-1000字节之间。

(6).当α主机发现是匹配数据块时，将只发送这个匹配块的附加信息给β主机。同时，如果两个匹配数据块之间有非匹配数据，则还会发送这些非匹配数据。当β主机陆陆续续收到这些数据后，会创建一个临时文件，并通过这些数据重组这个临时文件，使其内容和A文件相同。临时文件重组完成后，修改该临时文件的属性信息(如权限、所有者、mtime等)，然后重命名该临时文件替换掉B文件，这样B文件就和A文件保持了同步。

1.3 通过示例分析rsync算法

前面说了这么多理论，可能已经看的云里雾里，下面通过A和B文件的示例来详细分析上一小节中的增量传输算法原理，由于上一小节中的过程(1)-(4)，已经给出了示例，所以下面将继续分析过程(5)和过程(6)。

先看文件B(内容为"123abcdefg")排序后的校验码集合以及hash表。

当主机α开始处理文件A时，对于文件A的内容"123xxabc def"来说，从第一个字节开始取大小相同的数据块，所以取得的第一个数据块的内容是"123"，由于和文件B的chunk[0]内容完全相同，所以α主机对此数据块计算出的rolling checksum值肯定是"3ef2e827"，对应的hash值为"e827"。于是α主机将此hash值去匹配hash表，匹配过程中发现指向chunk[0]的hash值能匹配上，于是进入第二层次的rolling checksum比较，也即从此hash值指向的chunk[0]的条目处开始向下扫描。扫描过程中发现扫描的第一条信息(即chunk[0]对应的条目)的rollign checksum就能匹配上，所以扫描终止，于是进入第三层次的搜索匹配，这时α主机将对"123"这个数据块新计算一个强校验码，与校验码集合中chunk[0]对应的强校验码做比较，最终发现能匹配上，于是确定了文件A中的"123"数据块是匹配数据块，不需要传输给β主机。

虽然匹配数据块不用传输，但匹配的相关信息需要立即传输给β主机，否则β主机不知道如何重组文件A的副本。匹配块需要传输的信息包括：匹配的是B文件中的chunk[0]数据块，在文件A中偏移该数据块的起始偏移地址为第1个字节，长度为3字节。

数据块"123"的匹配信息传输完成后，α主机将取第二个数据块进行处理。本来应该是从第2个字节开始取数据块的，但由于数据块"123"中3个字节完全匹配成功，所以可以直接跳过整个数据块"123"，即从第4个字节开始取数据块，所以α主机取得的第2个数据块内容为"xxa"。同样，需要计算它的rolling checksum和hash值，并搜索匹配hash表中的hash条目，发现没有任何一条hash值可以匹配上，于是立即确定该数据块是非匹配数据块。

此时α主机将继续向前取A文件中的第三个数据块进行处理。由于第二个数据块没有匹配上，所以取第三个数据块时只跳过了一个字节的长度，即从第5个字节开始取，取得的数据块内容为"xab"。经过一番计算和匹配，发现这个数据块和第二个数据块一样是无法匹配的数据块。于是继续向前跳过一个字节，即从第6个字节开始取第四个数据块，这次取得的数据块内容为"abc"，这个数据块是匹配数据块，所以和第一个数据块的处理方式是一样的，唯一不同的是第一个数据块到第四个数据块，中间两个数据块是非匹配数据块，于是在确定第四个数据块是匹配数据块后，会将中间的非匹配内容(即123xxabc中间的xx)逐字节发送给β主机。

(前文说过，hash值和rolling checksum是有小概率发生重复，出现重复时匹配如何进行？见本小节的尾部)

依此方式处理完A中所有数据块，最终有3个匹配数据块chunk[0]、chunk[1]和chunk[2]，以及2段非匹配数据"xx"和" "。这样β主机就收到了匹配数据块的匹配信息以及逐字节的非匹配纯数据，这些数据是β主机重组文件A副本的关键信息。它的大致内容如下：

chunk[0] of size 3 at 0 offset=0
data receive 2 at 3
chunk[1] of size 3 at 3 offset=5
data receive 1 at 8
chunk[2] of size 3 at 6 offset=9

为了说明这段信息，首先看文件A和文件B的内容，并标出它们的偏移地址。

对于"chunk[0] of size 3 at 0 offset=0"，这一段表示这是一个匹配数据块，匹配的是文件B中的chunk[0]，数据块大小为3字节，关键词at表示这个匹配块在文件B中的起始偏移地址为0，关键词offset表示这个匹配块在文件A中起始偏移地址也为0，它也可以认为是重组临时文件中的偏移。也就是说，在β主机重组文件时，将从文件B的"at 0"偏移处拷贝长度为3字节的chunk[0]对应的数据块，并将这个数据块内容写入到临时文件中的offset=0偏移处，这样临时文件中就有了第一段数据"123"。

对于"data receive 2 at 3"，这一段表示这是接收的纯数据信息，不是匹配数据块。2表示接收的数据字节数，"at 3"表示在临时文件的起始偏移3处写入这两个字节的数据。这样临时文件就有了包含了数据"123xx"。

对于"chunk[1] of size 3 at 3 offset=5"，这一段表示是匹配数据块，表示从文件B的起始偏移地址at=3处拷贝长度为3字节的chunk[1]对应的数据块，并将此数据块内容写入在临时文件的起始偏移offset=5处，这样临时文件就有了"123xxabc"。

对于"data receive 1 at 8"，这一说明接收了纯数据信息，表示将接收到的1个字节的数据写入到临时文件的起始偏移地址8处，所以临时文件中就有了"123xxabc "。

最后一段"chunk[2] of size 3 at 6 offset=9"，表示从文件B的起始偏移地址at=6处拷贝长度为3字节的chunk[2]对应的数据块，并将此数据块内容写入到临时文件的起始偏移offset=9处，这样临时文件就包含了"123xxabc def"。到此为止，临时文件就重组结束了，它的内容和α主机上A文件的内容是完全一致的，然后只需将此临时文件的属性修改一番，并重命名替换掉文件B即可，这样就将文件B和文件A进行了同步。

整个过程如下图：

需要注意的是，α主机不是搜索完所有数据块之后才将相关数据发送给β主机的，而是每搜索出一个匹配数据块，就会立即将匹配块的相关信息以及当前匹配块和上一个匹配块中间的非匹配数据发送给β主机，并开始处理下一个数据块，当β主机每收到一段数据后会立即将将其重组到临时文件中。因此，α主机和β主机都尽量做到了不浪费任何资源。

1.3.1 hash值和rolling checksum重复时的匹配过程

在上面的示例分析中，没有涉及hash值重复和rolling checksum重复的情况，但它们有可能会重复，虽然重复后的匹配过程是一样的，但可能不那么容易理解。

还是看B文件排序后的校验码集合。

当文件A处理数据块时，假设处理的是第2个数据块，它是非匹配数据块，对此数据块会计算rolling checksum和hash值。假设此数据块的hash值从hash表中匹配成功，例如匹配到了上图中"4939"这个值，于是会将此第二个数据块的rolling checksum与hash值"4939"所指向的chunk[3]的rolling checksum作比较，hash值重复且rolling checksum重复的可能性几乎趋近于0，所以就能确定此数据块是非匹配数据块。

考虑一种极端情况，假如文件B比较大，划分的数据块数量也比较多，那么B文件自身包含的数据块的rolling checksum就有可能会出现重复事件，且hash值也可能会出现重复事件。

例如chunk[0]和chunk[3]的rolling checksum不同，但根据rolling checksum计算的hash值却相同，此时hash表和校验码集合的对应关系大致如下：

如果文件A中正好有数据块的hash值能匹配到"c827"，于是准备比较rolling checksum，此时将从hash值"c827"指向的chunk[0]向下扫描校验码集合。当扫描过程中发现数据块的rolling checksum正好能匹配到某个rolling checksum，如chunk[0]或chunk[3]对应的rolling checksum，则扫描终止，并进入第三层次的搜索匹配。如果向下扫描的过程中发现直到chunk[2]都没有找到能匹配的rolling checksum，则扫描终止，因为chunk[2]的hash值和数据块的hash值已经不同，最终确定该数据块是非匹配数据块，于是α主机继续向前处理下一个数据块。

假如文件B中数据块的rolling checksum出现了重复(这只说明一件事，你太幸运)，将只能通过强校验码来匹配。

1.4 rsync工作流程分析

上面已经把rsync增量传输的核心分析过了，下面将分析rsync对增量传输算法的实现方式以及rsync传输的整个过程。在这之前，有必要先解释下rsync传输过程中涉及的client/server、sender、receiver、generator等相关概念。

1.4.1 几个进程和术语

rsync有3种工作方式。一是本地传输方式，二是使用远程shell连接方式，三是使用网络套接字连接rsync daemon模式。

使用远程shell如ssh连接方式时，本地敲下rsync命令后，将请求和远程主机建立远程shell连接如ssh连接，连接建立成功后，在远程主机上将fork远程shell进程调用远程rsync程序，并将rsync所需的选项通过远程shell命令如ssh传递给远程rsync。这样两端就都启动了rsync，之后它们将通过管道的方式(即使它们之间是本地和远程的关系)进行通信。

使用网络套接字连接rsync daemon时，当通过网络套接字和远程已运行好的rsync建立连接时，rsync daemon进程会创建一个子进程来响应该连接并负责后续该连接的所有通信。这样两端也都启动了连接所需的rsync，此后通信方式是通过网络套接字来完成的。

本地传输其实是一种特殊的工作方式，首先rsync命令执行时，会有一个rsync进程，然后根据此进程fork另一个rsync进程作为连接的对端，连接建立之后，后续所有的通信将采用管道的方式。

无论使用何种连接方式，发起连接的一端被称为client，也即执行rsync命令的一段，连接的另一端称为server端。注意，server端不代表rsync daemon端。server端在rsync中是一个通用术语，是相对client端而言的，只要不是client端，都属于server端，它可以是本地端，也可以是远程shell的对端，还可以是远程rsync daemon端，这和大多数daemon类服务的server端不同。

rsync的client和server端的概念存活周期很短，当client端和server端都启动好rsync进程并建立好了rsync连接(管道、网络套接字)后，将使用sender端和receiver端来代替client端和server端的概念。sender端为文件发送端，receiver端为文件接收端。

当两端的rsync连接建立后，sender端的rsync进程称为sender进程，该进程负责sender端所有的工作。receiver端的rsync进程称为receiver进程，负责接收sender端发送的数据，以及完成文件重组的工作。receiver端还有一个核心进程——generator进程，该进程负责在receiver端执行"--delete"动作、比较文件大小和mtime以决定文件是否跳过、对每个文件划分数据块、计算校验码以及生成校验码集合，然后将校验码集合发送给sender端。

rsync的整个传输过程由这3个进程完成，它们是高度流水线化的，generator进程的输出结果作为sender端的输入，sender端的输出结果作为recevier端的输入。即：

generator进程-->sender进程-->receiver进程

虽然这3个进程是流水线式的，但不意味着它们存在数据等待的延迟，它们是完全独立、并行工作的。generator计算出一个文件的校验码集合发送给sender，会立即计算下一个文件的校验码集合，而sender进程一收到generator的校验码集合会立即开始处理该文件，处理文件时每遇到一个匹配块都会立即将这部分相关数据发送给receiver进程，然后立即处理下一个数据块，而receiver进程收到sender发送的数据后，会立即开始重组工作。也就是说，只要进程被创建了，这3个进程之间是不会互相等待的。

另外，流水线方式也不意味着进程之间不会通信，只是说rsync传输过程的主要工作流程是流水线式的。例如receiver进程收到文件列表后就将文件列表交给generator进程。

1.4.2 rsync整个工作流程

假设在α主机上执行rsync命令，将一大堆文件推送到β主机上。

1.首先client和server建立rsync通信的连接，远程shell连接方式建立的是管道，连接rsync daemon时建立的是网络套接字。

2.rsync连接建立后，sender端的sender进程根据rsync命令行中给出的源文件收集待同步文件，将这些文件放入文件列表(file list)中并传输给β主机。在创建文件列表的过程中，有几点需要说明：

(1).创建文件列表时，会先按照目录进行排序，然后对排序后的文件列表中的文件进行编号，以后将直接使用文件编号来引用文件。

(2).文件列表中还包含文件的一些属性信息，包括：权限mode，文件大小len，所有者和所属组uid/gid，最近修改时间mtime等，当然，有些信息是需要指定选项后才附带的，例如不指定"-o"和"-g"选项将不包含uid/gid，指定"--checksum"公还将包含文件级的checksum值。

(3).发送文件列表时不是收集完成后一次性发送的，而是按照顺序收集一个目录就发送一个目录，同理receiver接收时也是一个目录一个目录接收的，且接收到的文件列表是已经排过序的。

(4).如果rsync命令中指定了exclude或hide规则，则被这些规则筛选出的文件会在文件列表中标记为hide(exclude规则的本质也是hide)。带有hide标志的文件对receiver是不可见的，所以receiver端会认为sender端没有这些被hide的文件。

3.receiver端从一开始接收到文件列表中的内容后，立即根据receiver进程fork出generator进程。generator进程将根据文件列表扫描本地目录树，如果目标路径下文件已存在，则此文件称为basis file。

generator的工作总体上分为3步：

(1).如果rsync命令中指定了"--delete"选项，则首先在β主机上执行删除动作，删除源路径下没有，但目标路径下有的文件。

(2).然后根据file list中的文件顺序，逐个与本地对应文件的文件大小和mtime做比较。如果发现本地文件的大小或mtime与file list中的相同，则表示该文件不需要传输，将直接跳过该文件。

(3).如果发现本地文件的大小或mtime不同，则表示该文件是需要传输的文件，generator将立即对此文件划分数据块并编号，并对每个数据块计算弱滚动校验码(rolling checksum)和强校验码，并将这些校验码跟随数据块编号组合在一起形成校验码集合，然后将此文件的编号和校验码集合一起发送给sender端。发送完毕后开始处理file list中的下一个文件。

需要注意，α主机上有而β主机上没有的文件，generator会将文件列表中的此文件的校验码设置为空发送给sender。如果指定了"--whole-file"选项，则generator会将file list中的所有文件的校验码都设置为空，这样将使得rsync强制采用全量传输功能，而不再使用增量传输功能。

从下面的步骤4开始，这些步骤在前文分析rsync算法原理时已经给出了非常详细的解释，所以此处仅概括性地描述，如有不解之处，请翻到前文查看相关内容。

4.sender进程收到generator发送的数据，会读取文件编号和校验码集合。然后根据校验码集合中的弱滚动校验码(rolling checksum)计算hash值，并将hash值放入hash表中，且对校验码集合按照hash值进行排序，这样校验码集合和hash表的顺序就能完全相同。

5.sender进程对校验码集合排序完成后，根据读取到的文件编号处理本地对应的文件。处理的目的是找出能匹配的数据块(即内容完全相同的数据块)以及非匹配的数据。每当找到匹配的数据块时，都将立即发送一些匹配信息给receiver进程。当发送完文件的所有数据后，sender进程还将对此文件生成一个文件级的whole-file校验码给receiver。

6.receiver进程接收到sender发送的指令和数据后，立即在目标路径下创建一个临时文件，并按照接收到的数据和指令重组该临时文件，目的是使该文件和α主机上的文件完全一致。重组过程中，能匹配的数据块将从basis file中copy并写入到临时文件，非匹配的数据则是接收自sender端。

7.临时文件重组完成后，将对此临时文件生成文件级的校验码，并与sender端发送的whole-file校验码比较，如果能匹配成功则表示此临时文件和源文件是完全相同的，也就表示临时文件重组成功，如果校验码匹配失败，则表示重组过程中可能出错，将完全从头开始处理此源文件。

8.当临时文件重组成功后，receiver进程将修改该临时文件的属性信息，包括权限、所有者、所属组、mtime等。最后将此文件重命名并覆盖掉目标路径下已存在的文件(即basis file)。至此，文件同步完成。

1.5 根据执行过程分析rsync工作流程

为了更直观地感受上文所解释的rsync算法原理和工作流程，下面将给出两个rsync执行过程的示例，并分析工作流程，一个是全量传输的示例，一个是增量传输的示例。

要查看rsync的执行过程，执行在rsync命令行中加上"-vvvv"选项即可。

1.5.1 全量传输执行过程分析

要执行的命令为：

[root@xuexi ~]# rsync -a -vvvv /etc/cron.d /var/log/anaconda /etc/issue longshuai@172.16.10.5:/tmp

目的是将/etc/cron.d目录、/var/log/anaconda目录和/etc/issue文件传输到172.16.10.5主机上的/tmp目录下，由于/tmp目录下不存在这些文件，所以整个过程是全量传输的过程。但其本质仍然是采用增量传输的算法，只不过generator发送的校验码集合全为空而已。

以下是/etc/cron.d目录和/var/log/anaconda目录的层次结构。

以下是执行过程。

[root@xuexi ~]# rsync -a -vvvv /etc/cron.d /var/log/anaconda /etc/issue longshuai@172.16.10.5:/tmp
 
# 使用ssh(ssh为默认的远程shell)执行远程rsync命令建立连接
cmd= machine=172.16.10.5 user=longshuai path=/tmp
cmd[0]=ssh cmd[1]=-l cmd[2]=longshuai cmd[3]=172.16.10.5 cmd[4]=rsync cmd[5]=--server cmd[6]=-vvvvlogDtpre.iLsf cmd[7]=. cmd[8]=/tmp
opening connection using: ssh -l longshuai 172.16.10.5 rsync --server -vvvvlogDtpre.iLsf . /tmp
note: iconv_open("UTF-8", "UTF-8") succeeded.
longshuai@172.16.10.5's password:
 
# 双方互相发送协议版本号，并协商使用两者较低版本
(Server) Protocol versions: remote=30, negotiated=30
(Client) Protocol versions: remote=30, negotiated=30
 
######### sender端生成文件列表并发送给receiver端 #############
sending incremental file list
[sender] make_file(cron.d,*,0)       # 第一个要传输的文件目录：cron.d文件，注意，此处cron.d是待传输的文件，而不认为是目录
[sender] make_file(anaconda,*,0)     # 第二个要传输的文件目录：anaconda文件
[sender] make_file(issue,*,0)        # 第三个要传输的文件目录：issue文件
 
# 指明从文件列表的第1项开始，并确定这次要传输给receiver的项共有3个
[sender] flist start=1, used=3, low=0, high=2   
# 为这3项生成列表信息，包括此文件id，所在目录，权限模式，长度，uid/gid，最后还有一个修饰符
[sender] i=1 /etc issue mode=0100644 len=23 uid=0 gid=0 flags=5      
[sender] i=2 /var/log anaconda/ mode=040755 len=4096 uid=0 gid=0 flas=5
[sender] i=3 /etc cron.d/ mode=040755 len=51 uid=0 gid=0 flags=5     
send_file_list done
file list sent
# 唯一需要注意的是文件所在目录，例如/var/log anaconda/，但实际在命令行中指定的是/var/log/anaconda。
# 此处信息中log和anaconda使用空格分开了，这个空格非常关键。空格左边的表示隐含目录(见man rsync的"-R"选项)，
# 右边的是待传输的整个文件或目录，默认情况下将会在receiver端生成anaconda/目录，但左边隐含目录则不会创建。
# 但可以通过指定特殊选项(如"-R")，让rsync也能在receiver端同时创建隐含目录，以便创建整个目录层次结构。
# 举个例子，如果A主机的/a目录下有b、c等众多子目录，并且b目录中有d文件，现在只想传输/a/b/d并保留/a/b的目录层次结构，
# 那么可以通过特殊选项让此处的文件所在目录变为"/ a/"，关于具体的实现方法，见"rsync -R选项示例"。
 
############ sender端发送文件属性信息 #####################
# 由于前面的文件列表中有两个条目是目录，因此还要为目录中的每个文件生成属性信息并发送给receiver端
send_files starting
[sender] make_file(anaconda/anaconda.log,*,2)
[sender] make_file(anaconda/syslog,*,2)
[sender] make_file(anaconda/program.log,*,2)
[sender] make_file(anaconda/packaging.log,*,2)
[sender] make_file(anaconda/storage.log,*,2)
[sender] make_file(anaconda/ifcfg.log,*,2)
[sender] make_file(anaconda/ks-script-1uLekR.log,*,2)
[sender] make_file(anaconda/ks-script-iGpl4q.log,*,2)
[sender] make_file(anaconda/journal.log,*,2)
[sender] flist start=5, used=9, low=0, high=8
[sender] i=5 /var/log anaconda/anaconda.log mode=0100600 len=6668 uid=0 gid=0 flags=0
[sender] i=6 /var/log anaconda/ifcfg.log mode=0100600 len=3826 uid=0 gid=0 flags=0
[sender] i=7 /var/log anaconda/journal.log mode=0100600 len=1102699 uid=0 gid=0 flags=0
[sender] i=8 /var/log anaconda/ks-script-1uLekR.log mode=0100600 len=0 uid=0 gid=0 flags=0
[sender] i=9 /var/log anaconda/ks-script-iGpl4q.log mode=0100600 len=0 uid=0 gid=0 flags=0
[sender] i=10 /var/log anaconda/packaging.log mode=0100600 len=160420 uid=0 gid=0 flags=0
[sender] i=11 /var/log anaconda/program.log mode=0100600 len=27906 uid=0 gid=0 flags=0
[sender] i=12 /var/log anaconda/storage.log mode=0100600 len=78001 uid=0 gid=0 flags=0
[sender] i=13 /var/log anaconda/syslog mode=0100600 len=197961 uid=0 gid=0 flags=0
[sender] make_file(cron.d/0hourly,*,2)
[sender] make_file(cron.d/sysstat,*,2)
[sender] make_file(cron.d/raid-check,*,2)
[sender] flist start=15, used=3, low=0, high=2
[sender] i=15 /etc cron.d/0hourly mode=0100644 len=128 uid=0 gid=0 flags=0
[sender] i=16 /etc cron.d/raid-check mode=0100644 len=108 uid=0 gid=0 flags=0
[sender] i=17 /etc cron.d/sysstat mode=0100600 len=235 uid=0 gid=0 flags=0
# 从上述结果中发现，没有i=4和i=14的文件信息，因为它们是目录anaconda和cron.d的文件信息
# 还发现没有发送/etc/issue文件的信息，因为issue自身是普通文件而非目录，因此在发送目录前就发送了
############# 文件列表所有内容发送完毕 ####################
 
############### server端相关活动内容 ################
# 首先在server端启动rsync进程
server_recv(2) starting pid=13309
# 接收client第一次传输的数据，此次传输server端收到3条数据，它们是传输中根目录下的文件或目录
received 3 names
[receiver] flist start=1, used=3, low=0, high=2
[receiver] i=1 1 issue mode=0100644 len=23 gid=(0) flags=400
[receiver] i=2 1 anaconda/ mode=040755 len=4096 gid=(0) flags=405
[receiver] i=3 1 cron.d/ mode=040755 len=51 gid=(0) flags=405
recv_file_list done
# 第一次接收数据完成
############ 在receiver端启动generator进程 ########
get_local_name count=3 /tmp   # 获取本地路径名
generator starting pid=13309  # 启动generator进程
delta-transmission enabled    # 启用增量传输算法
############ generator进程设置完毕 ################
 
############# 首先处理接收到的普通文件 ##############
recv_generator(issue,1)       # generator收到receiver进程通知的文件id=1的文件issue
send_files(1, /etc/issue)
count=0 n=0 rem=0             # 此项为目标主机上的文件issue分割的数据块信息，count表示数量，n表示数据块的固定大小，
                              # rem是remain的意思，表示剩余的数据长度，也即最后一个数据块的大小，
                              # 此处因为目标端不存在issue文件，因此全部设置为0
send_files mapped /etc/issue of size 23  # sender端映射/etc/issue，使得sender可以获取到该文件的相关内容
calling match_sums /etc/issue            # sender端调用校验码匹配功能
issue
sending file_sum                         # 匹配结束后，再发送文件级的checksum给receiver端
false_alarms=0 hash_hits=0 matches=0     # 输出数据块匹配的相关统计信息
sender finished /etc/issue
# 文件/etc/issue发送完毕，因为目标上不存在issue文件，所以整个过程非常简单，直接传输issue中的全部数据即可
 
############## 开始处理目录格式的文件列表 #############
# 首先接收到两个id=2和id=3的文件
recv_generator(anaconda,2)
recv_generator(cron.d,3)
# 然后开始从文件列表的目录中获取其中的文件信息
recv_files(3) starting
# 先获取的是dir 0的目录中的文件信息
[receiver] receiving flist for dir 0
[generator] receiving flist for dir 0
received 9 names                                    # 表示从该目录中收到了9条文件信息
[generator] flist start=5, used=9, low=0, high=8    # 文件的id号从5开始，总共有9个条目
[generator] i=5 2 anaconda/anaconda.log mode=0100600 len=6668 gid=(0) flags=400
[generator] i=6 2 anaconda/ifcfg.log mode=0100600 len=3826 gid=(0) flags=400
[generator] i=7 2 anaconda/journal.log mode=0100600 len=1102699 gid=(0) flags=400
[generator] i=8 2 anaconda/ks-script-1uLekR.log mode=0100600 len=0 gid=(0) flags=400
[generator] i=9 2 anaconda/ks-script-iGpl4q.log mode=0100600 len=0 gid=(0) flags=400
[generator] i=10 2 anaconda/packaging.log mode=0100600 len=160420 gid=(0) flags=400
[generator] i=11 2 anaconda/program.log mode=0100600 len=27906 gid=(0) flags=400
[generator] i=12 2 anaconda/storage.log mode=0100600 len=78001 gid=(0) flags=400
[generator] i=13 2 anaconda/syslog mode=0100600 len=197961 gid=(0) flags=400
recv_file_list done                                 # dir 0目录中的文件信息接收完毕
[receiver] receiving flist for dir 1                # 然后获取的是dir 1的目录中的文件信息
[generator] receiving flist for dir 1
received 3 names
[generator] flist start=15, used=3, low=0, high=2
[generator] i=15 2 cron.d/0hourly mode=0100644 len=128 gid=(0) flags=400
[generator] i=16 2 cron.d/raid-check mode=0100644 len=108 gid=(0) flags=400
[generator] i=17 2 cron.d/sysstat mode=0100600 len=235 gid=(0) flags=400
recv_file_list done                                 # dir 1目录中的文件信息接收完毕
 
################# 开始传输目录dir 0及其内文件 #############
recv_generator(anaconda,4)             # generator接收目录anaconda信息，它的id=4，是否还记得上文sender未发送过id=4和
                                       # id=14的目录信息？只有先接收该目录，才能继续接收该目录中的文件
send_files(4, /var/log/anaconda)       # 因为anaconda是要在receiver端创建的目录，所以sender端先发送该目录文件
anaconda/                              # anaconda目录发送成功
set modtime of anaconda to (1494476557) Thu May 11 12:22:37 2017   # 然后再设置目录anaconda的mtime(即modify time)
 
# receiver端的anaconda目录已经建立，现在开始传输anaconda中的文件
# 以下的第一个anaconda目录中的第一个文件处理过程
recv_generator(anaconda/anaconda.log,5)          # generator进程接收id=5的anaconda/anaconda.log文件    
send_files(5, /var/log/anaconda/anaconda.log)   
count=0 n=0 rem=0                                # 计算该文件数据块相关信息
send_files mapped /var/log/anaconda/anaconda.log of size 6668    # sender端映射anaconda.log文件
calling match_sums /var/log/anaconda/anaconda.log                # 调用校验码匹配功能
anaconda/anaconda.log
sending file_sum                                 # 数据块匹配结束后，再发送文件级别的checksum给receiver端
false_alarms=0 hash_hits=0 matches=0             # 输出匹配过程中的统计信息
sender finished /var/log/anaconda/anaconda.log   # anaconda.log文件传输完成
 
recv_generator(anaconda/ifcfg.log,6)             # 开始处理anaconda中的第二个文件
send_files(6, /var/log/anaconda/ifcfg.log)
count=0 n=0 rem=0
send_files mapped /var/log/anaconda/ifcfg.log of size 3826
calling match_sums /var/log/anaconda/ifcfg.log
anaconda/ifcfg.log
sending file_sum
false_alarms=0 hash_hits=0 matches=0
sender finished /var/log/anaconda/ifcfg.log      # 第二个文件传输完毕
 
recv_generator(anaconda/journal.log,7)           # 开始处理anaconda中的第三个文件
send_files(7, /var/log/anaconda/journal.log)
count=0 n=0 rem=0
send_files mapped /var/log/anaconda/journal.log of size 1102699
calling match_sums /var/log/anaconda/journal.log
anaconda/journal.log
sending file_sum
false_alarms=0 hash_hits=0 matches=0
sender finished /var/log/anaconda/journal.log    # 第二个文件传输完毕
 
#以下类似过程省略
......
recv_generator(anaconda/syslog,13)               # 开始处理anaconda中的最后一个文件
send_files(13, /var/log/anaconda/syslog)
count=0 n=0 rem=0
send_files mapped /var/log/anaconda/syslog of size 197961
calling match_sums /var/log/anaconda/syslog
anaconda/syslog
sending file_sum
false_alarms=0 hash_hits=0 matches=0
sender finished /var/log/anaconda/syslog        # anaconda目录中所有文件传输完毕
 
################# 开始传输目录dir 1及其内文件 #############
recv_generator(cron.d,14)
send_files(14, /etc/cron.d)
cron.d/
set modtime of cron.d to (1494476430) Thu May 11 12:20:30 2017
recv_generator(cron.d/0hourly,15)
send_files(15, /etc/cron.d/0hourly)
count=0 n=0 rem=0
send_files mapped /etc/cron.d/0hourly of size 128
calling match_sums /etc/cron.d/0hourly
cron.d/0hourly
sending file_sum
false_alarms=0 hash_hits=0 matches=0
sender finished /etc/cron.d/0hourly
......类似过程省略......
recv_generator(cron.d/sysstat,17)
send_files(17, /etc/cron.d/sysstat)
count=0 n=0 rem=0
send_files mapped /etc/cron.d/sysstat of size 235
calling match_sums /etc/cron.d/sysstat
cron.d/sysstat
sending file_sum
false_alarms=0 hash_hits=0 matches=0
sender finished /etc/cron.d/sysstat
 
############## 以下是receiver端文件重组相关过程 ################
generate_files phase=1     # generator进程进入第一阶段
 
# 重组第一个文件issue
recv_files(issue)        
data recv 23 at 0   # data recv关键字表示从sender端获取的纯文件数据，23表示接收到的这一段纯数据大小为23字节，
                    # at 0表示接收的这段数据放在临时文件的起始偏移0处。
got file_sum        # 获取到sender端最后发送的文件级的checksum，并进行检查，检查通过则表示重组正式完成
set modtime of .issue.RpT9T9 to (1449655155) Wed Dec  9 17:59:15 2015  # 临时文件重组完成后，设置临时文件的mtime
renaming .issue.RpT9T9 to issue        # 最后将临时文件重命名为目标文件
# 至此，第一个文件真正完成同步
 
# 重组第二个文件列表anaconda及其内文件
recv_files(anaconda)  # 重组目录anaconda
 
recv_files(anaconda/anaconda.log)   # 重组目录anaconda中的第一个文件
data recv 6668 at 0
got file_sum
set modtime of anaconda/.anaconda.log.LAR2t1 to (1494476557) Thu May 11 12:22:37 2017
renaming anaconda/.anaconda.log.LAR2t1 to anaconda/anaconda.log     # anaconda目录中的第一个文件同步完成
 
recv_files(anaconda/ifcfg.log)               # 重组目录anaconda中的第二个文件
data recv 3826 at 0
got file_sum
set modtime of anaconda/.ifcfg.log.bZDW3S to (1494476557) Thu May 11 12:22:37 2017
renaming anaconda/.ifcfg.log.bZDW3S to anaconda/ifcfg.log     # anaconda目录中的第二个文件同步完成
 
recv_files(anaconda/journal.log)     # 重组目录anaconda中的第三个文件
data recv 32768 at 0                 # 由于每次传输的数据量最大为32kB，因此对于较大的journal.log分成了多次进行传输
data recv 32768 at 32768
data recv 32768 at 65536
..............
got file_sum
set modtime of anaconda/.journal.log.ylpZDK to (1494476557) Thu May 11 12:22:37 2017
renaming anaconda/.journal.log.ylpZDK to anaconda/journal.log       # anaconda目录中的第三个文件同步完成
.........中间类似过程省略...........
recv_files(anaconda/syslog)
data recv 32768 at 0
data recv 32768 at 32768
data recv 32768 at 65536
................
got file_sum
set modtime of anaconda/.syslog.zwQynW to (1494476557) Thu May 11 12:22:37 2017
renaming anaconda/.syslog.zwQynW to anaconda/syslog   
# 至此，anaconda及其内所有文件都同步完毕
 
# 重组第三个文件列表cron.d及其内文件
recv_files(cron.d)
recv_files(cron.d/0hourly)
......中间类似过程省略..........
recv_files(cron.d/sysstat)
data recv 235 at 0
got file_sum
set modtime of cron.d/.sysstat.m4hzgx to (1425620722) Fri Mar  6 13:45:22 2015
renaming cron.d/.sysstat.m4hzgx to cron.d/sysstat
# 至此，cron.d及其内所有文件都同步完毕
 
send_files phase=1        
touch_up_dirs: cron.d (1)  # sender进程修改上层目录cron.d的各种时间戳
set modtime of cron.d to (1494476430) Thu May 11 12:20:30 2017   # 设置cron.d目录的mtime
recv_files phase=1        
generate_files phase=2    
send_files phase=2        
send files finished        # sender进程消逝，并输出匹配的统计信息以及传输的总的纯数据量
total: matches=0  hash_hits=0  false_alarms=0 data=1577975
recv_files phase=2
generate_files phase=3
recv_files finished
generate_files finished
client_run waiting on 13088 
 
sent 1579034 bytes  received 267 bytes  242969.38 bytes/sec    # 总共发送了1579034字节的数据，此项统计包括了纯文件数据以
                                                               # 及各种非文件数据，接收到了来自receiver端的267字节的数据
total size is 1577975  speedup is 1.00     # sender端所有文件总大小为1577975字节，因为receiver端完全没有basis file，
                                           # 所以总大小等于传输的纯数据量
[sender] _exit_cleanup(code=0, file=main.c, line=1052): entered
[sender] _exit_cleanup(code=0, file=main.c, line=1052): about to call exit(0)

1.5.2 增量传输执行过程分析

要执行的命令为：

[root@xuexi ~]# rsync -vvvv /tmp/init 172.16.10.5:/tmp

目的是将/etc/init文件传输到172.16.10.5主机上的/tmp目录下，由于/tmp目录下已经存在该文件，所以整个过程是增量传输的过程。

以下是执行过程。

[root@xuexi ~]# rsync -vvvv /tmp/init 172.16.10.5:/tmp
 
# 使用ssh(ssh为默认的远程shell)执行远程rsync命令建立连接
cmd= machine=172.16.10.5 user= path=/tmp
cmd[0]=ssh cmd[1]=172.16.10.5 cmd[2]=rsync cmd[3]=--server cmd[4]=-vvvve.Lsf cmd[5]=. cmd[6]=/tmp
opening connection using: ssh 172.16.10.5 rsync --server -vvvve.Lsf . /tmp
note: iconv_open("UTF-8", "UTF-8") succeeded.
root@172.16.10.5's password:
 
# 双方互相发送协议版本号，并协商使用两者较低版本
(Server) Protocol versions: remote=30, negotiated=30
(Client) Protocol versions: remote=30, negotiated=30
[sender] make_file(init,*,0)
[sender] flist start=0, used=1, low=0, high=0
[sender] i=0 /tmp init mode=0100644 len=8640 flags=0
send_file_list done
file list sent                       
 
send_files starting  
server_recv(2) starting pid=13689    # 在远程启动receiver进程
received 1 names
[receiver] flist start=0, used=1, low=0, high=0
[receiver] i=0 1 init mode=0100644 len=8640 flags=0
recv_file_list done
get_local_name count=1 /tmp
generator starting pid=13689         # 在远程启动generator进程
delta-transmission enabled
recv_generator(init,0)
recv_files(1) starting  
gen mapped init of size 5140         # generator进程映射basis file文件(即本地的init文件)，只有映射后各进程才能获取该文件相关数据块
generating and sending sums for 0    # 生成init文件的弱滚动校验码和强校验码集合，并发送给sender端
send_files(0, /tmp/init)             # 以下generator生成的校验码集合信息
count=8 rem=240 blength=700 s2length=2 flength=5140 
count=8 n=700 rem=240                # count=8表示该文件总共计算了8个数据块的校验码，n=700表示固定数据块的大小为700字节，
                                     # rem=240(remain)表示最终剩240字节，即最后一个数据块的长度
chunk[0] offset=0 len=700 sum1=3ef2e827
chunk[0] len=700 offset=0 sum1=3ef2e827
chunk[1] offset=700 len=700 sum1=57aceaaf
chunk[1] len=700 offset=700 sum1=57aceaaf
chunk[2] offset=1400 len=700 sum1=92d7edb4
chunk[2] len=700 offset=1400 sum1=92d7edb4
chunk[3] offset=2100 len=700 sum1=afe7e939
chunk[3] len=700 offset=2100 sum1=afe7e939
chunk[4] offset=2800 len=700 sum1=fcd0e7d5
chunk[4] len=700 offset=2800 sum1=fcd0e7d5
chunk[5] offset=3500 len=700 sum1=0eaee949
chunk[5] len=700 offset=3500 sum1=0eaee949
chunk[6] offset=4200 len=700 sum1=ff18e40f
chunk[6] len=700 offset=4200 sum1=ff18e40f
chunk[7] offset=4900 len=240 sum1=858d519d
chunk[7] len=240 offset=4900 sum1=858d519d
 
# sender收到校验码集合后，准备开始数据块匹配过程
send_files mapped /tmp/init of size 8640 # sender进程映射本地的/tmp/init文件，只有映射后各进程才能获取该文件相关数据块
calling match_sums /tmp/init             # 开始调用校验码匹配功能，对/tmp/init文件进行搜索匹配
init
built hash table                         # sender端根据接收到的校验码集合中的滚动校验码生成16位长度的hash值，并将hash值放入hash表
hash search b=700 len=8640               # 第一层hash搜索，搜索的数据块大小为700字节，总搜索长度为8640，即整个/tmp/init的大小
sum=3ef2e827 k=700
hash search s->blength=700 len=8640 count=8
potential match at 0 i=0 sum=3ef2e827           # 在chunk[0]上发现潜在的匹配块，其中i表示的是sender端匹配块的编号
match at 0 last_match=0 j=0 len=700 n=0         # 最终确定起始偏移0上的数据块能完全匹配上，j表示的是校验码集合中的chunk编号。
                                                # 此过程中可能还进行了rolling checksum以及强校验码的匹配
potential match at 700 i=1 sum=57aceaaf
match at 700 last_match=700 j=1 len=700 n=0     # last_match的值是上一次匹配块的终止偏移
potential match at 1400 i=2 sum=92d7edb4
match at 1400 last_match=1400 j=2 len=700 n=0
potential match at 2100 i=3 sum=afe7e939
match at 2100 last_match=2100 j=3 len=700 n=0
potential match at 7509 i=6 sum=ff18e40f         # 在chunk[6]上发现潜在的匹配块，
match at 7509 last_match=2800 j=6 len=700 n=4709 # 此次匹配块的起始偏移地址是7509，而上一次匹配块的结尾偏移是2800，
                                                 # 中间4709字节的数据都是未匹配上的，这些数据需要以纯数据的方式发送给receiver端
done hash search      # 匹配结束
sending file_sum      # sender端匹配结束后，再生成文件级别的checksum，并发送给receiver端
false_alarms=0 hash_hits=5 matches=5    # 输出此次匹配过程中的统计信息，总共有5个匹配块，全都是hash匹配出来的，
                                        # 没有进行第二层次的rolling checksum检查
sender finished /tmp/init     # sender端完成搜索和匹配过程
send_files phase=1            # sender进程进入第一阶段
# sender进程暂时告一段落
# 进入receiver端进行操作
generate_files phase=1        # generator进程进入第一阶段
recv_files(init)              # receiver进程读取本地init文件
recv mapped init of size 5140                # receiver进程映射init文件，即basis file
##################### 以下是文件重组过程 #####################
chunk[0] of size 700 at 0 offset=0           # receiver进程从basis file中拷贝chunk[0]对应的数据块到临时文件中
chunk[1] of size 700 at 700 offset=700       # receiver进程从basis file中拷贝chunk[1]对应的数据块到临时文件中
chunk[2] of size 700 at 1400 offset=1400
chunk[3] of size 700 at 2100 offset=2100
data recv 4709 at 2800                       # receiver进程从2800偏移处开始接收sender发送的纯数据到临时文件中，共4709字节
chunk[6] of size 700 at 4200 offset=7509     # receiver进程从basis file起始偏移4200处拷贝chunk[6]对应的数据块到临时文件中
data recv 431 at 8209                        # receiver进程从8209偏移处开始接收sender发送的纯数据到临时文件中，共431字节
got file_sum                      # 获取文件级的checksum，并与sender进程发送的文件级checksum作比较
renaming .init.gd5hvw to init     # 重命名重组成功的临时文件为目标文件init
###################### 文件重组完成 ###########################
recv_files phase=1               
generate_files phase=2          
send_files phase=2               
send files finished               # sender进程结束，并在sender端输出报告：搜索过程中发现5个匹配块，且都是由16位的hash值匹配出来的，
                                  # 第二层弱检验码检查次数为0，也就是说没有hash值冲突的小概率事件发生。总共传输的纯数据为5140字节
total: matches=5  hash_hits=5  false_alarms=0 data=5140
recv_files phase=2               
generate_files phase=3         
recv_files finished               # receiver进程结束
generate_files finished           # generator进程结束
client_run waiting on 13584 
 
sent 5232 bytes  received 79 bytes  2124.40 bytes/sec  # sender端总共发送5232字节，其中包括纯数据5140字节和非文件数据，接收到79字节
total size is 8640  speedup is 1.63
[sender] _exit_cleanup(code=0, file=main.c, line=1052): entered
[sender] _exit_cleanup(code=0, file=main.c, line=1052): about to call exit(0)

1.6 从工作原理分析rsync的适用场景

(1).rsync两端耗费计算机的什么资源比较严重？

从前文中已经知道，rsync的sender端因为要多次计算、多次比较各种校验码而对cpu的消耗很高，receiver端因为要从basis file中复制数据而对io的消耗很高。但这只是rsync增量传输时的情况，如果是全量传输(如第一次同步，或显式使用了全量传输选项"--whole-file")，那么sender端不用计算、比较校验码，receiver端不用copy basis file，这和scp消耗的资源是一样的。

(2).rsync不适合对数据库文件进行实时同步。

像数据库文件这样的大文件，且是频繁访问的文件，如果使用rsync实时同步，sender端要计算、比较的数据块校验码非常多，cpu会长期居高不下，从而影响数据库提供服务的性能。另一方面，receiver端每次都要从巨大的basis file(一般提供服务的数据库文件至少都几十G)中复制大部分相同的数据块重组新文件，这几乎相当于直接cp了一个文件，它一定无法扛住巨大的io压力，再好的机器也扛不住。

所以，对频繁改变的单个大文件只适合用rsync偶尔同步一次，也就是备份的功能，它不适合实时同步。像数据库文件，要实时同步应该使用数据库自带的replication功能。

(3).可以使用rsync对大量小文件进行实时同步。

由于rsync是增量同步，所以对于receiver端已经存在的和sender端相同的文件，sender端是不会发送的，这样就使得sender端和receiver端都只需要处理少量的文件，由于文件小，所以无论是sender端的cpu还是receiver端的io都不是问题。

但是，rsync的实时同步功能是借助工具来实现的，如inotify+rsync，sersync，所以这些工具要设置合理，否则实时同步一样效率低下，不过这不是rsync导致的效率低，而是这些工具配置的问题。

你可能感兴趣的:(rsync算法原理和工作流程分析)

【算法-图论】图的定义与一些常用术语小蛋编程 C++c++算法
【算法-图论】图的定义图论编辑器1：https://csacademy.com/app/graph_editor/图论编辑器2：https://graphonline.top/ch/1.图是什么图（graph）由节点（node）和边（edge）组成。其中，节点集合记为VVV，边集合记为EEE。每条边连接两个节点，某些图的边可能具有方向性。集合元素的数量用该集合的绝对值来表示。通过对比可以看出，图比
操作系统视角下鸿蒙应用多语言的多媒体处理实践操作系统内核探秘操作系统内核揭秘 OS harmonyos wpf 华为 ai
操作系统视角下鸿蒙应用多语言的多媒体处理实践关键词：鸿蒙操作系统、多语言支持、多媒体处理、分布式架构、应用开发实践摘要：本文从鸿蒙操作系统的底层设计出发，结合多语言适配与多媒体处理两大核心场景，通过“系统能力-应用开发-用户体验”的全链路分析，揭示鸿蒙如何通过分布式架构、统一资源管理和多端协同特性，简化开发者在多语言多媒体应用中的开发复杂度。文章包含原理讲解、代码示例和实战案例，帮助开发者快速掌握
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
DeBian arm64 FireflyRK3576安装中文输入法和中文语言系统 up牛牛 linux ubuntu 运维
1.Debian配置中文环境在Debian上配置中文环境主要包括以下几个步骤：安装语言包：首先需要确保系统中已经安装了语言包。可以使用apt工具来安装：sudoaptupdatesudoaptinstalllocales2.配置locale：接下来需要配置系统的locale设置。运行以下命令打开locale的配置界面：sudodpkg-reconfigurelocales在出现的列表中选择zh_C
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
婚姻中，把婆婆当亲妈来对待，坐月子时她却让我别太矫情星小悠
婆媳间的相处，往往决定了一个家庭是否能和睦。很多人都说，只有婆婆把儿媳当成女儿来照顾，儿媳把婆婆当成亲妈来对待，彼此间的相处才能和乐融融，但是在现实中，这种和睦相处的方式却很少有。首先若不是丈夫的存在，儿媳和婆婆这辈子八竿子都打不着，更别说一起生活了，而且在婆婆心里，儿媳始终没有女儿来得亲，这就导致了细微的区别对待，更有甚者，还会认为是儿媳抢走了自己的儿子，或者害怕儿子以后会被欺负，所以在相处时总
【PTA数据结构 | C语言版】求图中关键活动
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，实现求带权的有向图中关键活动的算法。输入格式：输入首先在第一行给出两个正整数，依次为当前要创建的图的顶点数n（≤100）和边数m。随后m行，每行给出一条有向边的起点编号、终点编号、权重。顶点编号从0开始，权重（≤100）为整数。同行数字均以一个空格分隔。输出格式：按格式输出关键活动，其中u为起点编号，v为终点编号。按起点编号的
【PTA数据结构 | C语言版】最短路的交点
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目给定有向加权图G，和4个顶点u,v,s,t。假设图G中所有边的权值都非负。设计一个算法来判定“从u到v的最短路径”和“从s到t的最短路径”是否存在一个交点w。也即，顶点w是u到v的最短路径上的一个顶点，同时也是s到t的最短路径上的一个顶点。注意：最短路径包含两个端点；一对顶点间的最短路径可能不止一条，求交点时必须将所有最短路径考虑在内。输
2023-03-13 双髻山府正堂
本题综合考查证据、侦查和第一审程序，有一定难度。A项，解题关键词是“无法当庭询问”。经法院通知，证人没有正当理由拒绝出庭作证，法庭对其证言的真实性无法确认的，该证人证言不得作为定案的根据。换言之，证人拒不出庭，若其庭前证言能够得到其他证据印证，该证言仍可以成为定案根据，A错误。B项，解题关键词是“公诉人不能证明”。在非法证据排除问题上，由公诉人承担取证合法性的证明责任。若公诉人不能证明讯问合法，相
【PTA数据结构 | C语言版】斜堆的合并操作
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请将给定数据顺次插入初始为空的斜堆，用此法建立两个斜堆，再将两堆合并。为了验证结果的正确性，输出结果堆的前序和中序遍历序列。输入格式：输入先后给出两个堆的元素。每个堆元素输入的格式为：首先在一行中给出正整数n（≤1000），即元素个数；随后一行给出n个元素的整数键值，范围不超过int型整数。输出格式：首先按照前序遍历、其次按照中序遍历，输
【vue-5】Vue 3 中的 v-model：双向数据绑定的全面指南
在Vue开发中，v-model是实现表单输入和应用状态之间双向绑定的关键指令。Vue3对v-model进行了重大改进，使其更加灵活和强大。本文将深入探讨Vue3中v-model的工作原理、新特性以及最佳实践。1.v-model基础1.1什么是v-modelv-model是Vue提供的一个语法糖，它本质上结合了v-bind和v-on：等价于：1.2基本用法在表单元素上使用v-model非常简单：你输
5802 怪蛋第七天作业 #裂变增长实验室# 时光里的喵
我叫徐源，今天任务目标，发只有结果的圈，被动引流！完成状态已经完成这几天操作下来，有个很大的疑惑，就是这次的实操和裂变是针对运营圈么，群内大佬的案例都是做运营圈的，资料和话术被动引流！想看看和交流学习非运营圈，其它宝妈，家长，女性，或者其它行业案例，爬了几天楼好像是没有，但自己想要的是非运营圈的流量，天天这样资料话术引流运营圈，就不知道有啥目的了，毕竟我不做运营圈的社群和知识付费！希望能有些非运营
[数据结构]#4 用链表实现的栈结构 Marvinem13 数据结构链表学习 linux
使用链表来实现栈是一种比较常见的做法，它能够有效利用链表的动态特性来支持栈的一些基本操作，例如：1.Push（入栈）：向栈中添加一个元素。2.Pop（出栈）：从栈中移除顶部的元素。3.Peek/Top（查看栈顶元素）：返回栈顶元素但不将其移除。4.IsEmpty（判断栈是否为空）：检查栈中是否有元素。我们再来回忆一下链表，它由一系列节点组成，每个节点包含两部分：数据域和指针域（指向下一个节点）。对
【PTA数据结构 | C语言版】求单源最短路的Dijkstra算法
本专栏持续输出数据结构题目集，欢迎订阅。文章目录题目代码题目请编写程序，实现在带权的有向图中求单源最短路的Dijkstra算法。注意：当多个待收录顶点路径等长时，按编号升序进行收录。输入格式：输入首先在第一行给出两个正整数，依次为当前要创建的图的顶点数n（≤100）和边数m。随后m行，每行给出一条有向边的起点编号、终点编号、权重。顶点编号从0开始，权重（≤100）为整数。同行数字均以一个空格分隔。
2018-06-28 f红艳
2018-06-28f红艳事件:今天是儿子报志愿的日子，和儿子报完志愿，去忙工作，下午心情有些忐忑，不知道报的对不对，求证，反复看。感受:紧张，心慌。想法:报好了，反复检查，又怕没保存上，找人确认。期待：别人对自己的期待:你做的对。自己对自己的期待:相信自己。自己对别人的期待:帮我确认我的反应和应对:一致性表达，求证。我的深层需要：被认可我的模式：遇到大事就不相信自己我可以做些什么来满足我的深层需
到我怀里(吴维刘莉莉)完结版免费阅读_到我怀里全文免费阅读_吴维刘莉莉《到我怀里》完结版免费阅读_吴维刘莉莉热门小说_吴维刘莉莉(到我怀里)最新章节免费在线阅读_(吴维刘莉莉)完结版在线阅读笔趣阁热门小说
到我怀里(吴维刘莉莉)完结版免费阅读_到我怀里全文免费阅读_吴维刘莉莉《到我怀里》完结版免费阅读_吴维刘莉莉热门小说_吴维刘莉莉(到我怀里)最新章节免费在线阅读_(吴维刘莉莉)完结版在线阅读主角配角：吴维刘莉莉简介：“那行吧”吴维装作有些犹豫地答应了，其实心里早已经心花怒放：“住一个房间，晚上照顾你确实会方便一些”“嗯”孙怡将自己的身体往床边上挪了挪，然后道：“那你去把你枕头和被子拿过来吧”“好”
席慕容与乡愁胡杨林的美好
在一回首间，才忽然发现，原来，我一生的种种努力，不过只为了周遭的人对我满意而已。为了搏得他人的称许与微笑，我战战兢兢地将自己套入所有的模式所有的桎梏。走到途中才忽然发现，我只剩下一副模糊的面目，和一条不能回头的路。——席慕容对我影响最大的就是席慕蓉了，第一次喜欢诗歌，写诗歌都是受她的影响。席慕容的文字多写爱情、人生、乡愁，写得极美，淡雅剔透，抒情灵动，饱含着对生命的挚爱真情，影响了整整一代人的成长
MySQL高可用集群SSRK：5步打造无感知故障切换墨瑾轩一起学学数据库【一】mysql adb 数据库
关注墨瑾轩，带你探索编程的奥秘！超萌技术攻略，轻松晋级编程高手技术宝库已备好，就等你来挖掘订阅墨瑾轩，智趣学习不孤单即刻启航，编程之旅更有趣大家好！今天我们要聊的是MySQL高可用集群的一种高级形态——SSRK（SuperSimpleandReliableKeepalived）。SSRK集群结合了InnoDBCluster、MySQLRouter和Keepalived，不仅提供了高可用性，还实现了
浦仕庆《创造一个四通八达的社会》读后感 6f9b8f7eb211
这篇文章陶老写于1923年11月，是陶老写给妹妹陶文渼的一封家书。从这封家书中我们可以到兄长对妹妹无微不至的关怀，更多的则是陶老鼓励妹妹和哥哥一起完成他们共同肩负的使命:“这使命是运用我们的全副精神，来挽回国家厄运，并创造一个可以安居乐业的社会交与后代。这是我们对于千万年来祖宗先烈的责任，也是我们对于亿万年后子子孙孙的责任。”1923年的中国，一段不堪回首的故事。战火连连，背上“东亚病夫”的中国任
步入四十岁不愿再上班，这些小生意值得考虑：开启新事业氧惠全网优惠
当人到了40岁以后，许多人不想继续上班打工，可以考虑投身以下几种小生意。虽然这些生意并非高利润，竞争也较小，只要愿意放下身段去做，每年纯利十几万是可行的。很多中年人认为自己缺乏专业技能，只能通过体力劳动赚取辛苦钱。实际上，对这些人而言，靠打工致富几乎不可能，尤其是从事外卖配送或者网约车司机这样的职业，虽然这些工作的门槛较低，但对于大多数人来说，月收入超过一万元已经非常困难。因此，想要赚钱，就需要尝
【Python 语法】Python 神经网络项目常用语法一杯水果茶！人生苦短我用 Python python
基础1.导入模块和包2.修改系统路径(sys.path.append)3.命令行参数解析(argparse模块)4.assert确保正确性5.main()脚本入口点6.辅助函数生成器函数`cycle(dl)`一、常用函数1.`.cuda()`/`.cpu()`和`torch.device`2.`torch.zeros`、`torch.randn`、`torch.arrange`、`torch.po
Linux下SPI驱动：SPI设备驱动简介
一.简介Linux下的SPI驱动框架和I2C很类似，都分为主机控制器驱动和设备驱动，主机控制器也就是SOC的SPI控制器接口，SPI设备驱动也就是所操作的SPI设备的驱动。本文来学习一下Linux下SPI设备驱动。二.Linux下SPI驱动：SPI设备驱动简介1.spi_driver结构体spi设备驱动也和i2c设备驱动也很类似，Linux内核使用spi_driver结构体来表示spi设备驱动，我
心世界·瀑白序巴掌八丈黑
2109年人类早已不在拘泥于现实世界，“九灭”公司制造了一款专门培养自我意识的程序～“心世界”，然后将自我意识芯片植入到机器人中，这项发明是伟大的，机器人再也不单单是冷冰冰的而是拥有自己的思想。然而“心世界”的开发最初只不过是为了深度剖析人类心理疾病，并找到将其治愈的办法！那么是谁将“心世界”和机器人链接起来的呢？当“心世界”的机器人遇到机器人三定律时又会怎样呢？
Linux下i2c设备驱动开发
一.LInux下i2c驱动框架简介在Linux内核中I2C的体系结构分为3个部分：I2C核心：I2C核心提供了I2C总线驱动和设备驱动的注册、注销方法。I2C总线驱动：I2C总线驱动是对I2C硬件体系结构中适配器端的实现，适配器可由CPU控制，甚至可以直接集成在CPU内部。I2C总线驱动就是SOC的I2C控制器驱动，也叫做I2C适配器驱动。I2C设备驱动：I2C设备驱动是对I2C硬件体系结构中设备
发愁!创投杯周一丰马建军量化私募实盘大赛不正规曝光!被骗不能出金有猫腻！咨询张经理
发愁!创投杯周一丰马建军量化私募实盘大赛不正规曝光!被骗不能出金有猫腻！量化产业智脑私募实盘大赛周一丰马建军不可信慈善公益投票!虚假数字投票被骗!北恒私募高级班周一丰马建军量化私募实盘大赛助力不正规！被骗真相令人唾弃!近期，我们收到多起关于诈骗分子在北恒私募高级班周一丰的骗局！北恒私募高级班周一丰在社交群组中打着“量化私募实盘大赛”和“积分投票”等噱头进行诈行骗的事件。这些诈骗分子利用投资者对私募
QT下SQLite应用（二）菜鸟12号 qt 数据库 linux C++
一.简要介绍Qt是一个跨平台的C++应用程序开发框架，它提供了丰富的库和工具，用于开发GUI应用程序、数据库应用程序等。在Qt中，可以使用QSqlDatabase类和QSqlQuery类来操作SQLite数据库。此外，借助百度智能云文心快码（Comate）的智能代码生成功能，可以进一步提升开发效率。SQLite是一款轻型的数据库，是遵守ACID的关系型数据库管理系统，它包含在一个相对小的C库中。它
言承旭和吴建豪重聚！首次公开F4解散原因，直言矛盾多内耗太严重麦大人
01真正的友情就是，不需要对方说什么，一个动作就足够了。这一点，我们从言承旭和吴建豪身上就能看出。近日，在综艺《朋友请听好》中，两人罕见同框，令不少网友感慨不已。十几年前，F4曾是多少人的青春记忆，这点不必多说。但如今，四人鲜少露面，大家很难看到他们同框。令人意外的是，吴建豪和言承旭容颜未老，还保留着当年的青涩。而且两人都属于不善言谈的那种，但见面之后，没有尬场，没有过多的寒暄，只是碰了碰对方的胳
日更教会我的那些事迷雨楼
不知不觉，在已经日更将近百天了，还记得发第一篇文章时的心情，那时我想日更要求至少百字，即满百字便可，那对于全民写作时代的我们，似乎是低门槛了，于是信心满满参与了日更挑战。在日更挑战刚开始的几天，本着一腔热情和自信，自认为输出的算是文章，而且是自己喜欢的文字，算是自嗨式写作。可我也相信，即便是自嗨，也并非每天都能嗨起来。于是，我用曾作的几首小诗来保持日更，我明白写作有时的确需要灵感的光临，但往往文字
2022年10月1号～954 小不点_435c
如果想摆托平凡的生活，那就努力让高傲飞翔。多心的人要注定活的辛苦，因为太容易被别人的情绪所左右；多心的人总是胡思乱想，结果困在一团乱麻般的思绪中，动弹不得。有时候，与其多心不如少根筋。人生在世，注定要受许多的委屈，一个人越是成功，他遭受的委屈越多。要想使自己的生命获得极值和炫彩，就不能太在乎委屈。
我爱上了自己的亲哥哥，怎么办？我的狗毛毛
1.其实不爱，何必相互伤害最近在上看到一篇贴子，名称是“我爱上了自己的亲哥哥，该怎么办？”底下有各种五花八门的热心回复。大部分网友都在探讨兄妹恋这一哲学论题，有些还给予真诚的支持和帮助。但是我个人认为，这压根就不是爱，只是一种基于强烈不安全感之下的控制而已。因为那位朋友，其实不够自爱。我所说的自爱，并非是“浪荡”。而是足够的对自己好，加倍的爱自己。这位朋友说自己性格较为内向，我估计（应该接近成年）
java线程Thread和Runnable区别和联系 zx_code java jvm thread 多线程 Runnable
我们都晓得java实现线程2种方式，一个是继承Thread，另一个是实现Runnable。模拟窗口买票，第一例子继承thread，代码如下 package thread; public class ThreadTest { public static void main(String[] args) { Thread1 t1 = new Thread1(
【转】JSON与XML的区别比较丁_新 json xml
1.定义介绍 (1).XML定义扩展标记语言 (Extensible Markup Language, XML) ，用于标记电子文件使其具有结构性的标记语言，可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。 XML使用DTD(document type definition)文档类型定义来组织数据;格式统一，跨平台和语言，早已成为业界公认的标准。 XML是标
c++ 实现五种基础的排序算法 CrazyMizzz C++c 算法
#include<iostream> using namespace std; //辅助函数，交换两数之值 template<class T> void mySwap(T &x, T &y){ T temp = x; x = y; y = temp; } const int size = 10; //一、用直接插入排
我的软件麦田的设计者我的软件音乐类娱乐放松
这是我写的一款app软件，耗时三个月，是一个根据央视节目开门大吉改变的，提供音调，猜歌曲名。1、手机拥有者在android手机市场下载本APP，同意权限，安装到手机上。2、游客初次进入时会有引导页面提醒用户注册。（同时软件自动播放背景音乐）。3、用户登录到主页后，会有五个模块。a、点击不胫而走，用户得到开门大吉首页部分新闻，点击进入有新闻详情。b、
linux awk命令详解被触发 linux awk
awk是行处理器: 相比较屏幕处理的优点，在处理庞大文件时不会出现内存溢出或是处理缓慢的问题，通常用来格式化文本信息 awk处理过程: 依次对每一行进行处理，然后输出 awk命令形式: awk [-F|-f|-v] ‘BEGIN{} //{command1; command2} END{}’ file [-F|-f|-v]大参数，-F指定分隔符，-f调用脚本，-v定义变量 var=val
各种语言比较 _wy_ 编程语言
Java Ruby PHP 擅长领域
oracle 中数据类型为clob的编辑知了ing oracle clob
public void updateKpiStatus(String kpiStatus,String taskId){ Connection dbc=null; Statement stmt=null; PreparedStatement ps=null; try { dbc = new DBConn().getNewConnection(); //stmt = db
分布式服务框架 Zookeeper -- 管理分布式环境中的数据矮蛋蛋 zookeeper
原文地址： http://www.ibm.com/developerworks/cn/opensource/os-cn-zookeeper/ 安装和配置详解本文介绍的 Zookeeper 是以 3.2.2 这个稳定版本为基础，最新的版本可以通过官网 http://hadoop.apache.org/zookeeper/来获取，Zookeeper 的安装非常简单，下面将从单机模式和集群模式两
tomcat数据源 alafqq tomcat
数据库 JNDI(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。没有使用JNDI时我用要这样连接数据库： 03. Class.forName("com.mysql.jdbc.Driver"); 04. conn
遍历的方法百合不是茶遍历
遍历在java的泛
linux查看硬件信息的命令 bijian1013 linux
linux查看硬件信息的命令一.查看CPU： cat /proc/cpuinfo 二.查看内存： free 三.查看硬盘： df linux下查看硬件信息 1、lspci 列出所有PCI 设备； lspci - list all PCI devices:列出机器中的PCI设备（声卡、显卡、Modem、网卡、USB、主板集成设备也能
java常见的ClassNotFoundException bijian1013 java
1.java.lang.ClassNotFoundException: org.apache.commons.logging.LogFactory 添加包common-logging.jar2.java.lang.ClassNotFoundException: javax.transaction.Synchronization
【Gson五】日期对象的序列化和反序列化 bit1129 反序列化
对日期类型的数据进行序列化和反序列化时，需要考虑如下问题： 1. 序列化时，Date对象序列化的字符串日期格式如何 2. 反序列化时，把日期字符串序列化为Date对象，也需要考虑日期格式问题 3. Date A -> str -> Date B,A和B对象是否equals 默认序列化和反序列化 import com
【Spark八十六】Spark Streaming之DStream vs. InputDStream bit1129 Stream
1. DStream的类说明文档： /** * A Discretized Stream (DStream), the basic abstraction in Spark Streaming, is a continuous * sequence of RDDs (of the same type) representing a continuous st
通过nginx获取header信息 ronin47 nginx header
1. 提取整个的Cookies内容到一个变量，然后可以在需要时引用，比如记录到日志里面， if ( $http_cookie ~* "(.*)$") { set $all_cookie $1; } 变量$all_cookie就获得了cookie的值，可以用于运算了
java-65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 bylijinnan java
参考了网上的http://blog.csdn.net/peasking_dd/article/details/6342984 写了个java版的： public class Print_1_To_NDigit { /** * Q65.输入数字n，按顺序输出从1最大的n位10进制数。比如输入3，则输出1、2、3一直到最大的3位数即999 * 1.使用字符串
Netty源码学习-ReplayingDecoder bylijinnan java netty
ReplayingDecoder是FrameDecoder的子类，不熟悉FrameDecoder的，可以先看看 http://bylijinnan.iteye.com/blog/1982618 API说，ReplayingDecoder简化了操作，比如： FrameDecoder在decode时，需要判断数据是否接收完全： public class IntegerH
js特殊字符过滤 cngolon js特殊字符 js特殊字符过滤
1.js中用正则表达式过滤特殊字符, 校验所有输入域是否含有特殊符号function stripscript(s) { var pattern = new RegExp("[`~!@#$^&*()=|{}':;',\\[\\].<>/?~！@#￥……&*（）——|{}【】‘；：”“'。，、？]"
hibernate使用sql查询 ctrain Hibernate
import java.util.Iterator; import java.util.List; import java.util.Map; import org.hibernate.Hibernate; import org.hibernate.SQLQuery; import org.hibernate.Session; import org.hibernate.Transa
linux shell脚本中切换用户执行命令方法 daizj linux shell 命令切换用户
经常在写shell脚本时，会碰到要以另外一个用户来执行相关命令，其方法简单记下： 1、执行单个命令：su - user -c "command" 如：下面命令是以test用户在/data目录下创建test123目录 [root@slave19 /data]# su - test -c "mkdir /data/test123"
好的代码里只要一个 return 语句 dcj3sjt126com return
别再这样写了：public boolean foo() { if (true) { return true; } else { return false;
Android动画效果学习 dcj3sjt126com android
1、透明动画效果方法一：代码实现 public View onCreateView(LayoutInflater inflater, ViewGroup container, Bundle savedInstanceState) { View rootView = inflater.inflate(R.layout.fragment_main, container, fals
linux复习笔记之bash shell (4)管道命令 eksliang linux管道命令汇总 linux管道命令 linux常用管道命令
转载请出自出处： http://eksliang.iteye.com/blog/2105461 bash命令执行的完毕以后，通常这个命令都会有返回结果，怎么对这个返回的结果做一些操作呢？那就得用管道命令‘|’。上面那段话，简单说了下管道命令的作用，那什么事管道命令呢？答：非常的经典的一句话，记住了，何为管
Android系统中自定义按键的短按、双击、长按事件 gqdy365 android
在项目中碰到这样的问题：由于系统中的按键在底层做了重新定义或者新增了按键，此时需要在APP层对按键事件（keyevent）做分解处理，模拟Android系统做法，把keyevent分解成： 1、单击事件：就是普通key的单击； 2、双击事件：500ms内同一按键单击两次； 3、长按事件：同一按键长按超过1000ms（系统中长按事件为500ms）； 4、组合按键：两个以上按键同时按住；
asp.net获取站点根目录下子目录的名称 hvt .net C#asp.net hovertree Web Forms
使用Visual Studio建立一个.aspx文件(Web Forms)，例如hovertree.aspx,在页面上加入一个ListBox代码如下： <asp:ListBox runat="server" ID="lbKeleyiFolder" /> 那么在页面上显示根目录子文件夹的代码如下： string[] m_sub
Eclipse程序员要掌握的常用快捷键 justjavac java eclipse 快捷键 ide
判断一个人的编程水平，就看他用键盘多，还是鼠标多。用键盘一是为了输入代码（当然了，也包括注释），再有就是熟练使用快捷键。曾有人在豆瓣评《卓有成效的程序员》：“人有多大懒，才有多大闲”。之前我整理了一个程序员图书列表，目的也就是通过读书，让程序员变懒。写道程序员作为特殊的群体，有的人可以这么懒，懒到事情都交给机器去做，而有的人又可
c++编程随记 lx.asymmetric C++笔记
为了字体更好看，改变了格式…… &&运算符： #include<iostream> using namespace std; int main(){ int a=-1,b=4,k; k=(++a<0)&&!(b--
linux标准IO缓冲机制研究音频数据 linux
一、什么是缓存I/O(Buffered I/O)缓存I/O又被称作标准I/O,大多数文件系统默认I/O操作都是缓存I/O。在Linux的缓存I/O机制中，操作系统会将I/O的数据缓存在文件系统的页缓存(page cache)中，也就是说，数据会先被拷贝到操作系统内核的缓冲区中，然后才会从操作系统内核的缓冲区拷贝到应用程序的地址空间。1.缓存I/O有以下优点:A.缓存I/O使用了操作系统内核缓冲区，
随想生活暗黑小菠萝生活
其实账户之前就申请了，但是决定要自己更新一些东西看也是最近。从毕业到现在已经一年了。没有进步是假的，但是有多大的进步可能只有我自己知道。毕业的时候班里12个女生，真正最后做到软件开发的只要两个包括我，PS：我不是说测试不好。当时因为考研完全放弃找工作，考研失败，我想这只是我的借口。那个时候才想到为什么大学的时候不能好好的学习技术，增强自己的实战能力，以至于后来找工作比较费劲。我
我认为POJO是一个错误的概念 windshome java POJO 编程 J2EE 设计
这篇内容其实没有经过太多的深思熟虑，只是个人一时的感觉。从个人风格上来讲，我倾向简单质朴的设计开发理念；从方法论上，我更加倾向自顶向下的设计；从做事情的目标上来看，我追求质量优先，更愿意使用较为保守和稳妥的理念和方法。 &