rsync+inotify实现服务之间的数据实时同步&&手动执行的例子

1、与传统的cp、tar备份方式相比,rsync具有安全性高、备份迅速、支持增量备份等优点,通过rsync可以解决对实时性要求不高的数据备份需求,例如定期的备份文件服务器数据到远端服务器,对本地磁盘定期做数据镜像等。
随着应用系统规模的不断扩大,对数据的安全性和可靠性也提出的更好的要求,rsync在高端业务系统中也逐渐暴露出了很多不足,首先,rsync同步数据时,需要扫描所有文件后进行比对,进行差量传输。如果文件数量达到了百万甚至千万量级,扫描所有文件将是非常耗时的。而且正在发生变化的往往是其中很少的一部分,这是非常低效的方式。其次,rsync不能实时的去监测、同步数据,虽然它可以通过linux守护进程的方式进行触发同步,但是两次触发动作一定会有时间差,这样就导致了服务端和客户端数据可能出现不一致,无法在应用故障时完全的恢复数据。基于以上原因,rsync+inotify组合出现了!

2、 Inotify 是一种强大的、细粒度的、异步的文件系统事件监控机制,linux内核从2.6.13起,加入了Inotify支持,通过Inotify可以监控文件系统中添加、删除,修改、移动等各种细微事件,利用这个内核接口,第三方软件就可以监控文件系统下文件的各种变化情况,而inotify-tools就是这样的一个第三方软件。rsync可以实现触发式的文件同步,但是通过crontab守护进程方式进行触发,同步的数据和实际数据会有差异,而inotify可以监控文件系统的各种变化,当文件有任何变动时,就触发rsync同步,这样刚好解决了同步数据的实时性问题。

 

  3、接下面我们来开始进行rsync与inotify的安装、配置、测试。
(1) 准备条件 service端和client端机器。内核版本是2.6或以上,可以相互访问
(2)弄明白什么是要备份的,什么是存放的地方。一般情况下载server端编写文档,产生修改,增删等动作,所以inotify软件要装在该server端进行监控。如果发现改动就立即触发然后通过rsync来备份到client客户端。所以重要的数据需要备份的机器上安装rsync和inotify两个软件。而存放备份的机器上安装rsync就可以了。我们再来说下备份的名字和目录,正如大家所使用的共享文件夹一样,比如我要访问/aa目录,但是/aa的目录共享名字为sharefile,所以我们只好访问sharefile,实际上是访问的路径是/aa。下面就让我结合实例来看看rsync和inotify的结合。
(3)安装软件。
先从 server端开始安装rsync和inotify两个软件,具体步骤和下载地址如下
rsync的安装
1.[root@nginx src]# wget  http://rsync.samba.org/ftp/rsync/src/rsync-3.0.9.tar.gz  
2.[root@nginx src]# tar zxvf rsync-3.0.9.tar.gz  
3.[root@nginx src]# cd rsync-3.0.9  
4.[root@nginx rsync-3.0.9]# ./configure --prefix=/usr/local/rsync  
5.[root@nginx rsync-3.0.9]# make  
6.    [root@nginx rsync-3.0.9]# make install 
inotify的安装
1.[root@nginx src]# wget http://cloud.github.com/downloads/rvoicilas/inotify-tools/inotify-tools-3.14.tar.gz  
2.[root@nginx src]# tar zxvf inotify-tools-3.14.tar.gz  
3.[root@nginx src]# cd inotify-tools-3.14  
4.[root@nginx inotify-tools-3.14]# ./configure --prefix=/usr/local/inotify  
5.[root@nginx inotify-tools-3.14]# make  
6.    [root@nginx inotify-tools-3.14]# make install 

 

 配置server端的同步文件
(1).  先创建认证文件。 echo "password" >/usr/local/rsync/rsync.passwd
password是密码,rsync.passwd是密码的认证文件。rysnc.passwd是不存在的,是手动创建的,名字也可以

(2)、创建配置文件,并命名为rsync.sh 放到被同步的目录。脚本内容如下

1.    #!/bin/bash  
2.    host=192.168.40.221  
3.    src=/root/         
4.    des=sharefilename 
5.    user=rsyncuser 
6.    /usr/local/inotify/bin/inotifywait -mrq --timefmt '%d/%m/%y %H:%M' --format '%T %w%f%e' -e modify,delete,create,attrib $src \  
7.    | while read files  
8.    do  
9.    /usr/bin/rsync -vzrtopg --delete --progress --password-file=/usr/local/rsync/rsync.passwd $src $user@$host::$des  
10.    echo "${files} was rsynced" >>/tmp/rsync.log 2>&1  
11.    done  
此项功能主要是将server端的目录/root/里的内容,同步给远程主机192.168.40.221.如果修改了(无论是添加、修改、删除文件)能够通过inotify监控到,并通过rsync实时的同步给client(192.168.40.221)的。src是本地的、被同步的目录、受inotify监控的。des是模块也就是被同步的名字,在client中需要制定的。user是同步的认证用户,不需要useradd建立,也需在客户端指定。
 (3)修改权限
chmod 600 /usr/local/rsync/rsync.passwd
chmod 764 /root/rsync.sh

 (3)配置client端 (以下步骤是在client端进行的)
   安装rsync,步骤和方法同上
 (4)建立用户和密码的认证文件
echo “rsyncuser:password” > /usr/local/rsync/rsync.passwd    其中rsynuser是用户,必须和server中rsync.sh配置的认证用户一样。password是密码也必须和server端的/usr/local/rsync/rsync.passwd中一致。记住,此处(client端)既有用户名又有密码。而server端只有密码
 (5)建立rsync的配置文件,内容如下

1.    uid = root 
2.    gid = root 
3.    use chroot = no 
4.    max connections = 10 
5.    strict modes = yes 
6.    pid file = /var/run/rsyncd.pid  
7.    lock file = /var/run/rsync.lock  
8.    log file = /var/log/rsyncd.log  
9.    [sharefile]                                                ##这项必须和server端rsync.sh中的des一致
10.  path = /aa/                                              ##server端中的所有文件被同步到该目录中
11.  comment = web file  
12.  ignore errors  
13.  read only = no 
14.  write only = no 
15.  hosts allow = 192.168.40.220               ##server端的地址
16.  hosts deny = *  
17.  list = false 
18.  uid = root 
19.  gid = root 
20.  auth users = rsyncuser                          ##这项和server端rsync.sh中的user选项一致

21.  secrets file = /usr/local/rsync/rsync.passwd      ##这项是认证文件
以上配置rsyn.conf的配置文件要放到/usr/local/rsync/下。
(6)修改权限 
chmod   600  /usr/local/rsync/rsync.passwd

 (7)启动同步
先在客户端启动,执行: /usr/local/rsync/bin/rsync --daemon --config=/usr/local/rsync/rsync.conf
再到服务器端启动,执行 :./rsync.sh > /dev/null 2>&1 & (在被同步的目录下,也是rsync.sh的文件所在目录)
测试是否成功!!!!!!!!!!!!

 

rsync命令(部分)
-v,--verbose  详细模式输出-q,--quiet 精简输出模式-c,--checksum 打开校验开关,强制对文件传输进行校验-a,--archive 归档模式,表示以递归方式传输文件,并保持所有文件属性,等于-rlptgoD
-r,--recursive  对子目录以递归模式处理
-R,--relative  使用相对路径信息
-b,--backup 创建备份,也就是对于目的已经存在有同样的文件名时,将老的文件重新命名为~filename。可以使用--suffix选项来指定不同的备份文件前缀。
--backup-dir 将备份文件(~filename)存放在在目录下。
-l,--links  保留软链结
-L,--copy-links  想对待常规文件一样处理软链结
--delete 删除那些DSTSRC没有的文件
--force 强制删除目录,即使不为空
--exclude=PATTERN 指定排除不需要传输的文件模式
--include=PATTERN 指定不排除而需要传输的文件模式
--exclude-from=FILE 排除FILE中指定模式的文件
--include-from=FILE 不排除FILE指定模式匹配的文件
--version 打印版本信息
--address 绑定到特定的地址
--config=FILE 指定其他的配置文件,不使用默认的rsyncd.conf文件
--port=PORT 指定其他的rsync服务端口
--blocking-io 对远程shell使用阻塞IO
-stats 给出某些文件的传输状态
--progress 在传输时现实传输过程
--log-format=formAT 指定日志文件格式
--password-file=FILE FILE中得到密码
 

Rsync 是一个远程数据同步工具,可通过 LAN/WAN 快速同步多台主机间的文件。Rsync 本来是用以取代rcp 的一个工具,它当前由 Rsync.samba.org 维护。Rsync 使用所谓的“Rsync 演算法”来使本地和远程两个主机之间的文件达到同步,这个算法只传送两个文件的不同部分,而不是每次都整份传送,因此速度相当快。运行 Rsync server 的机器也叫 backup server,一个 Rsync server 可同时备份多个 client 的数据;也可以多个Rsync server 备份一个 client 的数据。

Rsync 可以搭配 rsh 或 ssh 甚至使用 daemon 模式。Rsync server 会打开一个873的服务通道(port),等待对方 Rsync 连接。连接时,Rsync server 会检查口令是否相符,若通过口令查核,则可以开始进行文件传输。第一次连通完成时,会把整份文件传输一次,下一次就只传送二个文件之间不同的部份。

Rsync 支持大多数的类 Unix 系统,无论是 Linux、Solaris 还是 BSD 上都经过了良好的测试。此外,它在windows 平台下也有相应的版本,比较知名的有 cwRsync 和 Sync2NAS。

Rsync 的基本特点如下:

可以镜像保存整个目录树和文件系统;
可以很容易做到保持原来文件的权限、时间、软硬链接等;
无须特殊权限即可安装;
优化的流程,文件传输效率高;
可以使用 rcp、ssh 等方式来传输文件,当然也可以通过直接的 socket 连接;
支持匿名传输。


2)核心算法

假定在名为 α 和 β 的两台计算机之间同步相似的文件 A 与 B,其中 α 对文件A拥有访问权,β 对文件 B 拥有访问权。并且假定主机 α 与 β 之间的网络带宽很小。那么 Rsync 算法将通过下面的五个步骤来完成:

β 将文件 B 分割成一组不重叠的固定大小为 S 字节的数据块。最后一块可能会比 S 小。
β 对每一个分割好的数据块执行两种校验:一种是32位的滚动弱校验,另一种是128位的 MD4 强校验。
β 将这些校验结果发给 α。
α 通过搜索文件 A 的所有大小为 S 的数据块(偏移量可以任选,不一定非要是 S 的倍数),来寻找与文件B 的某一块有着相同的弱校验码和强校验码的数据块。这项工作可以借助滚动校验的特性很快完成。
α 发给 β 一串指令来生成文件 A 在 β 上的备份。这里的每一条指令要么是对文件 B 经拥有某一个数据块而不须重传的证明,要么是一个数据块,这个数据块肯定是没有与文件 B 的任何一个数据块匹配上的。

 

3) 文件级别的RSync(只传输变化的文件)工作过程:(我的理解)

* 机器A构造FileList,FileList包含了需要与机器B sync的所有文件信息对name->id,(id用来唯一表示文件例如MD5);
* 机器A将FileList发送到机器B;
* 机器B上运行的后台程序处理FileList,构建NewFileList,其中根据MD5的比较来删除机器B上已经存在的文件的信息对,只保留机器B上不存在或变化的文件;
* 机器A得到NewFileList,对NewFileList中的文件从新传输到机器B;

 

4)进一步的优化存储和传输

文件级别的Rsync + Rsync对单个文件分块比较和传输 : 实现了文件的高效传输。

如果Server上存储有所有文件的MD5码索引的数据库 + hardlink技术 : 实现Server的重复文件删除,单个文件只存储一份的技术。

如果server有单个文件只存储一份的技术,(有所有文件的MD5数据库),则在Rsync传输的过程中只传输Rsync Server没有的文件,如果Rsync Server由此文件直接使用。

5)rsync有六种不同的工作模式:


拷贝本地文件;当SRC和DES路径信息都不包含有单个冒号":"分隔符时就启动这种工作模式。

使用一个远程shell程序(如rsh、ssh)来实现将本地机器的内容拷贝到远程机器。当DST路径地址包含单个冒号":"分隔符时启动该模式。


使用一个远程shell程序(如rsh、ssh)来实现将远程机器的内容拷贝到本地机器。当SRC地址路径包含单个冒号":"分隔符时启动该模式。

从远程rsync服务器中拷贝文件到本地机。当SRC路径信息包含"::"分隔符时启动该模式。

从本地机器拷贝文件到远程rsync服务器中。当DST路径信息包含"::"分隔符时启动该模式。
列远程机的文件列表。这类似于rsync传输,不过只要在命令中省略掉本地机信息即可。

介绍下rsync 命令参数:

-v, --verbose 详细模式输出
-q, --quiet 精简输出模式
-c, --checksum 打开校验开关,强制对文件传输进行校验
-a, --archive 归档模式,表示以递归方式传输文件,并保持所有文件属性,等于-rlptgoD
-r, --recursive 
对子目录以递归模式处理
-R, --relative 使用相对路径信息
-b, --backup 创建备份,也就是对于目的已经存在有同样的文件名时,将老的文件重新命名为~filename。可以使用--suffix选项来指定不同的备份文件前缀。
--backup-dir 将备份文件(~filename)存放在在目录下。
-suffix=SUFFIX 定义备份文件前缀
-u, --update 仅仅进行更新,也就是跳过所有已经存在于DST,并且文件时间晚于要备份的文件。(不覆盖更新的文件)
-l, --links 
保留软链结
-L, --copy-links 想对待常规文件一样处理软链结
--copy-unsafe-links 仅仅拷贝指向SRC路径目录树以外的链结
--safe-links 忽略指向SRC路径目录树以外的链结
-H, --hard-links 保留硬链结
-p, --perms 保持文件权限
-o, --owner 保持文件属主信息
-g, --group 保持文件属组信息
-D, --devices 保持设备文件信息
-t, --times 保持文件时间信息
-S, --sparse 对稀疏文件进行特殊处理以节省DST的空间
-n, --dry-run现实哪些文件将被传输
-W, --whole-file 拷贝文件,不进行增量检测
-x, --one-file-system 不要跨越文件系统边界
-B, --block-size=SIZE 检验算法使用的块尺寸,默认是700字节
-e, --rsh=COMMAND 指定使用rshssh方式进行数据同步
--rsync-path=PATH 指定远程服务器上的rsync命令所在路径信息
-C, --cvs-exclude 使用和CVS一样的方法自动忽略文件,用来排除那些不希望传输的文件
--existing 仅仅更新那些已经存在于DST的文件,而不备份那些新创建的文件
--delete 删除那些DSTSRC没有的文件
--delete-excluded 同样删除接收端那些被该选项指定排除的文件
--delete-after 传输结束以后再删除
--ignore-errors 及时出现IO错误也进行删除
--max-delete=NUM 最多删除NUM个文件
--partial 保留那些因故没有完全传输的文件,以是加快随后的再次传输
--force 强制删除目录,即使不为空
--numeric-ids 不将数字的用户和组ID匹配为用户名和组名
--timeout=TIME IP超时时间,单位为秒
-I, --ignore-times 不跳过那些有同样的时间和长度的文件
--size-only 当决定是否要备份文件时,仅仅察看文件大小而不考虑文件时间
--modify-window=NUM 决定文件是否时间相同时使用的时间戳窗口,默认为0
-T --temp-dir=DIR 
DIR中创建临时文件
--compare-dest=DIR 同样比较DIR中的文件来决定是否需要备份
-P 等同于--partial
--progress 
显示备份过程
-z, --compress 对备份的文件在传输时进行压缩处理
--exclude=PATTERN 指定排除不需要传输的文件模式
--include=PATTERN 指定不排除而需要传输的文件模式
--exclude-from=FILE 排除FILE中指定模式的文件
--include-from=FILE 不排除FILE指定模式匹配的文件
--version 打印版本信息
--address 绑定到特定的地址
--config=FILE 指定其他的配置文件,不使用默认的rsyncd.conf文件
--port=PORT 指定其他的rsync服务端口
--blocking-io 对远程shell使用阻塞IO
-stats 
给出某些文件的传输状态
--progress 在传输时现实传输过程
--log-format=formAT 指定日志文件格式
--password-file=FILE FILE中得到密码
--bwlimit=KBPS 限制I/O带宽,KBytes per second
-h, --help 
显示帮助信息

例如:手动执行rsync服务实现同步备份。两台机器只安装rsync服务双方建立明文的rsync.pwd密码通信文件,双方机器的这个文件数据一样(密码一样)如内容为root:aa。并启动rsync服务。
客户端的配置文件如下:(远程192.9.200.112上的数据拷贝到本地的/data/raid12目录下)
/usr/bin/rsync -vzrHltopg   [email protected]:/root  /root/bak --password-file=/etc/rsync.pwd
更改权限为可执行的,等服务器端配置好后。直接运行该文件
服务器端配置文件rsyncd.sh文件如下:(192.9.200.112的/root下的rsync.sh)
uid=root
gid=root
max connections=4
use chroot=no
host_allow =192.9.200.116
log file=/var/log/rsyncd.log
pid file=/var/run/rsyncd.pid
lock file=/var/run/rsyncd.lock
#auth users=root
secrets file=/etc/rsync.pwd

[root]
path = /root
comment = /root's dir
read only =yes

#[passwad]
#path=/etc/passwd
#comment = passwd
#read only =yes
配置好后,运行服务执行:rsync --daemon --config=/root/rsyncd.sh
记得在客户端试行那个脚本来手动启动rsync服务同步文件

本文出自 “菜鸟” 博客,谢绝转载!

你可能感兴趣的:(rsync,inotify)