背景描述:
因为主从复制导致主从数据不一致,所以使用pt-table-checksum工具来进行主从数据的一致性校验,用pt-table-sync工具将差异数据补齐,以下是使用工具时的流程、遇到的问题及解决方法,以期最大限度的模拟线上环境
环境:
backup为master主机(192.168.32.3),mydb为slave主机(192.168.32.2)
backup为3316端口,mydb为3306端口
binlog_format = ROW
pt-table-checksum 3.0.10 版本(percona-toolkit请自行安装)
准备工作:
1、安装依赖包:
[root@backup ~]#yum -y install perl perl-devel libaio libaio-devel perl-Time-HiRes perl-DBD-MySQL perl-IO-Socket-SSL
2、创建用户:
创建一个对bakup、mydb主机都有权限的非root用户,来进行数据查看、恢复操作,目的嘛,为了安全呗,注意:这个用户一定要相同,相同,相同!为了控制权限,可以只在各自的主机上授权
backup主机:
GRANT SELECT, INSERT, UPDATE, DELETE, CREATE, PROCESS, SUPER, REPLICATION SLAVE ON *.* TO 'monitor'@'127.0.0.1' IDENTIFIED BY '123456';
mydb主机:
GRANT SELECT, INSERT, UPDATE, DELETE, CREATE, PROCESS, SUPER, REPLICATION SLAVE ON *.* TO 'monitor'@'192.168.32.3' IDENTIFIED BY '123456';
工具用法:
[root@backup ~]# pt-table-checksum --help
Usage: pt-table-checksum [OPTIONS] [DSN] 这里注意一下:DSN连接的是主库的地址,这里指的是backup的地址
工具使用规则:
1、被检测的表需要有主键(唯一索引),因为这是pt-table-checksum的工作原理
2、从库的IO、SQL进程要为YES状态,因为从库要同步主库的checksum信息
3、执行校验时的DSN为主库地址
4、校验时会加S锁
5、确保主库、从库使用相同的账号
执行检验(backup主机上执行):
[root@backup ~]#pt-table-checksum --nocheck-replication-filters --databases=bailidb h=127.0.0.1,u=monitor,p='123456',P=3316 --replicate-check-only
Checking if all tables can be checksummed ...
Starting checksum ...
Cannot connect to P=3306,h=,p=...,u=monitor
Diffs cannot be detected because no slaves were found. Please read the --recursion-method documentation for information
报错原因:
主库连接不到从库,需要配置从库
report_host=192.168.32.2
report_port=3306
当然了,因为report_host、report_port是read only变量,所以,需要重启数据库
再次执行校验:
[root@backup ~]# pt-table-checksum --nocheck-replication-filters --databases=bailidb h=127.0.0.1,u=monitor,p='123456',P=3316 --replicate-check-only
Checking if all tables can be checksummed ...
Starting checksum ...
Replica mydb has binlog_format ROW which could cause pt-table-checksum to break replication. Please read "Replicas using row-based replication" in the LIMITATIONS section of the tool's documentation. If you understand the risks, specify --no-check-binlog-format to disable this check
报错原因:
如果是基于行的复制环境(即binlog_format=row),percona官方是不建议使用pt-table-checksum工具来进行数据的一致性检查的,但它又提供了一个选项来跳过此检查,--no-check-binlog-format
再次执行校验:
打印出所有的校验信息:(可以保存到文件做后期的处理)
[root@backup ~]#pt-table-checksum --nocheck-replication-filters --no-check-binlog-format --databases=bailidb h=127.0.0.1,u=monitor,p='123456',P=3316 > [chayi.txt]
只打印有差异数据的校验信息:
[root@backup ~]#pt-table-checksum --nocheck-replication-filters --no-check-binlog-format --databases=bailidb h=127.0.0.1,u=monitor,p='123456',P=3316 --replicate-check-only > [chayi.txt]
将校验数据写入到数据表中:
[root@backup ~]#pt-table-checksum --nocheck-replication-filters --no-check-binlog-format --replicate=test.checksums --databases=bailidb h=127.0.0.1,u=monitor,p='123456',P=3316 [--recursion-method=hosts/--recursion-method=processlist]
--nocheck-replication-filters 不检查复制过滤器,此参数经常和--databases参数配合使用,对单个库进行校验
--no-check-binlog-format 不检查复制的二进制日志文件格式,如果你的binlog_format=row,则要开启此参数,否则报错
--replicate=test.checksums 将校验的信息写入到test库的checksums表中,如果这个表没有的话,会自动创建,且master、slave主机都会有
--databases 指定检验的数据库,多个用 "," 隔开
--replicate-check-only 只显示有不一致数据的信息
--recursion-method=hosts 如果使用pt-table-checksum校验的时候,报错信息出现"no slaves were found",需要使用此参数
h 主库ip
u 主库、从库共同的那个用户名
p 主库、从库共同的那个用户密码
P 主库端口号,这里主库是3316端口
特别注意:
--replicate-check-only、--recursion-method=hosts 此类的参数,使用的时候是有顺序的要求的,必须在pt-table-checksum使用的DSN之后!
[root@backup ~]# pt-table-checksum --help
Options and values after processing arguments
校验结果介绍:
Checking if all tables can be checksummed ...
Starting checksum ...
TS ERRORS DIFFS ROWS DIFF_ROWS CHUNKS SKIPPED TIME TABLE
06-20T11:58:16 0 0 69 0 1 0 0.298 bailidb.bl_admin
06-20T11:58:18 0 1 13 0 1 0 0.022 bailidb.bl_block
TS:完成检查的时间
ERRORS:检查时候发生错误和警告的数量
DIFFS:最重要的一列,显示校验结果是否一致,0表示一致,1表示不一致
ROWS:表的行数,这里的指的是master主机的
CHUNKS:被划分到表中的块的数目
SKIPPED:由于错误或警告或过大,则跳过块的数目
TIME:执行校验的时间
TABLE:被校验的标明
使用pt-table-sync工具查看差异数据的详细信息:
[root@backup ~]#pt-table-sync --replicate=test.checksums h=127.0.0.1,u=monitor,P=3316 --ask-pass h=192.168.32.2,u=monitor,P=3306 --ask-pass --charset=utf8 --print
Enter password for 127.0.0.1:
Enter password for 192.168.32.2:
也可以只查看其中一张表的信息:
[root@backup ~]# pt-table-sync --replicate=test.checksums --tables=bl_major h=127.0.0.1,u=monitor,P=3316 --ask-pass h=192.168.32.2,u=monitor,P=3306 --ask-pass --charset=utf8 --print
Enter password for 127.0.0.1:
Enter password for 192.168.32.2:
注意:
为了最大限度的保障线上数据库的安全性,所以,我们每做一步都要考虑线上的实际应用环境,尽量做到:能不重启数据库就不重启,能不明文输密码,就不明文,一句话,为了安全,为了安全,为了安全
执行差异数据同步:
[root@backup ~]#pt-table-sync --replicate=test.checksums h=127.0.0.1,u=monitor,P=3316 --ask-pass h=192.168.32.2,u=monitor,P=3306 --ask-pass --execute
[root@iZ2ze1wy2vjnk07k06p7s5Z ~]# pt-table-checksum --nocheck-replication-filters --no-check-binlog-format --databases=bailitop h=127.0.0.1,u=monitor,P=3316 --ask-pass
Can't locate Term/ReadKey.pm
yum -y install perl-TermReadKey