工作上需要把一个从库提升为主库,但对从库和主库的数据一致性不能保证一样,所以就利用
pt-table-checksum 工作来检查主从的一致性,操作前需要注意的事项:
(1)在有些情况下,recursion-method如果不设会报错:Diffs cannot be detected because no slaves were found. 其参数有四:processlist/hosts/dsn=DSN/no,用来决定查找slave的方式是show full processlist还是show slave hosts还是命令行直接指定还是压根就不准备找从库,具体见下面参数介绍
(2)主从的端口必须一致,如果不一致就需要用DSN方法进行指定,否则会报找不到从库的错误,如果能连到从库服务器但没有指定端口,默认会寻找3306端口
(3)被检查的主从binlog_format必须为statement,如果不是statement-based,那就添加参数--no-check-binlog-format来避开binlog格式检查
(4)检查结果会输出到默认建立的percona库中的checksums表中,并会输出统计信息到屏幕,diffs列展示主从数据不一致的块的数目,如果都是0,恭喜,数据是一致的
(5)表的数据是唯一性,有主键或者唯一约束
(6)该工具检查的表,需要检查连接的帐号需要有很高的权限,在一般权限行需要加SELECT, PROCESS, SUPER, REPLICATION SLAVE等权限
(7)该工具检查的是数据,若表不存在是会报错的
(8)指定多个库或者表,中间用逗号隔开即可
(9)还原的时候会锁表,主要是通过record lock 和gap lock结合(主要是delete和replace操作,具体还要看事务隔离级别,这里说的是RR隔离级别)
实验环境、测试过程简单描述:
1、搭建好主从库,然后在主库添加一个pt使用的用户,测试给all 权限
GRANT all privileges ON *.* TO 'dlan'@'%' IDENTIFIED BY 'root123';
2、在主库上执行命令,对指定的库进行检查:
/usr/bin/pt-table-checksum h="192.168.15.57",u='dlan',p='root123',P=5700 -d dbconfig --nocheck-replication-filters --replicate=test.checksums --no-check-binlog-format --recursion-method=processlist;
TS ERRORS DIFFS ROWS CHUNKS SKIPPED TIME TABLE
01-16T16:47:00 0 0 2 1 0 0.461 dbconfig.checksums
01-16T16:47:00 0 0 2 1 0 0.346 dbconfig.mysql_backup_list
01-16T16:47:01 0 0 13 1 0 0.343 dbconfig.mysql_backup_log
在数据一致的情况下,都为0
3、在从库上操作,删除数据
truncate table mysql_backup_log;
4、在主库上执行:
/usr/bin/pt-table-checksum h="192.168.15.57",u='dlan',p='root123',P=5700 -d dbconfig --nocheck-replication-filters --replicate=test.checksums --no-check-binlog-format --recursion-method=processlist;
TS ERRORS DIFFS ROWS CHUNKS SKIPPED TIME TABLE
01-16T17:01:08 0 0 2 1 0 0.351 dbconfig.checksums
01-16T17:01:08 0 0 2 1 0 0.342 dbconfig.mysql_backup_list
01-16T17:01:09 0 1 13 1 0 0.344 dbconfig.mysql_backup_log
删除了表里的数据,DIFFS值为1
4、在主从上执行SQL,会看到不一样的结果。
SELECT db,tbl, SUM(this_cnt) AS total_rows, COUNT(*) AS chunks FROM test.checksums WHERE ( master_cnt <> this_cnt OR master_crc <> this_crc OR ISNULL(master_crc) <> ISNULL(this_crc)) GROUP BY db, tbl;
5、因为从库删除了数据,所以通过pt-table-sync来恢复,命令:
1、打印不一致的数据:
/usr/local/bin/pt-table-sync --print --replicate test.checksums --sync-to-master h='从库的IP地址',u='dlan',p='root123',P=5700
2、执行恢复主从一致的数据:
/usr/local/bin/pt-table-sync --execute --replicate test.checksums --sync-to-master h='从库的IP地址',u='dlan',p='root123',P=5700
#--sync-to-master :指定一个DSN,即从的IP,他会通过show processlist或show slave status 去自动的找主。
#--replicate :指定通过pt-table-checksum得到的表,这2个工具差不多都会一直用。
#--print :打印,但不执行命令。
#--execute :执行命令。