pt-table-checksum 3.0.4 bug 无法检查出不一致

环境及关键配置:oracle mysql 5.6.31、pt-table-checksum 3.0.4

binlog_format : row

现象:通过工具进行master slave 数据表的比对,命令如下:

无法检查出主从库里表一致的情况。

pt-table-checksum \

--host=172.17.0.2 \

--port=3306 \

--user=root \

--password=root \

--tables=test.sbtest1 \

--nocheck-replication-filters \

--nocreate-replicate-table \

--nocheck-binlog-format \

--replicate=percona.checksums \

--recursion-method dsn=t=percona.dsns

原因:简单说明下工具的原理

工具会在主库上建立表checksum,表中有字段this_crc,this_cnt,master_crc,master_cnt四个字段。

主库建表会同步到从库,this是从库表的一个chunk的值,master是主库相同chunk的值,对这四个字段进行比对,如果相等,则数据一致。

那么两组数据,四个值如何得到。

pt-table-checksum会先修改binlog_format=statement,再执行两次修改,第一次replace的方式修改this_crc,this_cnt,以“变量”值在主库执行

REPLACE INTO `percona`.`checksums` (db, tbl, chunk, chunk_index, lower_boundary, upper_boundary, this_cnt, this_crc) SELECT 'test', 't1', '1', NULL, NULL, NULL, COUNT(*) AS cnt, COALESCE(LOWER(CONV(BIT_XOR(CAST(CRC32(CONCAT_WS('#', `t`, CONCAT(ISNULL(`t`)))) AS UNSIGNED)), 10, 16)), 0) AS crc FROM `test`.`t1` /*checksum table*/

语句复制到从库执行,如果主从的同一个chunk不一致,则写入到值this_crc,this_cnt也会不一致

第二次update的方式修改master_crc,master_cnt

则是以master的值作为“常量”进行更新,例如:

UPDATE `percona`.`checksums` SET chunk_time = '0.005717', master_crc = '435a7b4f', master_cnt = '3' WHERE db = 'test' AND tbl = 't1' AND chunk = '1'

则从库会复制到主库的值,然后四个值两两比对,得到一致或者不一致。

那么为什么会出现无法检查出不一致的情况呢。

因为脚本没有执行set binlog_format=statement

试想下,如果没有修改复制模式,而主库的复制模式是row或者mixed,则第一次的replace会使用row的方式进行复制,那么从库表里的this和master两组字段数据始终会保持一致。

比对pt-table-checksum工具3.0.3和3.0.4版本,发现问题出在:

去掉这个if判断修改此bug

pt-table-checksum 3.0.4 bug 无法检查出不一致_第1张图片


附:

pt-table-checksum关键过程

引用自:http://keithlan.github.io/2016/05/25/pt_table_checksum/

master> /!50108 SET @@binlog_format := ‘STATEMENT’/ 设置binlog-format为statement

master> SET SESSION TRANSACTION ISOLATION LEVEL REPEATABLE READ 这是隔离级别为RR,利用RR的特性让数据在这一刻静止,就不用加锁了。

master> checksums表:REPLACE INTO select设置this_cnt, this_crc(传递到slave,这其实设置slave每个chunk的cnt,crc),算法来自:COALESCE(LOWER(CONV(BIT_XOR(CAST(CRC32(主键) AS UNSIGNED)), 10, 16)), 0)

slave> 当同步追上后,开始执行REPLACE INTO select,然后设置slave每个chunk的cnt,crc

master> checksums表:update master_cnt,master_crc ,这是设置master每个chunk的cnt,crc

slave> 当同步追上后,开始执行update master_cnt,master_crc ,这是设置master每个chunk的cnt,crc

以上,基本完成。 接下来只需要去checksums表中找 master_cnt <> this_cnt or OR master_crc <> this_crc 的记录就行。

在做查询校验时,select语句有两个小技巧:

/*!40001 SQL_NO_CACHE */    不加载数据到innodb buffer里,避免大量的内存被换出
FORCE INDEX 强制使用同样的索引

你可能感兴趣的:(pt-table-checksum 3.0.4 bug 无法检查出不一致)