第一类以patch形式集成到官方工具mysqlbinlog中
优点
- 上手成本低。mysqlbinlog原有的选项都能直接利用,只是多加了一个闪回选项,未来有可能被官方收录。
- 支持离线解析。
缺点
- 兼容性差、项目活跃度不高。
- 难以添加新功能,实战效果欠佳。
- 安装麻烦。需要对mysql源码打补丁再编译生成。
第二类是独立工具,通过伪装成slave拉取binlog来进行处理。以binlog2sql为代表。
优点
- 兼容性好。伪装成slave拉binlog这项技术在业界应用的非常广泛
- 添加新功能的难度小,更容易被改造成DBA自己喜欢的形式。
- 安装和使用简单。
缺点
- 不支持离线解析,必须开启MySQL。
第三类是简单脚本,先用mysqlbinlog解析出文本格式的binlog,再根据回滚原理用正则进行匹配并替换。
优点
- 脚本写起来方便,往往能快速搞定某个特定问题。
- 安装和使用简单。
- 支持离线解析。
缺点
- 通用性不好。
- 可靠性不好。
就目前的闪回工具而言,线上环境的闪回建议使用binlog2sql,离线解析使用mysqlbinlog。
本文所述的闪回仅针对DML语句。如果误操作是DDL,是无法利用binlog做快速回滚的,因为即使在row模式下,binlog对于DDL操作也不会记录每行数据的变化。要实现DDL快速回滚,必须修改MySQL源码,使得在执行DDL前先备份老数据。目前有多个mysql定制版本实现了DDL闪回特性,DDL闪回的副作用是会增加额外存储。考虑到其应用频次实在过低,本文不做详述。
binlog2sql是大众点评开源的一款用于解析binlog的工具,该工具伪装成slave拉取binlog进行处理。
根据文档主要用途如下:
实际主要功能有两个:
MySQL server必须设置以下参数
[mysqld]
server_id = 1
log_bin = /var/log/mysql/mysql-bin.log
max_binlog_size = 1G
binlog_format = row
binlog_row_image = full
重启mysql
systemctl restart mysqld
用户所需最小权限集合
select,super/replication client,replication slave
权限说明
建议授权
GRANT SELECT,REPLICATION SLAVE,REPLICATION CLIENT ON *.* TO xxx;
https://github.com/danfengcao/binlog2sql
tar xvf binlog2sql.tar.gz
cd binlog2sql/binlog2sql_dependencies/
tar xvf setuptools-0.6c11.tar.gz
cd setuptools-0.6c11
python setup.py install
cd ..
tar xvf pip-9.0.1.tar.gz
cd pip-9.0.1
python setup.py install
cd ..
pip install *.whl mysql-replication-0.9.tar.gz
mysql> show master status;
+------------------+----------+--------------+------------------+-------------------+
| File | Position | Binlog_Do_DB | Binlog_Ignore_DB | Executed_Gtid_Set |
+------------------+----------+--------------+------------------+-------------------+
| mysql-bin.000001 | 154 | | | |
+------------------+----------+--------------+------------------+-------------------+
1 row in set (0.00 sec)
create database testdb;
use testdb;
create table tmp1108 (a int);
insert into tmp1108 values (1);
insert into tmp1108 values (2);
update tmp1108 set a=3 where a=2;
insert into tmp1108 values (4);
delete from tmp1108 where a=4;
select * from tmp1108;
+------+
| a |
+------+
| 1 |
| 3 |
+------+
2 rows in set (0.00 sec)
cd /root/binlog2sql/binlog2sql
python binlog2sql.py -uroot -p'xxx' -d testdb -t tmp1108 --start-file=mysql-bin.000001
#输出如下:
USE testdb;
create database testdb;
USE testdb;
create table tmp1108 (a int);
INSERT INTO `testdb`.`tmp1108`(`a`) VALUES (1); #start 490 end 721 time 2019-11-08 17:11:47
INSERT INTO `testdb`.`tmp1108`(`a`) VALUES (2); #start 752 end 983 time 2019-11-08 17:11:48
UPDATE `testdb`.`tmp1108` SET `a`=3 WHERE `a`=2 LIMIT 1; #start 1014 end 1251 time 2019-11-08 17:11:59
INSERT INTO `testdb`.`tmp1108`(`a`) VALUES (4); #start 1282 end 1513 time 2019-11-08 17:12:00
DELETE FROM `testdb`.`tmp1108` WHERE `a`=4 LIMIT 1; #start 1544 end 1775 time 2019-11-08 17:12:07
cd /root/binlog2sql/binlog2sql
python binlog2sql.py --flashback -uroot -'xxx' -d testdb -t tmp1108 --start-file=mysql-bin.000001
#输出如下:
INSERT INTO `testdb`.`tmp1108`(`a`) VALUES (4); #start 1544 end 1775 time 2019-11-08 17:12:07
DELETE FROM `testdb`.`tmp1108` WHERE `a`=4 LIMIT 1; #start 1282 end 1513 time 2019-11-08 17:12:00
UPDATE `testdb`.`tmp1108` SET `a`=2 WHERE `a`=3 LIMIT 1; #start 1014 end 1251 time 2019-11-08 17:11:59
DELETE FROM `testdb`.`tmp1108` WHERE `a`=2 LIMIT 1; #start 752 end 983 time 2019-11-08 17:11:48
DELETE FROM `testdb`.`tmp1108` WHERE `a`=1 LIMIT 1; #start 490 end 721 time 2019-11-08 17:11:47
mysql> use testdb;
Database changed
mysql> select * from tmp1108;
+------+
| a |
+------+
| 1 |
| 3 |
+------+
2 rows in set (0.00 sec)
mysql> truncate table tmp1108;
Query OK, 0 rows affected (0.04 sec)
mysql> select * from tmp1108;
Empty set (0.01 sec)
查看解析出的sql
python binlog2sql.py -uroot -p'xxx' -d testdb -t tmp1108 --start-file=mysql-bin.000001
#输出如下:
USE testdb;
create database testdb;
USE testdb;
create table tmp1108 (a int);
INSERT INTO `testdb`.`tmp1108`(`a`) VALUES (1); #start 490 end 721 time 2019-11-08 17:11:47
INSERT INTO `testdb`.`tmp1108`(`a`) VALUES (2); #start 752 end 983 time 2019-11-08 17:11:48
UPDATE `testdb`.`tmp1108` SET `a`=3 WHERE `a`=2 LIMIT 1; #start 1014 end 1251 time 2019-11-08 17:11:59
INSERT INTO `testdb`.`tmp1108`(`a`) VALUES (4); #start 1282 end 1513 time 2019-11-08 17:12:00
DELETE FROM `testdb`.`tmp1108` WHERE `a`=4 LIMIT 1; #start 1544 end 1775 time 2019-11-08 17:12:07
USE testdb;
truncate table tmp1108; <---------- truncate语句
查看对应回滚sql
python binlog2sql.py --flashback -uroot -p'Mouri_Ran910' -d testdb -t tmp1108 --start-file=mysql-bin.000001
#输出如下:
INSERT INTO `testdb`.`tmp1108`(`a`) VALUES (4); #start 1544 end 1775 time 2019-11-08 17:12:07
DELETE FROM `testdb`.`tmp1108` WHERE `a`=4 LIMIT 1; #start 1282 end 1513 time 2019-11-08 17:12:00
UPDATE `testdb`.`tmp1108` SET `a`=2 WHERE `a`=3 LIMIT 1; #start 1014 end 1251 time 2019-11-08 17:11:59
DELETE FROM `testdb`.`tmp1108` WHERE `a`=2 LIMIT 1; #start 752 end 983 time 2019-11-08 17:11:48
DELETE FROM `testdb`.`tmp1108` WHERE `a`=1 LIMIT 1; #start 490 end 721 time 2019-11-08 17:11:47
可以发现没有truncate对应回滚sql,因此该工具无法恢复truncate/drop等造成的数据丢失。
真实的闪回场景中,最关键的是能快速筛选出真正需要回滚的SQL。
小明在11:44时误删了test库user表大批的数据,需要紧急回滚。
#test库user表原有数据
mysql> select * from user;
+----+--------+---------------------+
| id | name | addtime |
+----+--------+---------------------+
| 1 | 小赵 | 2013-11-11 00:04:33 |
| 2 | 小钱 | 2014-11-11 00:04:48 |
| 3 | 小孙 | 2016-11-11 20:25:00 |
| 4 | 小李 | 2013-11-11 00:00:00 |
.........
+----+--------+---------------------+
16384 rows in set (0.04 sec)
#11:44时,user表大批数据被误删除。与此同时,正常业务数据是在继续写入的
mysql> delete from user where addtime>'2014-01-01';
Query OK, 16128 rows affected (0.18 sec)
mysql> select count(*) from user;
+----------+
| count(*) |
+----------+
| 261 |
+----------+
#登录mysql,查看目前的binlog文件
mysql> show master logs;
+------------------+-----------+
| Log_name | File_size |
+------------------+-----------+
| mysql-bin.000053 | 168652863 |
| mysql-bin.000054 | 504549 |
+------------------+-----------+
最新的binlog文件是mysql-bin.000054。我们的目标是筛选出需要回滚的SQL,由于误操作人只知道大致的误操作时间,我们首先根据时间做一次过滤,只解析目标表(如果有多个sql误操作,则生成的binlog可能分布在多个文件,需解析多个文件)。
python binlog2sql.py -uadmin -p'admin' -dtest -tuser --start-file='mysql-bin.000054' --start-datetime='2016-12-26 11:44:00' --stop-datetime='2016-12-26 11:50:00' > /tmp/raw.sql
#raw.sql输出:
DELETE FROM `test`.`user` WHERE `addtime`='2014-11-11 00:04:48' AND `id`=2 AND `name`='小钱' LIMIT 1; #start 257427 end 265754 time 2016-12-26 11:44:56
DELETE FROM `test`.`user` WHERE `addtime`='2015-11-11 20:25:00' AND `id`=3 AND `name`='小孙' LIMIT 1; #start 257427 end 265754 time 2016-12-26 11:44:56
...
DELETE FROM `test`.`user` WHERE `addtime`='2016-12-14 23:09:07' AND `id`=24530 AND `name`='tt' LIMIT 1; #start 257427 end 504272 time 2016-12-26 11:44:56
INSERT INTO `test`.`user`(`addtime`, `id`, `name`) VALUES ('2016-12-10 00:04:33', 32722, '小王'); #start 504299 end 504522 time 2016-12-26 11:49:42
...
根据位置信息,我们确定了误操作sql来自同一个事务,准确位置在257427-504272之间(binlog2sql对于同一个事务会输出同样的start position)。再根据准确位置,使用-B选项生成回滚sql,检查回滚sql是否正确(注:真实场景下,生成的回滚SQL经常会需要进一步筛选,结合grep、编辑器等)。
python binlog2sql/binlog2sql.py -uadmin -p'admin' -dtest -tuser --start-file='mysql-bin.000054' --start-position=257427 --stop-position=504272 -B > /tmp/rollback.sql
#rollback.sql 输出:
INSERT INTO `test`.`user`(`addtime`, `id`, `name`) VALUES ('2016-12-14 23:09:07', 24530, 'tt'); #start 257427 end 504272 time 2016-12-26 11:44:56
INSERT INTO `test`.`user`(`addtime`, `id`, `name`) VALUES ('2016-12-12 00:00:00', 24529, '小李'); #start 257427 end 504272 time 2016-12-26 11:44:56
...
INSERT INTO `test`.`user`(`addtime`, `id`, `name`) VALUES ('2014-11-11 00:04:48', 2, '小钱'); #start 257427 end 265754 time 2016-12-26 11:44:56
由业务方确认回滚sql,最好是让他们自己去执行,避免二次误操作。
shell> mysql -h127.0.0.1 -P3306 -uadmin -p'admin' < /tmp/rollback.sql
mysql> select count(*) from user;
+----------+
| count(*) |
+----------+
| 16389 |
+----------+
参考
https://github.com/danfengcao/binlog2sql
http://www.cnblogs.com/ivictor/p/6418409.html
https://github.com/danfengcao/binlog2sql/blob/master/example/mysql-flashback-priciple-and-practice.md