主从复制监控

利用命令监控
show slave status;
相关数据解析

主库相关信息
Master_Host: 10.0.0.51
Master_User: repl
Master_Port: 3307
Connect_Retry: 10
Master_Log_File: mysql-bin.000001
Read_Master_Log_Pos: 444
中继日志执行到的位置点(回放了多少):
Relay_Log_File: db01-relay-bin.000002
Relay_Log_Pos: 320
从库线程状态监控
Slave_IO_Running: Yes
Slave_SQL_Running: Yes
报错信息:
Last_IO_Errno: 0
Last_IO_Error:
Last_SQL_Errno: 0
Last_SQL_Error:
过滤复制有关配置
Replicate_Do_DB:
Replicate_Ignore_DB:
Replicate_Do_Table:
Replicate_Ignore_Table:
Replicate_Wild_Do_Table:
Replicate_Wild_Ignore_Table:
从库回放的relay和主库binlog的对应关系
Exec_Master_Log_Pos: 444 # 主库对应position号
Relay_Log_Space: 526 # 从库relay号
主从延时时间
这个时间只能判断是否有延时 (有/没有) 没有什么参考价值
Seconds_Behind_Master: 0
延时从库有关配置
SQL_Delay: 0
SQL_Remaining_Delay: NULL
GTID复制有关信息
Retrieved_Gtid_Set:
Executed_Gtid_Set:
第5章主从复制故障分析及处理思路

线程故障分析

主要使用mysql slave status;进行监控

Slave_IO_Running: Yes
Slave_SQL_Running: Yes
Last_IO_Errno: 0
Last_IO_Error: 
Last_SQL_Errno: 0
Last_SQL_Error:

1.stop slave 
2.change master to  xxxx
3.start slave;

sql线程主要用于回放relay : 执行SQL语句
故障:

方法一：

stop slave; 
set global sql_slave_skip_counter = 1;
#将同步指针向下移动一个，如果多次不同步，可以重复操作。
start slave;

方法二：

/etc/my.cnf
slave-skip-errors = 1032,1062,1007

主从复制时跳过指定错误代码
常见错误代码:
1007:对象已存在
1032:无法执行DML
1062:主键冲突,或约束冲突

办法三:
从库只读 : 利用参数

read_only         
super_read_only

方法四: 读写分离中间件

利用工具 : 检查一致性
pt-table-sync
pt-table-checksum
检查延时:
pt-heartbeat

发现方法: 延时监控
Seconds_Behind_Master: 0
监控延时的日志造成延时的位置点

Exec_Master_Log_Pos:    # 主库pos号
Relay_Log_Space:        # 从库relay号

二进制日志书写不及时
解决方法: 使用双一标准 sync_binlog=1强制写入
主库IO有问题 (硬盘方面)
解决思路: binlog和数据分离分开存储尽量存储在ssd中
binlogdump串行模式的原因 Classic replication中主库可以并发执行事务,但是dump默认是串行工作的高并发时,大事务多的时候,会延时很高 .
解决方法: 开启GTID + ROW模式可以并行传输日志
业务繁忙时进行表结构变更
一般是在主从分别使用PT工具进行分开执行
其他原因网络抖动主库负载过大从库太多

relay-log写入不及时 IO问题
解: 最好是单独存储到ssd上
SQL线程回放慢
Classic replication中,SQL线程只有一个,只能串行回放relaylog.
高并发时,大事务多的时候,延时较严重.
5.6 出现了GTID 技术,可以执行多SQL线程,但是只能基于不同database才能.
5.7 开启GTID,出现了真正的并行SQL回放功能,MTS,基于事务级别并发回放.logical_clock模式