pt-heartbeat原理研究

一、简介

Mysql Seconds_Behind_Master参数对于主从延迟测量并不准确,因为他的统计基于 slave SQLthread I/O thread的时间差,如果i/o thread 受到网络影响,这个估值就非常不正确。一般采用更精确的主从延迟检测pt-heartbeatpt-heartbeat分为两个部分第一个为update,发生在主库上,更新时间戳。第二个部分monitorcheck,发生在从库,检查主库传过来的时间戳与从库系统时间做比较Check monitor区别在于check只是跑一次就退出,monitor是持续的检查主从延迟情况。--update--monitor, and --check 是互斥的,只能选一个选项.

 

二、原理分析

从库:

perl /usr/bin/pt-heartbeat --user=dbadmin--password=NV7yVBpn88cg4WJCVlZd --host=10.128.6.94 --monitor --port=3306--create-table -D test --interval=10 --log=/tmp/testmysql.log --daemonize--file=/tmp/test_lag.log

你所不知道的Pt heartbeat_第1张图片

 

可以发现hb当有create-table设置的时候就会自动在制定库里创建 heartbeat表(--create-table -D test,如果不规定-D 默认会在mysql库里新建,heartbeat表如果中途被删了,将会在—log里报错并且不再监控延迟),当发现表里没有数据时会自动插入记录,插入数据(ip和时间戳)包含主机信息(通过SHOW SLAVE STATUS)和备库信息(在备库上执行SELECT @@server_id

可以发现hb每隔10秒查询主库的时间戳,因为设置了--interval=10

 

wKioL1fagsiCwV5gAAAl_6_mQz4345.png-wh_50

wKiom1fagsjz-quEAAAse1n9xs8759.png-wh_50

他把主库传来的的时间戳与系统时间对比,得出延迟值。

wKioL1faguDj8CyeAAAoCVuXiUA319.png-wh_50

---file信息为lag的信息:

wKioL1fagvrjopZDAAAFw_NN768859.png-wh_50

默认情况:now [1m,5m,15m]的延迟,可以更改—frames参数来调整延迟平均计算时间。采样时间原理是将每个interval延迟信息记到到内存,然后根据—frames时间算平均。

PH何时开始检查延迟:不管主库的update和从库的monitor格式,都会以整秒启动monitor还需要加上skew(延迟检查时间)。

 

主库:

perl /usr/bin/pt-heartbeat --user=dbadmin--password=NV7yVBpn88cg4WJCVlZd --host=10.128.6.93 --port=3308 --create-table-D test --update --interval=10 --log=/tmp/lagmysql.log --daemonize

wKiom1fagxDR2YHiAAB_UoKoEdU942.png-wh_50

可以发现也是createtable ,然后主库每一个interval插当前时间戳数据(where条件为主库的id

大家注意看到log显示有9秒的延迟,是不是真的是延迟九秒呢?答案不是,因为想一下主库和从库启动heartbeat 时间有偏差,导致有可能主库在update时,过了几秒,然而还没到下个采样时间,这时从库到了采集时间,就会发现值有偏差。但是这个偏差都会小于一个inteval。总体来说对延迟校验没什么影响。

wKiom1fagyWDQ4STAAAKuY90AXQ180.png-wh_50

你所不知道的Pt heartbeat_第2张图片

 


####可以看到从库新增两条信息,主库却新增一条。主从切换的时候讲会有隐患,介意从库增加—replace选项,不管主从数据有没有都会做replace操作。

wKioL1fag3jx5IMsAAAjDQLfgU8919.png-wh_50

 

三、级联运用

主从从:

M1server id 1->S1 server id2->S2

M1 S1开启heartbeat更新

pt-heartbeat --daemonize -D test --update-h M1机器

pt-heartbeat --daemonize -D test --update-h S1机器

S2m1时间戳进行对比,得出S2M1的延迟,如果不指定master-server-idS2会找他的直接主库进行时间戳比较(即S1

pt-heartbeat -D test --master-server-id 1 --check (S2机器)

S2S1时间戳进行对比,得出S2S1的延迟

pt-heartbeat -D test --master-server-id 2 --check slave2(S2机器)