常见主从部署架构:一主多从、一丛多主、双主复制、主从级联复制。
1.从节点开启start slave,开启主从复制,从节点IO线程与主节点建立连接,请求数据同步;
2.主节点接收到从节点的数据请求,针对该从节点建立单独的log dump线程,将数据返回给从节点;
3.从节点接收到主节点发送过来的binlog之后,会将binlog追加到rely log后面,并保存已处理过的binlog位置
4.从节点的sql线程检测到rely log内容有变化,会将rely log追加的内容解析成sql,然后执行sql;
MySQL主从复制主要涉及三个线程,一个在源两个在副本:
- binary log dump thread (二进制日志转储线程):当副本连接到源时,源创建这个线程将二进制内容发送到副本。在源上使用show processlist查看时,该线程被标识为Binlog Dump线程。
- replication I/O thread(复制IO线程):在副本上发出START REPLICA语句时,副本创建一个IO线程,该线程连接到源并要求它发送其二进制日志中记录的更新。复制IO线程接收到源的二进制日志的更新,并将其保存到副本的中继日志文件中。在show slave status的输出中,该线程的状态显示为Slave_IO_running
- Replication IO thread(复制sql线程):副本创建的SQL线程来读取复制IO线程写入的中继日志,并执行其中包含的事务。把系统参数replica_parallel_workers设置为大于0时,会有指定相同数量的工作线程并行执行SQL线程的工作和一个协调线程协调这些工作线程
异步复制:主节点将数据写入到binlog,提交事务后就立即返回给客户端,不关心binlog是否同步到从节点
半同步复制:binlog至少同步给一个从节点之后就返回给客户端成功
全同步复制:binlog需要成功同步给所有从节点之后才返回给客户端成功
ROW:行,记录某一条记录被修改成了什么样子,只需要记录修改后的所有字段细节,可能导致产生大量日志影响同步效率
Statement:语句,只记录执行的SQL,日志量小,但对于某些函数(now()等可能存在重放值不一样导致主从数据不一致
MIXED:混合,MySQL智能判断时使用statement还是row格式,默认修改采用statement模式,如果statement模式无法保证主从复制的一致性,则采用ROW模式
通过配置参数binlog_format决定:
mysql>show variables like 'binlog_format';
+-----------------+---------+
| Variable_name | Value |
+-----------------+---------+
| binlog_format | Row |
+-----------------+---------+
主从搭建需要保证主库和从库的server_id不一样,主库必须要开启二进制日志(log_bin为ON),同时开启gtid,设置enforce_gtid_consistency=1。
mysql>show variables like 'log_bin';
+----------------+---------+
| Variable_name | Value |
+----------------+---------+
| log_bin | ON |
+----------------+---------+
主库上创建用于主从复制的账号:
mysql>create user 'reg'@'%' identified by 'a123456';
Query OK, 0 rows affected (0.02 sec)
给账号授予复制权限:
mysql> grant replication slave on *.* to 'reg'@'%';
Query OK, 0 rows affected (0.01 sec)
从库上执行:
mysql> change master to master_host='10.453.63.5',master_port_3306,master_user='reg',master_password='a123456',master_auto_position=1;
Query OK, 0 rows affected, 2 warnings (0.02 sec)
从库上开启同步:
mysql> start slave;
查看从库状态,如果Slave_IO_Running和Slave_SQL_Running两个状态都为Yes,则表示主从同步正常。
mysql> show slave status\G
mysql> show slave status\G
*************************** 1. row ***************************
Slave_IO_State: Waiting for master to send event --IO thread的状态
Master_Host: 10.95.253.241 -- 主库ip
Master_User: repl -- 用于连接主库复制账号(这个账号是在主库上创建)
Master_Port: 3300 -- 主库端口
Connect_Retry: 10 -- 连接重试的秒数(默认 60)
Master_Log_File: mysql-bin.005395 -- I/O 线程当前正在读取的主库的二进制日志文件名称。
Read_Master_Log_Pos: 684976832 -- I/O 线程已读取的当前主库二进制日志文件中的位点
Relay_Log_File: dd-relay.000063 -- SQL线程正在读取和执行的中继日志名称
Relay_Log_Pos: 684953253 -- SQL线程正在读取和执行的当前中继日志的位点
Relay_Master_Log_File: mysql-bin.005395 -- SQL 线程执行的最新事件 对应在主库上的二进制日志文件名称。
Slave_IO_Running: Yes -- IO线程是否已启动并已成功连接到主库
Slave_SQL_Running: Yes -- SQL线程是否启动。
Replicate_Do_DB: -- 需要复制的DB
Replicate_Ignore_DB: -- 复制忽略的DB
Replicate_Do_Table: -- 需要复制的表
Replicate_Ignore_Table: -- 复制忽略的表
Replicate_Wild_Do_Table: -- 用于指定需要复制的数据库表,支持通配符(wildcard)的形式
Replicate_Wild_Ignore_Table: -- 用于指定需要忽略(不复制)的数据库表,同样支持通配符的形式。
Last_Errno: 0 -- Last_SQL_Errno的别名
Last_Error: -- Last_SQL_Error的别名
Skip_Counter: 0 -- 系统变sql_slave_skip_counter 的当前值 (从库跳过的SQL数量)
Exec_Master_Log_Pos: 684953080 -- SQL线程已经读取和执行过的中继日志 对应在主库二进制日志文件的位点
Relay_Log_Space: 684977292 -- 所有现有中继日志文件的总大小。
Until_Condition: None -- start slave 中制定 until 语句
Until_Log_File: -- start slave 中制定 until 语句
Until_Log_Pos: 0 -- start slave 中制定 until 语句
Master_SSL_Allowed: No -- 是否允许与源的 SSL 连接
Master_SSL_CA_File: -- 指定用于验证主服务器证书的证书颁发机构(CA)文件的路径
Master_SSL_CA_Path: -- 指定用于验证主服务器证书的证书颁发机构(CA)路径的路径
Master_SSL_Cert: -- 指定从服务器的 SSL 证书文件的路径
Master_SSL_Cipher: -- 指定在 SSL 通信中使用的密码套件
Master_SSL_Key: -- 指定从服务器的 SSL 私钥文件的路径
Seconds_Behind_Master: 0 -- 主从延迟
Master_SSL_Verify_Server_Cert: No -- 表示是否验证主服务器的 SSL 证书。
Last_IO_Errno: 0 -- 导致IO线程停止的最近一次的错误码,Errno :0 表示表示没有错误
Last_IO_Error: -- 导致IO线程停止的最近的错误信息 。Erro为空表示没有错误
Last_SQL_Errno: 0 -- 导致SQL线程停止的最近的错误码。Errno :0 表示没有错误
Last_SQL_Error: -- 导致SQL线程停止的错误信息,Erro为空表示没有错误
Replicate_Ignore_Server_Ids: -- 忽略复制的主库的server_id
Master_Server_Id: 181323300 -- 主库的参数server_id的值
Master_UUID: 127ef593-1826-11eb-8a97-6c92bf7d39de -- 主库参数server_uuid的值
Master_Info_File: mysql.slave_master_info -- 在从库上存储主库信息的文件或表
SQL_Delay: 0 -- 从库延迟主库多少秒
SQL_Remaining_Delay: NULL -- 当Slave_SQL_Running_State为 时 Waiting until MASTER_DELAY seconds after master executed event,该字段包含剩余延迟秒数。其他时候,该字段为 NULL。
Slave_SQL_Running_State: Slave has read all relay log; waiting for more updates -- SQL线程的运行状态
Master_Retry_Count: 86400 -- 在连接丢失的情况下,从库可以尝试重新连接到主库的次数。
Master_Bind: --
Last_IO_Error_Timestamp: -- 最近的I/O 线程发生错误的时间 格式YYMMDD hh:mm:ss
Last_SQL_Error_Timestamp: -- 最近的SQL 线程发生错误的时间 格式YYMMDD hh:mm:ss
Master_SSL_Crl: -- 指定撤销列表 (CRL) 文件的路径,该文件包含已被撤销的 SSL 证书列表
Master_SSL_Crlpath: -- 指定撤销列表 (CRL) 文件的路径,该文件包含已被撤销的 SSL 证书列表
Retrieved_Gtid_Set: 127ef593-1826-11eb-8a97-6c92bf7d39de:330411-2764671 -- 从库已经接收到的GTID的集合(I/O线程),如果GTID模式没有开启则为空。这个值是现在存在或者已经存在在relay log中的GTID集合
Executed_Gtid_Set: 127ef593-1826-11eb-8a97-6c92bf7d39de:1-2764671,
3133d0b5-8d65-11e7-9f2e-c88d83a9846a:1-12697883,
657b7d6b-8d60-11e7-b85f-6c92bf4e09e6:1-1661102840 -- 已经被写进binlog的GTID的集合(SQL线程),这个值和 系统参数 gtid_executed 相同。也和在该实例上执行 show master status 中的Executed_Gtid_Set 值相同
Auto_Position: 1 -- 如果正在使用自动定位1;否则为 0。
Replicate_Rewrite_DB: -- 用于指定需要在主从复制过程中进行数据库名重写的规则。
Channel_Name: -- 正在显示的复制通道
Master_TLS_Version: -- 源上使用的 TLS 版本
为了完成主从复制,从库需要通过 I/O 线程获取主库中 dump 线程读取的 binlog 内容并写入到自己的中继日志 relay log 中,从库的 SQL 线程再读取中继日志,重做中继日志中的日志,相当于再执行一遍 SQL,更新自己的数据库,以达到数据的一致性。
与数据同步有关的时间点主要包括以下三个:
主库执行完一个事务,写入 binlog,将这个时刻记为 T1;
之后传给从库,将从库接收完这个 binlog 的时刻记为 T2;
从库执行完成这个事务,将这个时刻记为 T3。
所谓主从延迟,就是同一个事务,从库执行完成的时间与主库执行完成的时间之差,也就是 T3 - T1。
MySQL的主从复制都是单线程的操作,主库对所有DDL和DML产生的日志写进binlog,由于binlog是顺序写,所以效率很高。Slave的SQL Thread线程将主库的DDL和DML操作事件在slave中重放。DML和DDL的IO操作是随即的,不是顺序的,成本高很多。另一方面,由于SQL Thread也是单线程的,当主库的并发较高时,产生的DML数量超过slave的SQL Thread所能处理的速度,或者当slave中有大型query语句产生了锁等待那么延时就产生了。
1.如果是读写分离的系统,从库延时过高会导致数据不一致,导致读取数据有误
2.如果主从延时时间超过主库binlog保留时间,从库将产生数据丢失
3.主从延迟过大,会影响数据库的高可用切换
分析主从延迟的原因
主从延迟的原因可能有多种,包括网络延迟、硬件故障、复制线程阻塞等。我们需要深入分析这些原因,并评估它们对主从延迟的影响程度。例如,网络延迟可能是最常见的原因之一,我们可以通过优化网络配置、使用更快的网络设备等方式来减少网络延迟。
监测主从延迟
为了及时发现和解决主从延迟问题,我们需要监测主从延迟的情况。常用的监测方法和工具包括Percona Toolkit和pt-heartbeat等。这些工具可以帮助我们设置监测阈值和触发警报的机制,以便及时采取措施。
优化主从复制配置
优化主从复制的配置可以帮助我们减少主从延迟。
# 增加以下配置项,启用并行复制
slave_parallel_type = LOGICAL_CLOCK
slave_parallel_workers = 8