gh-ost是MySQL的无触发器在线DDL。它是可测试的,并提供可暂停性、动态控制/重新配置、审计和许多操作特权。DDL时master会生成少量工作负载,与迁移表上的现有工作负载分离。详细内容请看github
MySQL 对表交换的发生方式设置了一些限制。 虽然它支持原子交换,但它不允许连接到其锁定的交换表。
如果指定 --cut-over,则默认为上述原子切换算法。 还支持 --cut-over=two-step,它使用 FB 非原子算法
gh-ost 的运行方式是连接到可能的多个服务器,并将自身强加为副本,以便直接从其中一台服务器流式获取binary log events。 有多种操作模式,具体取决于您的设置、配置以及要运行迁移的位置。如下图所示
这是 gh-ost 默认期望的模式。 gh-ost 将调查副本,找到拓扑的主节点,并且也会链接到master上。
从库必须开启row格式的binary log,必须开启log_slave_updates参数
gh-ost \
--max-load=Threads_running=25 \
--critical-load=Threads_running=1000 \
--chunk-size=1000 \
--throttle-control-replicas="myreplica.1.com,myreplica.2.com" \
--max-lag-millis=1500 \
--user="gh-ost" \
--password="123456" \
--host=replica.with.rbr.com \
--database="my_schema" \
--table="my_table" \
--verbose \
--alter="engine=innodb" \
--switch-to-rbr \
--allow-master-master \
--cut-over=default \
--exact-rowcount \
--concurrent-rowcount \
--default-retries=120 \
--panic-flag-file=/tmp/ghost.panic.flag \
--postpone-cut-over-flag-file=/tmp/ghost.postpone.flag \
[--execute] # 指定了--execute才会实际运行复制数据和切换表的操作
如果没有从库,或者不想使用它们,仍然可以直接在master上进行操作。 gh-ost 将直接在 master 上执行所有操作。 需要考虑复制延迟的情况
gh-ost \
--max-load=Threads_running=25 \
--critical-load=Threads_running=1000 \
--chunk-size=1000 \
--throttle-control-replicas="myreplica.1.com,myreplica.2.com" \
--max-lag-millis=1500 \
--user="gh-ost" \
--password="123456" \
--host=master.with.rbr.com \
--allow-on-master \
--database="my_schema" \
--table="my_table" \
--verbose \
--alter="engine=innodb" \
--switch-to-rbr \
--allow-master-master \
--cut-over=default \
--exact-rowcount \
--concurrent-rowcount \
--default-retries=120 \
--panic-flag-file=/tmp/ghost.panic.flag \
--postpone-cut-over-flag-file=/tmp/ghost.postpone.flag \
[--execute]
这将在从库上执行迁移。 gh-ost 将短暂连接到master,但随后将在从库执行所有操作,而不修改master上的任何内容。 在整个操作过程中,gh-ost 将进行限制,以使从库保持最新。
gh-ost \
--user="gh-ost" \
--password="123456" \
--host=replica.with.rbr.com \
--test-on-replica \
--database="my_schema" \
--table="my_table" \
--verbose \
--alter="engine=innodb" \
--initially-drop-ghost-table \
--initially-drop-old-table \
--max-load=Threads_running=30 \
--switch-to-rbr \
--chunk-size=500 \
--cut-over=default \
--exact-rowcount \
--concurrent-rowcount \
--serve-socket-file=/tmp/gh-ost.test.sock \
--panic-flag-file=/tmp/gh-ost.panic.flag \
--execute
用--conf=/path/to/config/file.cnf替代用户名密码的配置
[client]
user=gh-ost
password=123456
双主单写的架构,目前不支持双主双写架构
gh-ost --allow-master-master
# ghost会选择其中的一个master进行操作,当然你也可以指定master
gh-ost --allow-master-master --assume-master-host=a.specific.master.com
tungsten 复制是一种第三方复制,所以类似一个单独的程序,并不能通过常规查看主从拓扑的方式查到,这对这种可以选择在主库执行变更,如果连接到从库则需要开启tungsten的og-slave-updates。另外 --switch-to-rbr 不适用于 Tungsten 设置,因为复制过程是外部的,因此您需要确保在 Tungsten Replicator 连接到服务器并开始应用来自主服务器的事件之前将 binlog_format 设置为 ROW
gh-ost --tungsten --assume-master-host=the.topology.master.com
gh-ost 被设计为易于操作。 为此,它允许用户即使在运行时也可以控制其行为。
help:显示可用命令的简要列表
status:返回迁移进度和配置的详细状态摘要
sup:返回迁移进度的简要状态摘要
coordinates:返回被检查服务器的最新(尽管不完全是最新的)二进制日志坐标
applier:返回应用程序的主机名
inspector:返回检查器的主机名
chunk-size=<newsize>:修改chunk-size; 适用于下一次运行的复制迭代
dml-batch-size=<newsize>:修改dml-batch-size; 适用于下次应用二进制日志事件
max-lag-millis=<max-lag>:修改最大复制滞后阈值(毫秒,最小值为100,即0.1秒)
max-load=<max-load-thresholds>:修改最大负载配置; 适用于下一次运行的复制迭代
格式必须为:some_status=<numeric-threshold>[,some_status=<numeric-threshold>...]
例如:Threads_running=50,threads_connected=1000,然后您将写入/echo max-load=Threads_running=50,threads_connected=1000 到套接字。
critical-load=<critical-load-thresholds>: 修改关键负载配置(超过这些阈值将中止操作)
格式必须为:some_status=<numeric-threshold>[,some_status=<numeric-threshold>...]
例如:Threads_running=1000,threads_connected=5000,然后您将写入/echo critical-load=Threads_running=1000,threads_connected=5000 到套接字。
nice-ratio=<ratio>: 更改执行频率,范围为0到任何正整数,假如复制一行数据需要1ms,nice-ratio=0.5,那么久需要额外sleep 0.5*1ms
throttle-http:更改节流HTTP 端点
throttle-query:更改节流查询
throttle-control-replicas='replica1,replica2': 更改限制控制副本列表,这些是gh-ost将检查的副本。这需要一个逗号分隔的副本列表来检查并替换之前的列表。
throttle:强制暂停迁移
no-throttle:取消强制暂停(尽管其他限制原因可能仍然适用)
unpostpone:在gh-ost推迟切换阶段时,gh-ost指示停止推迟并立即进行切换。
panic:紧急中止操作
$ echo status | nc -U /tmp/gh-ost.test.sample_data_0.sock
# Migrating `test`.`sample_data_0`; Ghost table is `test`.`_sample_data_0_gst`
# Migration started at Tue Jun 07 11:45:16 +0200 2016
# chunk-size: 200; max lag: 1500ms; dml-batch-size: 10; max-load: map[Threads_connected:20]
# Throttle additional flag file: /tmp/gh-ost.throttle
# Serving on unix socket: /tmp/gh-ost.test.sample_data_0.sock
# Serving on TCP port: 10001
Copy: 0/2915 0.0%; Applied: 0; Backlog: 0/100; Elapsed: 40s(copy), 41s(total); streamer: mysql-bin.000550:49942; ETA: throttled, flag-file
$ echo status | nc -U /tmp/gh-ost.test.sample_data_0.sock
# Migrating `test`.`sample_data_0`; Ghost table is `test`.`_sample_data_0_gst`
# Migration started at Tue Jun 07 11:45:16 +0200 2016
# chunk-size: 200; max lag: 1500ms; dml-batch-size: 10; max-load: map[Threads_connected:20]
# Throttle additional flag file: /tmp/gh-ost.throttle
# Serving on unix socket: /tmp/gh-ost.test.sample_data_0.sock
# Serving on TCP port: 10001
Copy: 0/2915 0.0%; Applied: 0; Backlog: 0/100; Elapsed: 40s(copy), 41s(total); streamer: mysql-bin.000550:49942; ETA: throttled, flag-file
# 对于接受参数作为值的命令,传递 ? (问号)获取当前值而不是设置新值
$ echo "chunk-size=?" | nc -U /tmp/gh-ost.test.sample_data_0.sock
250
$ echo throttle | nc -U /tmp/gh-ost.test.sample_data_0.sock
$ echo status | nc -U /tmp/gh-ost.test.sample_data_0.sock
# Migrating `test`.`sample_data_0`; Ghost table is `test`.`_sample_data_0_gst`
# Migration started at Tue Jun 07 11:56:03 +0200 2016
# chunk-size: 250; max lag: 1500ms; max-load: map[Threads_connected:20]
# Throttle additional flag file: /tmp/gh-ost.throttle
# Serving on unix socket: /tmp/gh-ost.test.sample_data_0.sock
# Serving on TCP port: 10001
Copy: 0/2915 0.0%; Applied: 0; Backlog: 0/100; Elapsed: 59s(copy), 59s(total); streamer: mysql-bin.000551:68067; ETA: throttled, commanded by user
命令 | 注释 |
---|---|
aliyun-rds | 在阿里云RDS上执行时添加此标志 |
allow-zero-in-date | 允许用户进行包含零日期或日期为零的架构更改(例如,添加日期时间默认“0000-00-00 00:00:00”列),即使 MySQL 上的全局 sql_mode 具有 NO_ZERO_IN_DATE、NO_ZERO_DATE。 |
azure | 在 Azure Database for MySQL 上执行时添加此标志 |
allow-master-master | 参考 --assume-master-host。 |
allow-on-master | 默认情况下,gh-ost 希望连接到一个副本,从那里它自己找出主服务器。如果由于某种原因,不希望 gh-ost 连接到副本,可以将其直接连接到主服务器并通过 --allow-on-master 批准此操作。 |
approve-renamed-columns | 当您的迁移发出列重命名(更改列 old_name new_name …)时,gh-ost 会分析该语句以尝试将旧列名与新列名关联起来。 否则,新结构也可能看起来像是删除了一些列并添加了另一列。gh-ost 将打印出它认为重命名所暗示的内容,但不会发出迁移,除非您提供 --approve-renamed-columns。如果您认为 gh-ost 是错误的并且实际上没有涉及重命名,您可以通过 --skip-renamed-columns 来代替。 这将导致 gh-ost 取消列值的关联; 数据不会在这些列之间复制。 |
assume-master-host | gh-ost 通过爬取复制拓扑来推断主服务器的身份。 您可以通过 --assume-master-host=the.master.com 明确告诉 gh-ost 主控主机的身份。 这在以下方面很有用: master-master 拓扑:(与 --allow-master-master 一起),其中 gh-ost 可以任意选择一个共同主控,并且您更喜欢它选择一个特定的主控 tungsten 复制器拓扑(与 --tungsten 一起),其中 gh-ost 无法抓取和检测主服务器 |
assume-rbr | 如果服务器使用 RBR(基于行的复制,即 binlog_format=ROW),则可以指定 --assume-rbr。 这会跳过验证步骤(验证步骤中 gh-ost 将发出 STOP SLAVE; start slave)。 跳过此步骤意味着 gh-ost 不需要 SUPER 权限即可进行操作。 在 Amazon RDS 上比较适用。 |
attempt-instant-ddl | MySQL 8.0 支持某些操作的“instant DDL”。 如果alter语句可以通过 instant DDL完成,则内部只需要更改元数据。 即时操作包括:添加列,删除一列,删除索引,扩展 varchar 列,添加虚拟生成列 解析 ALTER 语句以确定它是否是即时的并不可靠。 这是因为该表可能采用较旧的行格式,或者具有其他一些难以识别的不兼容性。 –attempt-instant-ddl 默认是禁用的,但是启用它的风险相对较小:gh-ost 可能需要在操作开始时获取元数据锁。 对于大多数场景来说这不是问题,但对于在长时间运行事务期间启动 DDL 的用户来说可能会出现问题。如果尝试使用即时 DDL 不成功,gh-ost 将自动回退到正常 DDL 过程。 |
binlogsyncer-max-reconnect-attempts | –binlogsyncer-max-reconnect-attempts=0,为同步 binlog 重新建立断开的检查器连接的最大尝试次数。 0或负数表示无限重试,默认0 |
conf | –conf=/path/to/my.cnf:指定凭据的文件。 应采用(或包含)以下格式: [client] user=gromit password=123456 |
concurrent-rowcount | 默认为true,参考exact-rowcount |
critical-load | 逗号分隔的 status-name=threshold,格式与 --max-load 相同。–critical-load 定义了一个阈值,当达到该阈值时, gh-ost 会退出。 默认行为是在达到此阈值时立即退出。 |
critical-load-hibernate-seconds | 当 --critical-load-hibernate-seconds 不为零时(例如 --critical-load-hibernate-seconds=300),critical-load不会退出; 相反,gh-ost 会在指定的时间内进入休眠状态。 在此期间,它不会从任何服务器读取任何内容或向任何服务器写入任何内容。 从休眠中醒来后,执行会继续进行。如果再次满足临界负载,gh-ost 将重复此循环,并且永远不会退出。 |
critical-load-interval-millis | 当指定 --critical-load-interval-millis时(例如 --critical-load-interval-millis=2500),gh-ost 给出第二次机会:当它达到critical-load时,它不会退出。 相反,它会启动一个计时器(在本例中:2.5 秒)并在计时器到期时重新检查critical-load。 如果再次达到critical-load,gh-ost 会退出。 如果没有,则继续执行。这有点类似于 Nagios n 次测试,其中 n 在我们的例子中始终为 2。 |
cut-over | 默认为defaullt |
cut-over-lock-timeout-seconds | 默认值 3。尝试切换时保持表锁定的最大秒数(当锁定超过超时时尝试重试)。 |
discard-foreign-keys | 危险:此参数将默默地丢弃表中存在的任何外键。目前 (10-2016) gh-ost 不支持迁移表上的外键(当它注意到迁移表上有 FK 时,它会退出)。 但是,它能够通过此标志支持删除外键。 如果您试图摆脱环境中的外键,这是一个有用的标志。另请参阅:skip-foreign-key-checks |
dml-batch-size | gh-ost 从二进制日志中读取事件并将其应用到 Ghost 表上。 它以批量写入的方式执行此操作:将多个事件分组以应用到单个事务中。 这提供了更好的写入吞吐量,因为我们不需要将每个事件的事务日志同步到磁盘。–dml-batch-size 标志控制批量写入的大小。 允许的值为 1 - 100,其中 1 表示无批处理(二进制日志中的每个事件都在其自己的事务上应用到 Ghost 表上)。 默认值为 10。 |
exact-rowcount | gh-ost 执行需要将现有表中的所有行复制到 Ghost 表上。 这可能而且经常会是一个很大的数字。 这个数字到底是多少? gh-ost 最初通过发出explain select * from your_table 来估计表中的行数。 这将使用表上的统计数据并返回粗略的估计。 有多粗糙? 它可能低至表中实际行数的一半或高至两倍。 这与 pt-online-schema-change 中使用的方法相同。gh-ost 还支持 --exact-rowcount 标志。 当给出这个标志时,会发生两件事: select count(*)。 该查询可能需要很长时间才能完成,但是在我们开始大量操作之前执行的。 当还指定了 --concurrent-rowcount 时,这与行复制并行运行。 注意:–concurrent-rowcount 现在默认为 true。随着我们在应用事件方面取得进展,不断更新估计。 我们根据从二进制日志处理的查询启发式更新行数。虽然持续估计的行数仍然是启发式的,但它几乎是准确的,因此报告的 ETA 或百分比进度通常在多个小时的操作中精确到秒 |
execute | 如果没有这个参数,迁移就是一个空操作:测试表创建和迁移的有效性,但不接触数据 |
force-named-cut-over | 如果给出,切换命令必须命名迁移的表,否则将被忽略。 |
force-named-panic | 如果给出,panic 命令必须命名迁移的表,否则将被忽略。 |
force-table-names | 用于临时表的表名前缀 |
gcp | 在第一代 Google Cloud Platform (GCP) 上执行时添加此标志。 |
heartbeat-interval-millis | 默认100,详细看github |
hooks-status-interval | 默认为 60 秒。 配置调用 gh-ost-on-status 挂钩的频率,有关如何使用挂钩的完整详细信息,请参阅github。 |