要实现跨Region容灾,需要部署两套数据库实例,一套主数据库实例,一套灾备数据库实例。主数据库实例和灾备数据库实例一般部署在相距较远的两个不同城市。数据库实例之间借助存储介质或者不借助存储介质直接实现数据的全量和增量同步。当主数据库实例(即生产数据库实例)出现地域性故障,数据完全无法恢复时。可考虑启用将灾备数据库实例升主,以接管业务。
openGauss当前提供基于流式复制的异地容灾解决方案。
从openGauss 3.1.0版本开始,两地三中心跨Region容灾开始提供该解决方案。
本节就该解决方案的特性规格与约束进行详细描述,管理人员需重点关注。
主数据库实例或灾备数据库实例内网络时延要求<=10毫秒,主备数据库实例之间异地网络时延要求<=100毫秒。该时延范围内可保证容灾的正常运行,否则会导致主备数据库实例断链等情况出现。
在网络带宽非瓶颈,灾备数据库实例打开并行回放前提下,不同硬件规格可支持主数据库实例日志产生速度如下表所示。在该日志产生速度下可以保证RPO、RTO,否则无法保证。
表 1 典型配置下日志产生速率
典型配置 | 支持主数据库实例日志产生速率 |
---|---|
96U/768G/SATA SSD | <=10MB/s |
128U/2T/NVMe SSD | <=40MB/s |
如果磁盘混合部署,应采用低配部分的规格(比如数据库实例内有NVMe和SATA盘,请参考SATA盘配置的规格)。
灾备数据库实例升主:
演练特性:计划内主备数据库实例倒换,无数据丢失RPO=0,RTO<=20分钟(包含主数据库实例降为灾备实例,灾备数据库实例升主两个流程)。
须知: 经过测试,SATA SSD极限写入速率在240MB/s左右,SAS SSD可以达到500MB/s以上的写入速度,NVMe SSD表现则更为优异。如果硬件条件达不到如上标准,则可支持的主数据库实例单分片日志产生速度应下调,才可保证RPO、RTO。
主备数据库实例出现文件句柄,内存等资源耗尽时,无法保证RPO,RTO。
极致RTO相关参数描述参见《数据库参考》中“GUC参数说明 > 预写式日志 > 日志回放“章节的recovery_parse_workers和recovery_redo_workers参数描述。如果要开启极致RTO,应至少满足每台机器上的逻辑CPU数大于打开极致RTO后额外启动的线程数(计算公式为 (recovery_parse_workers * (recovery_redo_workers + 2) + 5) * 每台机器上的DN实例数),否则可能出现线程对CPU资源争抢的情况,导致容灾流程中部分操作耗时变长,无法达到容灾特性规格。
数据量:
主数据库实例存储数据量,直接影响容灾搭建需要传输的数据量。该值结合异地网络带宽,直接影响容灾搭建时长,可在搭建容灾接口的"time-out"设置超时时间,当前默认值为20min。超时时间的评估与主数据库实例搭容灾前的数据量与异地可使用带宽相关,计算公式为“数据量/传输速率 = 耗时”。
例如:主数据库实例有100TB数据,异地数据库实例间可用带宽为512Mbps(传输速率为64MB/s),搭建容灾传递这些数据需要时间为1638400s(10010241024/64,大约19天)。
日志产生速率:
该值影响容灾搭建过程中主数据库实例需要保留在主数据库实例本地的日志量,灾备数据库实例在完成全量数据恢复后将与主数据库实例建立流式复制关系,如果主数据库实例未对日志进行保留,将可能导致流式复制关系建立失败。
例如:经过计算搭建过程要持续2天,那么这2天内的日志需要在搭建完成前保留在主数据库实例本地磁盘。
如果主数据库实例日志产生速率大于异地传输带宽;或者在带宽充足的情况下,主数据库实例日志产生速率大于灾备数据库实例的日志回放速率,即超规格场景搭建容灾后将导致RPO/RTO无法保持在特性规格水平。
容灾搭建时需要对主备数据库实例发送搭建请求,参考《工具参考》中gs_sdr工具。
须知:
- 容灾搭建时需要在主数据库实例和灾备数据库实例使用相同容灾用户名和密码用于数据库实例间鉴权,该用户的权限为Replication(Replication属性是特定的角色,仅用于复制)。
- 搭建容灾前需要在主集群创建容灾用户。
- 一次容灾搭建后,该用户密码不可修改,伴随整个容灾生命周期。若需修改容灾用户名与密码,需要解除容灾,使用新的容灾用户重新进行搭建。
- 容灾搭建过程可在"time_out"设置超时时间,当前默认值为20min。超时时间的评估与主数据库实例搭容灾前的数据量与异地可使用带宽相关,计算公式为“数据量/传输速率 = 耗时”。 例如:主数据库实例有100TB数据,异地数据库实例间可用带宽为512Mbps(传输速率为64MB/s),搭建容灾传递这些数据需要时间为1638400s(10010241024/64,大约19天)。
向灾备数据库实例发送灾备数据库实例升主的请求,参考《工具参考》中gs_sdr工具。
须知:
- 灾备数据库实例升主后会进行容灾信息清除。
- 如果主数据库实例处于正常状态,正在处理业务,灾备数据库实例因要主动解除容灾可以执行该命令。在该命令下发后,灾备数据库实例将不会再接收主机的日志,会导致容灾指标RPO值持续增长,直到主备数据库实例中断联系,RPO值为空。RPO值查询参见查询主备数据库实例容灾状态。
向主数据库实例发送容灾信息清除的请求,参考《工具参考》中gs_sdr工具。
须知:
- 该操作会对主数据库实例进行容灾信息清除。
- 该操作只能在灾备数据库实例升主后,对主数据库实例进行操作。在灾备数据库实例未升主条件下执行,将会导致容灾关系被破坏。
向主备数据库实例发送计划内switchover的请求,参考《工具参考》中gs_sdr工具。
向主备数据库实例发送容灾状态查询的请求,参考《工具参考》中gs_sdr工具。
须知:
- 备数据库实例提交前,主数据库实例需要升级完成。
- 备数据库实例先提交,主数据库实例后提交。
- 备数据库实例已提交情况下,主数据库实例不可回滚。
- 主备数据库实例升级过程中,不可发生主备数据库实例的切换。
介绍使用基于流式复制的异地容灾解决方案可能遇到的常见问题,并提供故障处理步骤。
下表列出了不同操作中问题现象、原因、解决方案。
表 容灾搭建错误信息参考
故障描述 | 原因和解决方案 |
---|---|
容灾搭建中主数据库实例执行容灾搭建返回如下错误,执行超时Result exception error : Failed to do check main standby connection. Because Waiting timeout: XXs。 | **原因:**在主数据库实例数据量较大,或者异地网络带宽较小时,可能会出现灾备数据库实例未完成数据拷贝,主数据库实例就已经超时退出容灾搭建流程的情况。**解决方案:**若灾备数据库实例处于搭建过程中或者搭建已完成,可直接重入主数据库实例容灾搭建流程,主数据库实例会重新进入等待灾备连接状态。若能重新设置超时参数,可根据主数据库实例数据量大小与异地网络带宽,重新估算超时时间后再执行重入。若灾备数据库实例搭建过程也失败了,需要先针对灾备数据库实例进行故障处理,再重入数据库实例容灾搭建流程。 |
搭建容灾关系过程中,由于主集群内的主dn发生切换导致容灾搭建失败。 | **原因:**主集群的主dn发生切换,灾备集群连接主集群进行数据build时断连导致搭建失败。**解决方案:**确认是否有人为进行主集群内主备切换的操作,如果有则停止该操作,如果没有则忽略。重新下发搭建命令。 |
表 灾备升主failover错误信息参考
故障描述 | 原因和解决方案 |
---|---|
灾备数据库实例有故障节点未参与灾备数据库实例升主。 | **原因:**因服务器宕机,网络中断等原因导致节点脱离灾备数据库实例,没有参与灾备数据库实例升主。**解决方案:**故障节点修复后重新加入数据库实例。修改CMS和CMA中关于数据库实例灾备模式的参数,切回主数据库实例配置。""gs_guc set -Z cmserver -N all -I all -c "backup_open = 0" gs_guc set -Z cmagent -N all -I all -c "agent_backup_open=0" gs_guc set -Z cmagent -N all -I all -c "disaster_recovery_type= 0" 接入故障节点,查询CMS和CMA的进程ID,使用kill -9命令杀掉进程,然后进程会被om_monitor重启,完成CMS和CMA参数修改的生效。手动修复改节点后使用cm_ctl start-n NODEID -D DATADIR。 |
表 计划内switchover错误信息参考
故障描述 | 原因和解决方案 |
---|---|
计划内switchover中主数据库实例执行命令返回如下错误,提示主数据库实例产生一致性点失败Result exception error : Failed to generate switchover barrier before switchover | **原因:**在主数据库实例接收到计划内switchover命令,主数据库实例降为灾备数据库实例前会先产生一致性点switchover barrier,这是执行switchover的前提,用于保证主备数据库实例所有DN分片的日志停止在一致性点。由于主数据库实例内网络抖动等原因导致主数据库实例内产生switchover barrier失败将放弃本次计划内switchover。**解决方案:**等待灾备数据库实例执行switchover灾备升主命令超时退出后,计划内倒换switchover可在主数据库实例和灾备数据库实例重入执行。若多次执行switchover均出现日志截断失败,需进一步分析流式容灾相关日志文件。 |
Result exception error : Failed to do check switchover_barrier on all main standby dn and cn. Because check timeout: XXs | **原因:**在灾备数据库实例接收到计划内switchover命令,灾备数据库实例升为主数据库实例前会先在首备DN上查询是否收到一致性点switchover barrier,这是执行swichover的前提,用于保证主备数据库实例DN的日志停止在一致性点。由于异地网络异常等原因,灾备数据库实例在超时时间内无法获得switchover barrier将放弃执行本次计划内switchover。**解决方案:**等待主数据库实例执行switchover主降备命令超时退出后,计划内倒换switchover可在主数据库实例和灾备数据库实例重入执行。若多次执行switchover灾备数据库实例均出现switchover barrier获取失败,需进一步分析流式容灾相关日志文件。 |
表 灾备集群数据库实例错误信息参考故障描述
故障描述 | 原因和解决方案 |
---|---|
灾备集群节点CM_AGENT故障。该节点上DN实例状态显示为Unknown;部分首备显示Main Standby Need repair(Connecting)。 | **原因:**节点CM_AGENT发生故障该节点上DN状态无法上报CM_SERVER,DN实例显示为Unknown。若该节点上存在首备实例(Main Standby),则会触发首备切换。由于原首备实例并无异常,并与主数据库实例主DN存在正常流复制关系,而主数据库实例该分片主DN只允许一个首备的连接,导致新首备无法连接到主集群分片主DN,实例状态显示为Main Standby Need repair(Connecting)。**解决方案:**等观察灾备集群的CM_AGENT告警信息“ALM_AI_AbnormalCMSProcess”,并尝试修复发生故障的CM_AGENT。故障排除后新首备的连接可恢复。若如果故障的CM_AGENT短时间内无法修复,执行gs_ctl stop -D DATADIR命令或者kill命令手动停止该节点上的DN进程,可恢复。 |
点赞,你的认可是我创作的动力!
⭐️ 收藏,你的青睐是我努力的方向!
✏️ 评论,你的意见是我进步的财富!