【容灾演练】双机房容灾切换演练笔记

【背景】

近日参与了xx客户的主备双机房演练,日常流量承接在主机房。容灾演练时,将流量切换到备机房,验证备机房是否能正常工作。

 

【网络架构】

【容灾演练】双机房容灾切换演练笔记_第1张图片

 

关键技术点:

1、主备机房流量切换通过公网DNS进行切换。切换速度取决于DNS缓存更新的速度,三大运营商可能需要半小时。一些云计算厂商,如阿里云的商业DNS切换速度更快,据说是分钟级甚至秒级。

2、手机本身也有dns缓存,最简单清缓存的方法是重启手机。

3、DNS缓存全部更新前,可能双边机房都有流量,此时通过网关的性能监控,可能判断不准,因为演练的流量较小,监控曲线看不出区别。可通过网关模块开启的访问日志的打印,手机每个请求都打印一条日志,这样的观察是最准确的。

4、演练过程,选择夜间无业务或低业务时间,尽量保证数据层的差异数据已追平。真实机房灾难突发事件(比如整机房大规模停电),数据层通常有丢失,此时业务层面需考虑影响范围或业务补偿措施。

5、演练账号:演练过程,为了避免对生产数据产生干扰,可通过受控方式,指定手机号为演练的白名单,期间产生的是演练数据,能达到验证双机房网络连通性即可。

你可能感兴趣的:(容灾/备份/迁移)