饿了么技术团队花了1年多的时间,实现了业务的整体异地多活,能够灵活的在多个异地机房之间调度用户,实现了自由扩容和多机房容灾的目标。本文介绍这个项目的中五大核心基础组件中的DAL与GZS,关于项目整体介绍以及其它组件的实现细节可以参考本系列的其它文章。
多活改造的一个核心是多活流量路由,来源主要包括三个方面:
不仅基础组件依赖多活路由,一些特定的业务也需要获得多活路由,因此必须有一个专门的组件来统一管理多活路由,并且在多活切换时能协调各个模块的工作。
多活路由由三个部分组成,ezone,shardingid,shardingkey。通过这三层路由关系的调整实现了多活的灵活资源调度以及failover。
下图是一个简单的路由例子
一般来说ezone与shardid的关系是比较固定的,而shardingkey会是一个一直变化的状态。shardingkey的路由规则主要由3种类型
多活切换的原则是:
shard切换协议如下:
下面是一个简单的例子,将shard 1 的下单流量从ezone1切换到ezone2。
GZS的设计是紧密联系业务特性的产物。
为什么SDK使用订阅推送
由于多活路由查询对于其它多活组件(DAL,APIRouter,soaproxy)来说是个高频操作,远程查询显然不能够胜任。同时对于计算型的shardingkey也不适合在GZS Server做。因此需要把路由信息推送到SDK,来保证查询的高效。
路由订阅是全量更新还是增量更新
GZS定义了一套增量更新的协议,适用于所有的多活路由类型。对于映射型的shardingkey使用增量更新,而对于其它类型的shardingkey直接使用全量更新的策略。
如何考虑一致性与可用性
如前文介绍的,多活路由是三层结构,对于一致性其实有着不同的要求。对于Sharding Id这层路由有着强一致性的要求,我们一组多活切换步骤来保证一致性。整个过程我们是牺牲可用性的。而对于逻辑Sharding key,嵌入型以及计算型的一致型是和Sharding Id一致的是绑定的。我们唯一需要考虑的是映射型的Sharding Key,对于这种类型主要采用BASE的思想来设计,不强调实时高一致性,而是要求一定时间内达到最终一致性。以店铺ID为例子,当新的店铺添时,GZS保证秒级同步映射关系,中间不同步的状态通过业务使用地理位置路由等方式绕开。
DAL是proxy型的数据库中间件,支持mysql协议,在多活项目启动前已经承载了饿了么全部生产mysql流量。在多活项目中,DAL责无旁贷扮演起保护数据正确性最后一道防线的角色。
在前文我们提到了多活流量来源,来自ezone外的可以统一通过API Router收口。而来自ezone内部的流量,我们很难确认多活改造是否完成。因此需要在DAL层做兜底,防止多活数据错乱。
DAL多活兜底主要体现在两个部分
多活业务场景中,存在全局配置性的数据,呈现大量读,少量写的特性。针对这种业务,我们提供了global ezone这种解决方案。
这是一种跨机房的读写分离机制。查询走本机房的数据库salve,写全部走一个Master,对业务方来说DB的配置透明的。
DAL可以方便的把业务在各个ezone的服务指向同一个master。当发生failover时,通过DB的主备切换,就可以把mysql的master从一个ezone迁移到另一个ezone。
多活切换目前是人工操作的,每次多活切换的决策总要耗费不少的时间。未来我们要把多活切换的过程做到智能化,自动化。
https://yq.aliyun.com/articles/57715
https://coolshell.cn/articles/10910.html
https://en.wikipedia.org/wiki/CAP_theorem
https://zhuanlan.zhihu.com/p/32009822
https://zhuanlan.zhihu.com/p/32587960
林静 ,2011毕业于浙江大学,2015年加入饿了么,现任饿了么框架工具部架构师。