基于CAP理论我们可以知道,对于数据一致性问题有AP和CP两种方案,但是在电商领域等互联网场景下,基于CP的强一致性方案在数据库性能和系统处理能力上会存在一定的瓶颈。所以在互联网场景中更多采用柔性事务,所谓的柔性事务是遵循BASE理论来实现的事务模型,它有两个特性:基本可用、柔性状态,下面我们主要基于柔性事务模型来分析互联网产品中分布式事务的常见解决方案。
TCC (Try-Confirm-Cancel)是一种比较成熟的分布式数据一致性解决方案,它实际上是把一个完整的业务拆分为如下三个步骤。
其实TCC是一种两阶段提交的思想,第一阶段通过Try进行准备工作,第二阶段Confirm/Cancel表示Try阶段操作的确认和回滚。在分布式事务场景中,每个服务实现TCC之后,就作为其中的一个资源,参与到整个分布式事务中。然后主业务服务在第一阶段中分别调用所有TCC服务的Try方法。最后根据第一阶段的执行情况来决定对第二阶段的Confirm或者Cancel。
TCC执行流程如下图所示:
对于TCC的工作机制,我们举一个比较简单的例子。在一个理财App中,用户通过账户余额购买一个理财产品,这里涉及两个事务操作:
这两个事务操作在微服务架构下分别对应的是两个不同的微服务,以及独立的数据库操作,在TCC的工作机制中,首先针对账户服务和理财产品服务分别提供Try、Confirm和Cancel三个方法。
在一个主业务方法中,分别调用这两个服务对外提供的处理方法(资金扣减、理财产品可申购额度扣减),这两个服务处理实际业务时,会先调用Try方法来做资源预留,如果这两个方法处理都正常,TCC事务协调器就会调用Confirm方法对预留资源进行实际应用。否则TCC事务协调器一旦感知到任何一个服务的Try方法处理失败,就会调用各个服务的Cancel方法进行回滚,从而保证数据的一致性。
在一些特殊情况下,比如理财产品服务宕机或者出现异常,导致该服务并没有收到TCC事务协调器的Cancel或者Confirm请求,怎么办呢?没关系,TCC事务框架会记录一些分布式事务的操作日志,保存分布式事务运行的各个阶段和状态。TCC事务协调器会根据操作日志来进行重试,以达到数据的最终一致性。
需要注意的是,TCC服务支持接口调用失败发起重试,所以TCC暴露的接口都需要满足幂等性。
基于可靠性消息的最终一致性是互联网公司比较常用的分布式数据一致性解决方案,它主要利用消息中间件(Kafka、RocketMQ或者RabbitMQ)的可靠性机制来实现数据一致性的投递。
以电商平台的支付场景为例,用户完成订单的支付后不需要同步等待支付结果,可以继续做其他事情。但对于系统来说,大部分是在发起支付之后,等到第三方支付平台提供异步支付结果通知,再根据结果来设置该订单的支付状态。并且如果是支付成功的状态,大部分电商平台基于营销策略还会给账户增加一定的积分奖励。所以,当系统接收到第三方返回的支付结果时,需要更新支付服务的支付状态,以及更新账户服务的积分余额,这里就涉及两个服务的数据一致性问题。从这个场景中可以发现这里的数据一致性并不要求实时性,所以可以采用基于可靠性消息的最终一致性方案来保证支付服务和账户服务的数据一致性。
如下图所示,支付服务收到支付结果通知后,先更新支付订单的状态,再发送一条消息到分布式消息队列中,账户服务会监听到指定队列的消息,并进行相应的处理,完成数据的同步。
在上图的解决方案中,我们可以发现一些问题,就是支付服务的本地事务与发送消息这个操作的原子性问题,具体描述如下:
以上问题也有很多成熟的解决方案,以RocketMQ为例,它提供了事务消息模型,如下图所示,具体的执行逻辑如下:
在RocketMQ事务消息模型中,事务是由生产者来完成的,消费者不需要考虑,因为消息队列可靠性投递机制的存在,如果消费者没有签收该消息,那么消息队列服务器会重复投递,从而实现生产者的本地数据和消费者的本地数据在消息队列的机制下达到最终一致。
不难发现,在RocketMQ的事务消息模型中最核心的机制应该是事务回查,实际上查询模式在很多类似的场景中都可以应用。在分布式系统中,由于网络通信的存在,服务之间的远程通信除成功和失败两种结果外,还存在一种未知状态,比如网络超时。服务提供者可以提供一个查询接口向外部输出操作的执行状态,服务调用方可以通过调用该接口得知之前操作的结果并进行相应处理。
最大努力通知型和基于可靠性消息的最终一致性方案的实现是类似的,它是一种比较简单得到柔性事务解决方案,也比较适用于对数据一致性要求不高的场景,最经典的使用场景是支付宝支付结果通知,实现流程如下图所示:
下面站在商户的角度来分析最大努力通知型的处理过程:
从上面的分析可以发现,所谓的最大努力通知,就是在商户端如果没有返回一个消息确认时,支付宝会不断地进行重试,直到收到一个消息确认或者达到最大重试次数。
不难发现它的实现机制和事务消息模型的消费者消费模型类似,在消费者没有向消息中间件服务器发送确认之前,这个消息会被重复投递,确保消息的可靠性消费。