“发消息”过程,往往是为通知另外一个系统更新数据,MQ的“事务”,主要解决消息生产者和消息消费者的数据一致性问题。
用户在电商APP上购物时
该过程中有个需用MQ。
订单系统创建订单后,发消息给购物车模块,将已下单商品从购物车删除。
从购物车删除已下单商品
步骤,并非用户下单支付这个主要流程的必需步骤,所以使用MQ异步清理购物车更合理。
订单模块创建订单的过程实际执行了俩操作:
购物车模块订阅相应主题,接收订单创建的消息,然后清理购物车,在购物车中删除订单中的商品。
分布式下的这些步骤都有失败可能性,若不做处理,就可能导致订单数据与购物车数据不一致:
问题
购物车系统收到订单创建成功消息清理购物车操作,只要成功执行购物车清理后再提交消费确认即可
如果失败,由于没有提交消费确认,MQ会自动重试。
问题关键点在订单系统,创建订单和发送消息不允许一个成功而另一个失败。
这就是事务问题。
单体关系型数据库都完整的实现ACID,但对分布式系统
分布式系统在保证可用性和不严重牺牲性能的前提下,要实现数据一致性非常困难,所以出现很多“残血版”一致性,比如顺序一致性、最终一致性。
所以分布式事务更多是在分布式系统中事务的不完整实现。在不同场景有不同实现,都是通过一些妥协解决问题。
常见分布式事务实现有2PC、TCC和事务消息。
每种实现都有其特定的使用场景,也有各自问题,都不是完美方案。
主要是那些需要异步更新数据,并且对数据实时性要求不高。
比如在创建订单后,如果出现短暂几秒,购物车商品没被及时清空,也不是完全不可接受,只要最终购物车的数据和订单数据保持一致。
事务消息需要MQ提供相应功能才能实现,Kafka和RocketMQ都提供事务相关功能。
第二步发送半消息第三步创建订单,这2个顺序反一下是等价的,即先创建订单在发送半消息。
半消息并非消息内容不完整,包含的就是完整的消息内容。
半消息发成功后,订单系统就可执行本地事务:
在订单库创建一条订单记录,并提交订单库的数据库事务。
然后根据本地事务执行结果决定提交或者回滚事务消息。
这就基本实现“都成功/失败”的一致性要求。
但这实现过程,有个问题没有解决:如果在第4步提交事务消息时失败怎么办?
Kafka和RocketMQ给了不同解决方案。
在我们这里例子里面,本地事务就是创建订单这个数据库事务。
利用数据库的事务消息表。
把消息信息的快照和对业务数据的操作作为数据库事务操作数据库,操作成功后从数据库读取消息信息发送给broker,收到发送成功的回执后删除数据库中的消息快照。我个人觉得这种方案在不支持半消息的队列方案里也是一种选择,不知道您觉得这种实现方案有没有什么问题。
如果有个生产者和消费者都可访问,并且性能还不错的数据库,肯定使用这个数据库实现事务较好。
然而大部分事务消息使用的场景是
如果先创建订单,当前服务由于不可抗拒因素不能正常工作,没给购物车系统发送消息,这种情况加就会出现:订单已创建且购物车没有清空。
而发送半消息,可通过定期查询事务状态然后根据然后具体的业务回滚操作或者重新发送消息(保持业务的幂等性)。
RocketMQ事务实现增加了事务反查机制来解决事务消息提交失败的问题。
如果Producer(即订单模块),在提交或回滚事务消息时发生网络异常,Broker没有收到提交或回滚请求,Broker会定期去Producer反查该事务对应的本地事务的状态,然后根据反查结果决定提交或者回滚该事务。
要支持事务反查机制,业务代码需实现一个反查本地事务状态的接口,告知RocketMQ本地事务是成功还是失败。
反查接口的定义,它检查的是本地事务(在我们这个例子里面就是数据库事务)有没有执行成功,并不比较数据是否一致。
该例中反查本地事务逻辑简单,只要根据消息中订单ID,在订单库中查询该订单是否存在,若订单存在则返回成功,否则返回失败。
RocketMQ会自动根据事务反查的结果提交或者回滚事务消息。
反查本地事务的实现并不依赖消息的发送方,即订单服务的某节点的任何数据。
这种情况下,即使发送事务消息的订单服务节点宕机,RocketMQ依然可通过其他订单服务节点执行反查,确保事务完整性。
如果本地事务提交失败,已发出去的消息是无法撤回的,会导致数据不一致。
因为消费失败,会自动重试,所以不会丢消息,但可能重复消费。
如果发布者本地事务执行太久还没执行完,消息中心就来回查是不是有问题,所以应可以把发消息放本地事务的后面吧,另外次数定义也是经验值吧
反查一般是定一个事务超时时间,超时之前会不定期回查。
代码实现订单下单:
此时会在TransactionListener中的executeLocalTransaction()方法阻塞,然后在这个方法里面进行订单创建并提交本地事务
如果commit成功,则返回COMMIT状态
否则是ROLLBACK状态,如果正常返回COMMIT或者ROLLBACK的话,不会存在第3步的反查情况。
如果上面的本地事务提交成功以后,此节点突然断电,那么checkLocalTransaction()反查方法就会在某个时候被MQ调用,此方法会根据消息中的订单号去数据库确认订单是否存在,存在就返回COMMIT状态,否则是ROLLBACK状态。
购物车在另一模块,只要收到MQ消息就将本次订单的商品从购物车中删除即可。
rocketmq实现分布式事务,使用两阶段提交,和mysql写redo log和binlog日志的两阶段提交类似。以订单为例
消息对消费者不可见,将其消息的主题topic和队列id修改为half topic,原先的主题和队列id也做为消息的属性,如果事务提交或者回滚会将其消息的队列改为原先的队列。rocketMq开启任务,从half topic中获取消息,调用其中的生产者的监听进行回查是否提交回滚。
rocketmq采用commitlog存放消息,消费者使用consumeQueue二级索引从commitlog获取消息实体内容。
理解Index File:indexFile的作用就是给commitlog做的索引,提升读取消息时的查询效率。
回查借助OP topic进行获取到Half消息进行后续的回查操作。
RocketMQ事务反查机制通过定期反查事务状态,来补偿提交事务消息可能出现的通信失败。
在Kafka的事务功能中,并没有类似的反查机制,需要用户自行去解决这个问题。
但不代表RocketMQ的事务功能比Kafka更好,只能说在该例场景,RocketMQ更适合。
Kafka对事务的定义、实现和适用场景,和RocketMQ有较大差异。