分布式系统-分布式事务

前言

分布式系统-Raft共识算法中,我们详细的描述了共识算法如何让系统内部状态保持一致性的,而我们今天介绍的分布式事务,也是为了解决一致性问题,但是它们有什么区别呢?

回答这个问题,我们需要从它们解决的问题域思考。共识算法主要是为了解决选主以及日志同步问题,保证集群状态的一致性,最主要的应用领域是依赖主从协调的分布式系统,共识算法可以帮助管理集群。分布式事务主要解决在分布式系统中的事务一致性,保证系统内部数据的一致性,主要的应用领域是需要事务特性的分布式系统,保证系统在执行同一操作时,要么同时成功,要么同时失败。所以我们一定不要混淆这两者,虽然都是解决一致性的问题,但是问题域是不一样的。

本地事务

在正式介绍分布式事务之前,我简单回顾一下本地事务,也就是数据库事务的ACID特性

  • A (Atomicity):原子性,数据库事务中的所有操作,要么全部成功,要么全部失败
  • C (Consistency):一致性,数据库中的数据,只能有一个状态转换为另一个状态,不存在软状态
  • I (Isolation):隔离性,数据库事务执行中的中间结果,对其他事务是不可见的
  • D (Durability):持久性,数据库事务一旦提交,就无法改变

除此之外,本地事务还可以将事务隔离级别划分为如下几等:

  • READ UNCOMMITTED:该隔离级别为最低的隔离级别,允许事务读取其他事务还未提交的记录,并发性能最好,但是会产生脏读,事务会读取到其他事务操作过程中的数据,从而导致最终数据不一致
  • READ COMMITTED:该隔离级别允许事务读取其他事务已经提交的记录,因此该隔离级别下,事务不会读取到脏数据,但是事务在两次相同的查询条件下,会读到不同的结果,也就是说该隔离级别不能保证数据的可重复性读
  • REPEATABLE READ:该隔离级别通过行锁和间隙锁保证数据的可重复性读,也就是事务内同一查询条件无论执行多少次,查询的结果都是一致的,该隔离级别也是很多数据库的默认事务隔离级别,例如mysql
  • SERIALIZABLE:该隔离级别是事务的最高隔离级别,串行隔离级别,也就是一次只允许一个事务执行,并发性能是最差的,一般是数据库实现分布式事务时采取的隔离级别

分布式事务

本地事务解决了单机环境下的事务一致性问题,基本上市面上的所有数据库软件都实现了事务机制。在单机环境下,事务问题本质就是多线程环境下的数据安全性问题。在分布式事务环境下,数据是存储在不同的机器中,每次数据的修改都需要发生网络请求,例如支付服务,需要从账户A中扣钱,账户B中加钱,管理账户A的服务在扣完前后就需要发网络请求告诉管理账户B的服务,这时候如果管理账户B的服务出现异常,那账户A和账户B的数据状态就不一致了。为了保证分布式环境下的事务一致性,我们需要引入分布式事务来解决这类问题。

分布式事务的解决方案有如下几类:2PC,TCC,Message Queue,Saga Pattern, 接下来将分别介绍这种方法的基本思路,详细的细节将通过后续的实战内容深入讨论。

  • 2PC:两阶段提交,该方法是最核心的思路,其他的方法都是基于该方法的思想做的优化。2PC中有事务管理器和资源管理器两种角色,事务管理器负责协调资源管理器,资源管理器对应本地事务数据库。首先,事务管理器通知资源管理器开始执行第一阶段事务,资源管理器则会在本地执行对应的事务操作,并把结果告知事务管理器。第二阶段,当事务管理器收到所有资源管理器操作成功的结果后,则通知资源管理器提交它们的本地事务,否则通知它们回退本地事务。在整个过程中,事务管理器需要记录各种中间状态,以保证最终三方状态的一致性。最开始事务管理器要记录prepare状态,该状态下,事务管理器发送事务执行的请求到资源管理器。然后当事务管理器收到所有资源管理器操作成功的结果后,会把prepare状态改为commit状态,并通知资源管理器提交本地事务。否则将prepare状态改为rollback状态,并通知资源管理器回滚本地事务。如下图所示:

2pc

从上面的描述可以看出,完成2PC需要多个节点的多次交互,并且每次交互都需要更新状态,因此在分布式环境中,一旦某个节点出现异常,就会导致数据的不一致,并且数据的恢复非常难。同时该方法是在数据库层面实现的,需要所有参与2PC的数据库节点都转换为SERIALIZABLE的事务隔离级别,对系统的性能影响非常大。因此在实际的生产环境下,很少直接使用2PC来解决分布式事务的问题,更多的是使用接下来介绍的几种方法。

  • TCC:TCC代表Try,Confirm,Cancel。其思路跟2PC基本一样,只不过TCC是在业务层面完成的事务协调管理。在Try阶段,主业务服务记录交易信息,并通知从业务服务锁定事务需要的资源。如果从业务都能够锁定事务所需要的资源,主业务则通知从业务真正提交锁定的资源,否则通知从业务回滚锁定的资源。该方法在实际操作时,需要在Try阶段思考如何锁定资源、在Cancel阶段如何将锁定的资源安全的回滚等问题,在后续的实战中,我将进一步深入的描述这些问题的解决方案。
  • Message Queue:使用Message Queue解决分布式事务问题的思路与TCC基本一致,唯一的区别在于基础架构的变化,基本的TCC思路,服务之间可以使用RPC或者Restful API的方式通信,而Message Queue则通过消息Broke进行服务之间的通信。第一阶段,主业务服务发送事务消息给消息Broke,消息Broke将事务消息推送给从业务,从业务锁定相关资源,并将结果发送给消息Broke,消息Broke将结果通知主业务服务。第二阶段主业务将提交或者回滚的消息发送给消息Broke,消息Broke分发对应的消息给从业务服务,从业务服务提交或者回滚对应的操作。
  • Saga Pattern:Saga Pattern是微服务中提出的解决分布式问题的一种解决方案,其核心思想是在执行正向操作前,记录对应的补偿事务,当被调服务发生异常时,服务调用方执行补偿事务恢复数据。例如A服务在执行扣钱服务前,先记录对应的反向事务,然后在执行扣钱操作并调用B服务执行加钱操作。如果B服务返回成功的结果,A服务则删除对应的补偿事务记录,否则A服务执行对应的补偿事务,还原数据。

总结

经过上面的分析,2PC,TCC,Message Queue,Saga Patthern都能给解决分布式事务的提高不错的思路,但是这几种方案都有一定的不足,比如2PC是在资源层的控制,对系统性能影响很大,而且开放性差;TCC对业务的侵入很深,为了保障TCC整个流程的完整,需要多个额外的数据表存储对应的状态;Message Queue则跟TCC一样,虽然引入了消息Broke解耦了主服务方和从服务方,但是增加了额外的消息消费复杂度;Saga Pattern在生成补偿事务时,复杂度也会随着正向操作的复杂度增加而增加。并且这几种方案在事务处理过程中,一旦某个服务发生异常,需要完全恢复数据也比较复杂。我们需要在实战过程中,分析各种异常,并找出对应的解决方案。

最后推荐一下Seata,一个分布式事务处理框架,实现了本文中多种思路的解决方案。

欢迎大家在评论区讨论各种分布式系统相关的内容。

Show Comments