終于有人把“分布式事務”說清楚了-魔扣目錄

一個復雜的系統往往都是從一個小而簡的系統發展衍化而來，為了滿足日益增長的業務需求，不斷的增加系統的復雜度，從單體架構逐步發展為分布式架構，而分布式系統架構的設計主要關注：高性能，高可用，高拓展。

圖片來自 Pexels

分布式事務

高可用是指系統無中斷的執行功能的能力，代表了系統的可用程度，是進行系統設計時必須要遵守的準則之一。

而高可用的實現方案，無外乎就是冗余，就存儲的高可用而言，問題不在于如何進行數據備份，而在于如何規避數據不一致對業務造成的影響。

對于分布式系統而言，要保證分布式系統中的數據一致性就需要一種方案，可以保證數據在子系統中始終保持一致，避免業務出現問題。

這種實現方案就叫做分布式事務，要么一起成功，要么一起失敗，必須是一個整體性的事務。

理論基礎

在講解具體方案之前，有必要了解一下分布式中數據設計需要遵循的理論基礎，CAP 理論和 BASE 理論，為后面的實踐鋪平道路。

CAP 理論

CAP，Consistency Availability Partition tolerance 的簡寫：

Consistency：一致性，對某個客戶端來說，讀操作能夠返回最新的寫操作結果。
Availability：可用性，非故障節點在合理的時間內返回合理的響應。
Partition tolerance：分區容錯性，當出現網絡分區后，系統能夠繼續提供服務，你知道什么是網絡分區嗎?

因為分布式系統中系統肯定部署在多臺機器上，無法保證網絡做到 100% 的可靠，所以網絡分區一定存在，即 P 一定存在。

在出現網絡分區后，就出現了可用性和一致性的問題，我們必須要在這兩者之間進行取舍，因此就有了兩種架構：

CP 架構
AP 架構

①CP 架構

當網絡分區出現后，為了保證一致性，就必須拒接請求，否則無法保證一致性：

當沒有出網絡分區時，系統 A 與系統 B 的數據一致，X=1。
將系統 A 的 X 修改為 2，X=2。
當出現網絡分區后，系統 A 與系統 B 之間的數據同步數據失敗，系統 B 的 X=1。
當客戶端請求系統 B 時，為了保證一致性，此時系統 B 應拒絕服務請求，返回錯誤碼或錯誤信息。

上面這種方式就違背了可用性的要求，只滿足一致性和分區容錯，即 CP，CAP 理論是忽略網絡延遲，從系統 A 同步數據到系統 B 的網絡延遲是忽略的。

CP 架構保證了客戶端在獲取數據時一定是最近的寫操作，或者獲取到異常信息，絕不會出現數據不一致的情況。

②AP 架構

當網絡分區出現后，為了保證可用性，系統 B 可以返回舊值，保證系統的可用性：

當沒有出網絡分區時，系統 A 與系統 B 的數據一致，X=1。
將系統 A 的 X 修改為 2，X=2。
當出現網絡分區后，系統 A 與系統 B 之間的數據同步數據失敗，系統 B 的 X=1。
當客戶端請求系統 B 時，為了保證可用性，此時系統 B 應返回舊值，X=1。

上面這種方式就違背了一致性的要求，只滿足可用性和分區容錯，即 AP，AP 架構保證了客戶端在獲取數據時無論返回的是最新值還是舊值，系統一定是可用的。

CAP 理論關注粒度是數據，而不是整體系統設計的策略。

BASE 理論

BASE 理論指的是基本可用 Basically Available，軟狀態 Soft State，最終一致性 Eventual Consistency，核心思想是即便無法做到強一致性，但應該采用適合的方式保證最終一致性。

BASE，Basically Available Soft State Eventual Consistency 的簡寫：

BA：Basically Available 基本可用，分布式系統在出現故障的時候，允許損失部分可用性，即保證核心可用。
S：Soft State 軟狀態，允許系統存在中間狀態，而該中間狀態不會影響系統整體可用性。
E：Consistency 最終一致性，系統中的所有數據副本經過一定時間后，最終能夠達到一致的狀態。
BASE 理論本質上是對 CAP 理論的延伸，是對 CAP 中 AP 方案的一個補充。

分布式事務協議

X/Open XA 協議

XA 是一個分布式事務協議，由 Tuxedo 提出。XA 規范主要定義了(全局)事務管理器(Transaction Manager)和(局部)資源管理器(Resource Manager)之間的接口。

XA 接口是雙向的系統接口，在事務管理器(Transaction Manager)以及一個或多個資源管理器(Resource Manager)之間形成通信橋梁。

XA 協議采用兩階段提交方式來管理分布式事務。XA 接口提供資源管理器與事務管理器之間進行通信的標準接口。

2PC：二階段提交協議

二階段提交(Two-phase Commit)，是指，為了使基于分布式系統架構下的所有節點在進行事務提交時保持一致性而設計的一種算法(Algorithm)。通常，二階段提交也被稱為是一種協議(Protocol)。

在分布式系統中，每個節點雖然可以知曉自己的操作是成功或者失敗，卻無法知道其他節點的操作是成功或失敗。

當一個事務跨越多個節點時，為了保持事務的 ACID 特性，需要引入一個作為協調者的組件來統一掌控所有節點(稱作參與者)的操作結果并最終指示這些節點是否要把操作結果進行真正的提交(比如將更新后的數據寫入磁盤等等)。

因此，二階段提交的算法思路可以概括為：參與者將操作成敗通知協調者，再由協調者根據所有參與者的反饋情報決定各參與者是否要提交操作還是中止操作。

二階段提交算法的成立基于以下假設：

該分布式系統中，存在一個節點作為協調者(Coordinator)，其他節點作為參與者(Cohorts)。且節點之間可以進行網絡通信。
所有節點都采用預寫式日志，且日志被寫入后即被保持在可靠的存儲設備上，即使節點損壞不會導致日志數據的消失。
所有節點不會永久性損壞，即使損壞后仍然可以恢復。

二階段提交分為兩階段：

投票階段
提交階段

投票階段 Prepares：

協調者向所有參與者詢問是否可以執行提交操作，并開始等待各參與者的響應。
參與者執行事務操作，如果執行成功就返回 Yes 響應，如果執行失敗就返回 No 響應。
如果協調者接受參與者響應超時，也會認為執行事務操作失敗。

提交階段 Commit：

如果第一階段匯總所有參與者都返回 Yes 響應，協調者向所有參與者發出提交請求，所有參與者提交事務。
如果第一階段中有一個或者多個參與者返回 No 響應，協調者向所有參與者發出回滾請求，所有參與者進行回滾操作。

二階段提交優點：盡量保證了數據的強一致，但不是 100% 一致。

二階段提交缺點：

單點故障，由于協調者的重要性，一旦協調者發生故障，參與者會一直阻塞，尤其是在第二階段，協調者發生故障，那么所有的參與者都處于鎖定事務資源的狀態中，而無法繼續完成事務操作。
同步阻塞，由于所有節點在執行操作時都是同步阻塞的，當參與者占有公共資源時，其他第三方節點訪問公共資源不得不處于阻塞狀態。
數據不一致，在第二階段中，當協調者向參與者發送提交事務請求之后，發生了局部網絡異常或者在發送提交事務請求過程中協調者發生了故障，這會導致只有一部分參與者接收到了提交事務請求。

而在這部分參與者接到提交事務請求之后就會執行提交事務操作。但是其他部分未接收到提交事務請求的參與者則無法提交事務。從而導致分布式系統中的數據不一致。

二階段提交的問題：如果協調者在第二階段發送提交請求之后掛掉，而唯一接受到這條消息的參與者執行之后也掛掉了，即使協調者通過選舉協議產生了新的協調者并通知其他參與者進行提交或回滾操作的話，都可能會與這個已經執行的參與者執行的操作不一樣。

當這個掛掉的參與者恢復之后，就會產生數據不一致的問題。

3PC：三階段提交協議

三階段提交(Three-phase commit)，是為解決兩階段提交協議的缺點而設計的。與兩階段提交不同的是，三階段提交是“非阻塞”協議。

三階段提交在兩階段提交的第一階段與第二階段之間插入了一個準備階段，使得原先在兩階段提交中，參與者在投票之后，由于協調者發生崩潰或錯誤，而導致參與者處于無法知曉是否提交或者中止的“不確定狀態”所產生的可能相當長的延時的問題得以解決。

三階段提交的三個階段：

CanCommit
PreCommit
DoCommit

①詢問階段：CanCommit

協調者向參與者發送 Commit 請求，參與者如果可以提交就返回 Yes 響應，否則返回 No 響應。

②準備階段：PreCommit

協調者根據參與者在詢問階段的響應判斷是否執行事務還是中斷事務：

如果所有參與者都返回 Yes，則執行事務。
如果參與者有一個或多個參與者返回 No 或者超時，則中斷事務。

參與者執行完操作之后返回 ACK 響應，同時開始等待最終指令。

③提交階段：DoCommit

協調者根據參與者在準備階段的響應判斷是否執行事務還是中斷事務：

如果所有參與者都返回正確的 ACK 響應，則提交事務。
如果參與者有一個或多個參與者收到錯誤的 ACK 響應或者超時，則中斷事務。
如果參與者無法及時接收到來自協調者的提交或者中斷事務請求時，會在等待超時之后，會繼續進行事務提交。

協調者收到所有參與者的 ACK 響應，完成事務。

解決二階段提交時的問題：在三階段提交中，如果在第三階段協調者發送提交請求之后掛掉，并且唯一的接受的參與者執行提交操作之后也掛掉了，這時協調者通過選舉協議產生了新的協調者。

在二階段提交時存在的問題就是新的協調者不確定已經執行過事務的參與者是執行的提交事務還是中斷事務。

但是在三階段提交時，肯定得到了第二階段的再次確認，那么第二階段必然是已經正確的執行了事務操作，只等待提交事務了。

所以新的協調者可以從第二階段中分析出應該執行的操作，進行提交或者中斷事務操作，這樣即使掛掉的參與者恢復過來，數據也是一致的。

所以，三階段提交解決了二階段提交中存在的由于協調者和參與者同時掛掉可能導致的數據一致性問題和單點故障問題，并減少阻塞。

因為一旦參與者無法及時收到來自協調者的信息之后，他會默認執行提交事務，而不會一直持有事務資源并處于阻塞狀態。

三階段提交的問題：在提交階段如果發送的是中斷事務請求，但是由于網絡問題，導致部分參與者沒有接到請求。

那么參與者會在等待超時之后執行提交事務操作，這樣這些由于網絡問題導致提交事務的參與者的數據就與接受到中斷事務請求的參與者存在數據不一致的問題。

所以無論是 2PC 還是 3PC 都不能保證分布式系統中的數據 100% 一致。

解決方案

舉個栗子：在電商網站中，用戶對商品進行下單，需要在訂單表中創建一條訂單數據，同時需要在庫存表中修改當前商品的剩余庫存數量。

兩步操作一個添加，一個修改，我們一定要保證這兩步操作一定同時操作成功或失敗，否則業務就會出現問題。

建立時：業務量不大，用戶少，系統只是一個單體架構，訂單表與庫存表都在一個數據庫中，這時可以使用 MySQL 的本地事務保證數據一致性。

發展期：業務發展迅速，用戶量變多，單數據已經出現了性能瓶頸，按照業務緯度進行分庫，分為訂單庫和庫存庫，由于跨庫跨機器，MySQL 的本地事務不能再保證訂單庫和庫存庫的數據一致性。

成熟期：業務拓展，單體架構已經滿足不了需求，進而衍化成了分布式系統，這時的訂單和庫存已經拆分為了兩個子系統提供服務，子系統間使用 RPC 進行通信。

但是無論系統發展成什么樣，我們都要保證業務不出問題，保證訂單和庫存的數據一致，這時候要思考下在服務之間我們應如何保證數據一致。

強一致性分布式事務

單體架構多數據源，在業務開發中，肯定是先執行對訂單庫的操作，但是不提交事務，再執行對庫存庫的操作，也不提交事務，如果兩個操作都成功，在一起提交事務，如果有一個操作失敗，則兩個都進行回滾。

基于 2PC/XA 協議實現的 JTA：我們已經知道了 2PC 和 XA 協議的原理，而 JTA 是 JAVA 規范，是 XA 在 Java 上的實現。

JTA(Java Transaction Manager):

Transaction Manager：常用方法，可以開啟，回滾，獲取事務。begin()，rollback()...
XAResouce：資源管理，通過 Session 來進行事務管理，commit(xid)...
XID : 每一個事務都分配一個特定的 XID。

JTA 主要的原理是二階段提交，當整個業務完成了之后只是第一階段提交，在第二階段提交之前會檢查其他所有事務是否已經提交。

如果前面出現了錯誤或是沒有提交，那么第二階段就不會提交，而是直接回滾，這樣所有的事務都會做回滾操作。基于 JTA 這種方案實現分布式事務的強一致性。

JTA 的特點：

基于兩階段提交，有可能會出現數據不一致的情況
事務時間過長，阻塞
性能低，吞吐量低

實現可以使用基于 JTA 實現的 Jar 包 Atomikos 例子可以自己百度一下。

正常架構設計中是否應該出現這種跨庫的操作，我覺得是不應該的，如果按業務拆分將數據源進行分庫，我們應該同時將服務也拆分出去才合適，應遵循一個系統只操作一個數據源(主從沒關系)，避免后續可能會出現的多個系統調用一個數據源的情況。

最終一致性分布式事務方案

JTA 方案適用于單體架構多數據源時實現分布式事務，但對于微服務間的分布式事務就無能為力了，我們需要使用其他的方案實現分布式事務。

①本地消息表

本地消息表的核心思想是將分布式事務拆分成本地事務進行處理。

以本文中例子，在訂單系統新增一條消息表，將新增訂單和新增消息放到一個事務里完成，然后通過輪詢的方式去查詢消息表，將消息推送到 MQ，庫存系統去消費 MQ。

執行流程：

訂單系統，添加一條訂單和一條消息，在一個事務里提交。
訂單系統，使用定時任務輪詢查詢狀態為未同步的消息表，發送到 MQ，如果發送失敗，就重試發送。
庫存系統，接收 MQ 消息，修改庫存表，需要保證冪等操作。
如果修改成功，調用 RPC 接口修改訂單系統消息表的狀態為已完成或者直接刪除這條消息。
如果修改失敗，可以不做處理，等待重試。

訂單系統中的消息有可能由于業務問題會一直重復發送，所以為了避免這種情況可以記錄一下發送次數，當達到次數限制之后報警，人工接入處理;庫存系統需要保證冪等，避免同一條消息被多次消費造成數據一致。

本地消息表這種方案實現了最終一致性，需要在業務系統里增加消息表，業務邏輯中多一次插入的 DB 操作，所以性能會有損耗，而且最終一致性的間隔主要由定時任務的間隔時間決定。

②MQ 消息事務

消息事務的原理是將兩個事務通過消息中間件進行異步解耦。

訂單系統執行自己的本地事務，并發送 MQ 消息，庫存系統接收消息，執行自己的本地事務。

乍一看，好像跟本地消息表的實現方案類似，只是省去了對本地消息表的操作和輪詢發送 MQ 的操作，但實際上兩種方案的實現是不一樣的。

消息事務一定要保證業務操作與消息發送的一致性，如果業務操作成功，這條消息也一定投遞成功。

消息事務依賴于消息中間件的事務消息，基于消息中間件的二階段提交實現的，RocketMQ 就支持事務消息。

執行流程：

發送 Prepare 消息到消息中間件。
發送成功后，執行本地事務。
如果事務執行成功，則 Commit，消息中間件將消息下發至消費端。
如果事務執行失敗，則回滾，消息中間件將這條 Prepare 消息刪除。
消費端接收到消息進行消費，如果消費失敗，則不斷重試。

這種方案也是實現了最終一致性，對比本地消息表實現方案，不需要再建消息表，不再依賴本地數據庫事務了，所以這種方案更適用于高并發的場景。

③最大努力通知

最大努力通知相比前兩種方案實現簡單，適用于一些最終一致性要求較低的業務，比如支付通知，短信通知這種業務。

以支付通知為例，業務系統調用支付平臺進行支付，支付平臺進行支付，進行操作支付之后支付平臺會盡量去通知業務系統支付操作是否成功，但是會有一個最大通知次數。

如果超過這個次數后還是通知失敗，就不再通知，業務系統自行調用支付平臺提供一個查詢接口，供業務系統進行查詢支付操作是否成功。

執行流程：

業務系統調用支付平臺支付接口，并在本地進行記錄，支付狀態為支付中。
支付平臺進行支付操作之后，無論成功還是失敗，都需要給業務系統一個結果通知。
如果通知一直失敗則根據重試規則進行重試，達到最大通知次數后，不再通知。
支付平臺提供查詢訂單支付操作結果接口。
業務系統根據一定業務規則去支付平臺查詢支付結果。

這種方案也是實現了最終一致性。

④補償事務 TCC

TCC，Try-Confirm-Cancel 的簡稱，針對每個操作，都需要有一個其對應的確認和取消操作。

當操作成功時調用確認操作，當操作失敗時調用取消操作，類似于二階段提交，只不過是這里的提交和回滾是針對業務上的，所以基于 TCC 實現的分布式事務也可以看做是對業務的一種補償機制。

TCC 的三階段：

Try 階段：對業務系統做檢測及資源預留。
Confirm 階段：對業務系統做確認提交，Try 階段執行成功并開始執行 Confirm 階段時，默認 Confirm 階段是不會出錯的。即：只要 Try 成功，Confirm 一定成功。
Cancel 階段：在業務執行錯誤，需要回滾的狀態下執行的業務取消，預留資源釋放。

在 Try 階段，是對業務系統進行檢查及資源預覽，比如訂單和存儲操作，需要檢查庫存剩余數量是否夠用，并進行預留，預留操作的話就是新建一個可用庫存數量字段，Try 階段操作是對這個可用庫存數量進行操作。

比如下一個訂單減一個庫存：