概述
Paxos算法是萊斯利·蘭伯特(Leslie Lamport,就是 LaTeX 中的"La",此人在微軟研究院)1990年提出的一種基于消息傳遞的一致性算法。[1] 這個算法被認為是類似算法中最有效的。
背景
Paxos 算法解決的問題是一個分布式系統如何就某個值(決議)達成一致。一個典型的場景是,在一個分布式數據庫系統中,如果各節點的初始狀態一致,每個節點執行相同的操作序列,那么他們最后能得到一個一致的狀態。為保證每個節點執行相同的命令序列,需要在每一條指令上執行一個“一致性算法”以保證每個節點看到的指令一致。一個通用的一致性算法可以應用在許多場景中,是分布式計算中的重要問題。因此從20世紀80年代起對于一致性算法的研究就沒有停止過。節點通信存在兩種模型:共享內存(Shared memory)和消息傳遞(Messages passing)。Paxos 算法就是一種基于消息傳遞模型的一致性算法。
不僅僅是分布式系統中,凡是多個過程需要達成某種一致的場合都可以使用Paxos 算法。一致性算法可以通過共享內存(需要鎖)或者消息傳遞實現,Paxos 算法采用的是后者。Paxos 算法適用的幾種情況:一臺機器中多個進程/線程達成數據一致;分布式文件系統或者分布式數據庫中多客戶端并發讀寫數據;分布式存儲中多個副本響應讀寫請求的一致性。
Lamport 最初關于Paxos 算法的論文The Part-Time Parliament 理解起來比較有挑戰性,個人認為部分原因是Lamport 通過故事的方式來表述、解釋這個問題,所以讀者在閱讀論文的時候需要透過故事來理解作者究竟想要說明什么。章節安排如下:第二節對應原文的1.1-2.1。第三節對應原文2.2-3.2。
數學問題
問題描述
既然Lamport 是通過故事的方式提出Paxos 問題 [1] ,我們就有必要簡述下這個問題:希臘島嶼Paxon 上的執法者(legislators,后面稱為牧師priest)在議會大廳(chamber)中表決通過法律,并通過服務員傳遞紙條的方式交流信息,每個執法者會將通過的法律記錄在自己的賬目(ledger)上。問題在于執法者和服務員都不可靠,他們隨時會因為各種事情離開議會大廳,并隨時可能有新的執法者進入議會大廳進行法律表決,使用何種方式能夠使得這個表決過程正常進行,且通過的法律不發生矛盾。
說明:不難看出故事中的議會大廳就是我們的分布式系統,牧師對應節點或進程,服務員傳遞紙條的過程就是消息傳遞的過程,法律即是我們需要保證一致性的值(value)。牧師和服務員的進出對應著節點/網絡的失效和加入,牧師的賬目對應節點中的持久化存儲設備。上面表決過程的正常進行可以表述為進展需求(progress requirements):當大部分牧師在議會大廳呆了足夠長時間,且期間沒有牧師進入或者退出,那么提出的法案應該被通過并被記錄在每個牧師的賬目上。
數學基礎
Paxon 中的法律通過投票(ballots,也有翻譯成選舉)完成,每次投票涉及到的一群牧師稱為法定人數(quorum),當且僅當法定人數中的所有牧師都贊成這個法案時,投票成功并通過該法律。每次投票B 包含以下內容:
B_dec 正在進行的投票
B_qrm 法定人數牧師的集合(非空牧師集合)
B_vot 贊成的牧師集合
B_bal 投票編號
有了以上定義,我們看出投票B 通過的充要條件是:B_qrm 屬于 B_vot。接著我們定義B 為一次投票的集合,并說明投票如果滿足下面三個條件,那么一致性可以得到保證。實際中每一次投票都可以看做是一次讀寫請求,所有法定人數的牧師贊成才通過法律表示:所有涉及到這次請求的節點都同時響應請求(比如更新某個值)才能保證一致性。這里選舉編號(B_bal)的大小代表選舉發起的先后順序。下面給出三個重要的定義:
B1(B) B 中每個選舉都有一個獨一無二的選舉編號。
B2(B) B 中每兩個選舉至少有一個共同的牧師。
B3(B) B中每一次選舉B ,如果其法定人數中的牧師在之前的選舉中投了贊成票(這些選舉構成一個集合),那么本次選舉B 所對應的法律需要和上述選舉集合中最近一次選舉所對應的法律相一致。
說明:下面以一個分布式key-value 數據庫為例進行解釋。每個key-value 有多個副本,如果客戶端發起一個update(key,vaule) 的操作,則會產生由一個節點發起、相關節點進行響應的一次一致性操作,即選舉B,對保存了該key-value 的副本進行更新。法定人數牧師(B_qrm)是副本節點的一個大部分子集,因為有些時候某些副本不可達。B 是關于某個key-value 的一系列更新操作,不同的法律實際上是一個key-value 的不同值。那么B1-B3就好明白了,B1指的是更新操作的順序是唯一的;B2指的是任意兩次更新操作必須有共同的節點參與;B3指的是某次操作的key-value值和所有參與節點中最近一次投票的值相一致。這是因為如果某個節點在之前已經投贊成票,說明它已經確認可以修改該值,而其他法定人數中的牧師/節點還沒有確認可以修改該值。
引理1.1 如果B1(B),B2(B)$ 和B3(B) 滿足,那么對于在B中的任意B 和B’ ,有
證明略,有興趣的可以參考原文
定理1.2 如果B1(B),B2(B) 和B3(B) 滿足,那么對于在B 中的任意B 和B’ ,有
證:如果$B’_bal=B_bal 那么由B1(B) 可知B’=B 。如果B’_bal 不等于 B_bal ,那么總有一個編號大、一個小,根據引理1.1 可得。
定理1.3 b>B_bal 且對于所有B 中的B 都有Q 和 B_qrm 交集不為空。有一個選舉B’ 滿足B’_bal=b、B’_qrm=B’_vot=Q,那么如果B1(B)、B2(B)、B3(B)滿足,則B1(B并B’)、B1(B并B’)、B1(B并B’) 也滿足。
證明略,見原文。
這個定理說的是在一個選舉集合B 之后的每次成功選舉,只要和之前集合中每次選舉都有交集,那么這些成功的選舉合并選舉集合B 滿足一致性。
幾個協議
從B1-B3這些約束條件可以得到初始協議(preliminary protocol ),基礎協議(basic protocol)是初始協議的限制版,滿足一致性要求。完整議會協議(complete Synod protocol )進一步限制了基礎協議 ,滿足一致性和進展需求(progress requirements),多法律議會協議(multi-decree parliament protocol)源于完整議會協議,它使得議會可以通過一系列而不僅僅是一條法律。下面具體介紹這幾個協議。
初始協議
滿足B1,牧師發起選舉的編號必須滿足偏序關系,有一個方法是每個發起牧師使用遞增的數值作為選舉編號,但這樣牧師無法立即知道他們選的數值有沒有被其他牧師選作選舉編號已經被使用。還有一個方法是使用數字+牧師姓名作為選舉編號,這樣就避免了自己的選舉編號被其他牧師使用。
滿足B2,每次選舉的法定人數必須是一個大部分集合(majority set)Q,這樣任意兩個選舉都會有一個共同的牧師。這里大部分集合是一個靈活的選擇,在原文中Lamport 使用體重打比方,體重的人更有可能呆在議會大廳,這樣就可以使用體重超過一半的牧師集合作為大部分集合。至于實際情況中的大部分集合是什么要看具體情況了。
滿足B3,要求每個牧師p 每次在發起選舉前必須找到B_qrm 中每個牧師q 的MaxVote(b,q,B)。
根據以上要求,可以得到初始協議:
1. 牧師p 選擇一個選舉編號b ,并發送NextBallot(b)送給其他牧師
2. 其他牧師q 在收到NextBallot(b) 后,返回LastVote(b,v) 給牧師p,v=MaxVote(b,q,B)$是小于b 編號的q 投的最大的贊成票。為了保證B3,q 不能在b 和b_bal 之間的選舉投贊成票。(如果q 在發送了LastVote(b,v)又對新的選舉投票了那么v 也就不是q 投的最大贊成票)
3. 牧師p 從一個大部分集合Q 中每個牧師q 中都收到LastVote(b,v) 后,發起一個新的選舉,編號為b,法定人數為Q,法律d滿足B3。然后牧師p 將這個法律寫在自己賬目的背面,發送BeginBallot(b,d)給Q 中每個牧師。
4. 牧師q 收到BeginBallot(b,d) 后決定是否為這次選舉投贊成票,如果贊同,則他將發送Vote(b,q) 給牧師p。
5. 如果牧師p 收到Q 中每個牧師q 發來的贊成票Vote(b,q),則將法律d 寫入他的賬目中,并向所有q發送Success(d) 消息。
6. 收到Success(d) 消息后,牧師q 將法律d 寫入到自己的賬目中。
說明:第一步表示發起法律的牧師p 希望下一個選舉的編號是b 。牧師q 用LastVote(b,v) 回應了牧師p 的請求,也就是向牧師p 通過法律時保證了v=MaxVote(b,q,B) 的被改變,具體來說就是不在b 和b_bal 之間的選舉投贊成票。
第三步要求法律d 需要滿足B3,這里我開始有點迷糊,實際系統中的值是客戶端決定的,而不應該是B3 決定的。這里我們還是用上面的key-value 數據庫的例子來理清下思路:當某個節點/牧師第一次發起更新前相當于B為空集,發起更新/選舉的操作不斷進行,直至所有法定人數(quorum)都對法律投了贊成票(即majority set 的節點都更新了該key-value 的值則認為更新成功),B3對應的就是之前的更新沒有成功,那么新的選舉值需要保持的情況。第四步允許牧師可以不發送Vote(b,q) 或者發送幾次,對應的是發送的信息可能因為通信而失敗而未發送或者被多次發送。一旦牧師投了贊成票則確認可以修改該值。
考慮到最后第六步法律d 才被牧師q 寫入到賬目,有可能出現的情況就是在第五步的時候牧師p 將法律寫入到了自己賬目中,接著發送Success(d) 給其他牧師,其中因為通信或者牧師離開議會大廳而沒有被寫入到自己的賬目中,導致不一致。所以真正寫入到賬目時機應該是在第四步牧師q 在發送給牧師p 贊成票的同時就法律寫入到了各自賬目中。而不用考慮如何保證牧師q 第四步寫入的法律會導致不一致,因為法律如果沒有通過則還有更多的選舉來保證一致性。后面也談到了當法律第一次別寫入到賬目中算通過法律。
基礎協議
初始協議(Preliminary Protocol)要求每個牧師都保存 (i) 他發起的每個選舉; (ii) 他投的每個贊成票; (iii) 他發送的每個$LastVote$。為了簡化牧師需要保存的數據,我們對上面的協議做一個限制,得到基礎(Basic Protocol)協議。首先介紹三個新的參數:
lastTried[p] 牧師p 發起的最后一個選舉
prevVote[p] 牧師p 最近一次的投票
nextBal[p] 收到的選舉編號的b 的最大值,即牧師p參加的最大選舉編號
在初始協議中,每個牧師可以同時發起任意個選舉,在基礎協議中要求每個牧師只能發起一個選舉lastTried[p],一旦發起一個選舉,那么之前發起選舉的信息就都不重要了。在初始協議中要求每個牧師不能在b_bal 和b 之間投贊成票,在基礎協議中則更嚴格地要求不能給小于b 的選舉投贊成票。那么基礎協議可以概述為下面幾步:
1. 牧師p 選擇一個大于lastTried[p] 的選舉編號b ,發送NextBallot(b)給其他牧師
2. 牧師q 收到NextBallot(b) 且b>nextBal[q]后設置nextBal[q]=b ,接著發送LastVote(b,v) 給牧師p,其中v==prevBa[q] 。(如果b 小于或等于nextBal[q],則不回復)
3. 從滿足某個大部分集合Q 中每個牧師收到了LastVote(b,v) 信息,牧師p 發起一個編號為b ,法定人數為Q ,法律為d(滿足B3 )的選舉,并將BeginBallot(b,d) 發送給Q 中每個牧師。(如果沒有滿足任意大部分集合Q 的牧師返回,則返回第一步)
4. 牧師q 收到BeginBallot(b,d) ,決定投贊成票,設置prevVote[p] 為這次投票,并發送Vote(b,q) 給牧師p。(如果在收到BeginBallot(b,d) 后發現b 不等于nextBal[q] 則忽略這條信息,說明這期間牧師q 還收到了其他的編號更大的選舉)
5. 牧師p 從大部分集合Q 中每個牧師q 收到了Voted(b,d) ,且b==lastTried[p] ,則認為這次選舉成功,將法律d 記錄在賬目中,并向Q 中每個牧師q 發功成功消息Success(d) 。
6. 每個牧師q 收到Success(d) 消息后將法律寫入賬目。
基礎協議是初始協議的限制版,因為兩者都對牧師沒有行為要求,所以也不保證過程(QS)。下面介紹一個保證過程的協議— 完整議會協議(complete Synode protocol)。
完整議會協議
基礎協議保證了一致性卻沒有保證任何過程,因為它只闡述了牧師可能做什么,沒有要求牧師應該做什么。為了達到之前談到的過程需求(Qrogress Requirements),我們需要添加一些額外的要求使得牧師們盡快執行完2-6 步。
考慮一種情況如果牧師q 第二步收到的選舉編號b 都比之前收到的要大,那么他就要放棄之前收到的所有選舉。可是在選舉編號為b 的選舉在未確認前,可能又會收到更大編號的選舉b’ ,這樣就無法通過任何法律,過程也不能保證。所以為了達到過程需求則需要一個選舉成功后再發起另一個選舉。而首先應該知道服務員傳遞消息和牧師處理消息的時間,在網絡中常常通過設置timeout 來實現,同樣的如果超過了一定時間牧師沒有收到服務員的回復,則認為該服務員或者對應的牧師離開了議會大廳。
假設牧師執行一個動作在7 分鐘以內,服務員傳遞一個消息在4 分鐘以內,那么一個牧師p 發送消息給牧師q ,希望其回復的時間應該是在22 分鐘內(7+4+7+4 分鐘)。
有了上面時間的假設,再考慮上面討論過的情況,如果發起選舉的牧師p 會在第二步和第四步期望22 分鐘內收到其他牧師的回復,如果沒有則可能是一些牧師或者服務員離開了議會大廳,或者還有一些牧師發起了編號更大的選舉。遇到這兩種情況都牧師p 應該終止本次選舉,而重新開始發起一個新的選舉,為了不至于新發起的選舉編號還是太小而仍不能執行,需要從其他牧師哪里獲取最新的選舉編號,從而選取一個更大的編號發起選舉。
進而假設牧師p 是唯一能夠發起選舉的牧師且議會大廳內有大部分集合的牧師,那么可以保證在99分鐘內通過一條法律:22 分鐘內發現了有更大編號的法律,22 分鐘內獲取最大編號并選擇個更大的編號,55 分鐘內完成1-6 步完成一次成功的選舉(疑問:既然只有牧師p 能夠發起選舉,那么編號都是由其控制的,前兩步發現并選擇更大的編號似乎就沒有必要了。答:并不是所有的選舉都是president發起的,其他牧師發起選舉,president向其他希望發起選舉的牧師配發選舉編號)。從上面的過程我們發現完整議會協議需要一個選舉president的過程,president的選舉算法不是文章重點,所以文章中僅用T 分鐘代替了選舉president的時間,這樣T+99 分鐘內可以通過一部法律。
文中選擇president的方法是誰的姓在字母表中最后,并將自己的姓發送給議會大廳內所有牧師,如果在T-11 分鐘內某個牧師沒有收到比自己姓在字母表中更靠后的姓,則認為自己是president(我覺得廣播體重也應該不錯,不是說體重更重的呆在議會大廳會更久么?^_^)。還有一個細節:在選舉president的時候每個牧師p 需要將自己的lastTried[p] 發送給其他牧師,以使得president能夠在第一次選舉時選擇一個足夠大的編號。
至此,通過選舉president和設置超時,完整議會協議就可以保證過程了。
多法律議會協議
上節的完整議會協議(complete Synod protocol)中,president被選舉出來后,每個希望發起選舉的牧師通知他,president給牧師配發選舉編號,每次僅通過一部法律。多法律議會協議(The Multi-Decree Parliment)選擇一個president通過一系列法律,且只需要執行前兩步一次即可。
具體方法是president第一步發送NextBallot(b,n) 代替NextBallot(b) ,表示希望通過n-b 之間的所有的法律,在president 的賬目上,編號n 之前的法律都是連續記錄了的,b>n 。其他牧師q 收到消息后將每部已經出現在其賬目中編號大于$n$的法律都返回給president,不在賬目上的返回正常的LastVote 信息。
下面談到多法律國會協議有關性質,首先是法律的順序,不同法律編號的選舉同時進行,發起選舉的每個牧師都認為自己是president(不知道president 是怎么選舉出來的,也不知道法律通過的順序)。在完整議會協議第三步中法律被提議,第一次寫入到賬目上時稱法律被通過。當一個president需要提出新的法案時,他必須從大部分集合牧師中學習到那么法律他們都投了贊成票,每部法律都被大部分集合牧師中至少一個牧師投了票,所以president發起新的選舉前總能學到所有之前通過了的法律。president不會在空缺的法律編號內填補重要的法律。,也不會亂序提議法律,所以協議滿足“法律有序性”:如果法律A 和法律B 都是重要的法律,法律A 在法律B 提議之前通過,那么法律A 有比法律B 更低的法律編號。第二點屬性是president在選舉出后且沒有人再進出議會大廳,法律是按照下面步驟不斷通過的(對應完整議會協議的3-5步):
3. president 向一個法定人數牧師中每個牧師發送BeginBallot ;
4.每個牧師向president 發送Voted 信息。
5.president向每個牧師發送Success 消息。這樣通過每部法律只需要三次消息傳遞,通過合并BeginBallot 和Success 命令可以進一步減少消息傳遞。