Github的首席安全官和工程部高級副總裁今天分享了關于上周代碼托管平臺發生的一系列故障的更多細節。
雖然這些事件的根源不盡相同,但從5月9日到5月11日,它們影響了GitHub的大部分主要服務,曾導致大范圍的數據庫連接和認證失敗長達十小時。
上周,GitHub經歷了幾次可用性事件,既有長時間運行的,也有持續時間較短的。目前這些情況均已經得到緩解,所有系統現在都已經在正常運行。
5月9日,GitHub提供Git數據的內部服務的配置發生了變化,導致8個主要服務中斷。
第二次故障發生在5月10日,該故障影響了GitHub應用的認證令牌的發放,造成故障的原因是由于負責管理GitHub應用權限的API的高負荷和低效率實施造成的。
5月10日,為GitHub App認證令牌提供服務的數據庫集群出現了GitHub App權限寫入延遲7倍的情況(狀態為黃色)。
在這次事件的大部分時間里,這些授權令牌請求的失敗率為8-15%,在短時間內甚至達到76%的峰值。
5月11日,GitHub出現第三次故障,造成故障的原因是服務于Git數據的數據庫集群崩潰并觸發了自動故障轉移機制,導致讀取副本丟失。
事件歷史 (GitHub)
GitHub方面表示,目前正在解決Git數據庫崩潰的問題,這個問題目前已經引起了不止一次的事件。這項工作已經在進行中,并將優先得到處理。同時,GitHub也在解決關于數據庫故障轉移的問題,以確保故障轉移總是在沒有干預的情況下完全恢復。
GitHub將在5月份可用性報告中分享有關這些中斷情況的詳細信息,以及目前正在采取哪些措施來解決導致這些中斷的問題。同時還會公布事件進展細節,以及如何提高GitHub可用性進展的一般更新等問題。
2022年3月,GitHub也曾遭遇過多次中斷,當時該公司表示事件原因是由平臺主數據庫集群的資源爭用問題引起的。
GitHub還在2022年2月發生過一次重大故障。當時一度導致GitHub平臺在全球范圍內關閉,并且一切訪問網站的請求均被阻止。