今年 6 月 17 日下午,在線服務普遍中斷。在澳大利亞,它影響了該國三大銀行、國家郵政服務、國家儲備銀行和一家航空公司。距離澳大利亞更遠的地方,停電影響了香港證券交易所和一些美國航空公司。受影響服務的點名似乎達到了大約 500 個服務。
這些問題在澳大利亞東部時間中午左右首次被發現,直到四小時后才完全恢復。問題當然是這500家受影響的企業有什么共同點?這不是蓄意攻擊的結果。但這與許多互聯網企業(無論大小)用來轉移此類攻擊的影響的措施有關。答案是他們都是 Akamai 的客戶,尤其是 Akamai 的 Prolexic DDoS 保護系統。Akamai 的事后回應是:
“無意中超出了此特定服務使用的路由表值。結果是服務意外中斷。”
https://blogs.akamai.com/2021/06/akamai-provides-prolexic-ddos-service-impact-update-status-resolved.html
是的,互聯網仍在增長,在 IPv4 網絡中,我們正在接近大約 100 萬個路由條目,而在 IPv6 中,數量現在接近 150,000 個條目。交換單元以各種方式實現數據包決策結構。有些使用三元內容尋址存儲器 (TCAM),有些使用定制的 ASIC。這里的共同目標是基于對數據包的目標地址與從大約 100 萬個條目池中提取的路由條目的最佳匹配的查找來做出轉發決策。這個查找必須盡可能快。如果我正在構建一個可以處理多個 100G 電路的數據包負載的非常高速的交換機,那么我可能希望我的設備每秒做出大約 100M 左右的切換決策。這意味著我需要設計一個決策系統,該系統可以在 100 萬個條目的集合中執行此查找,并且只需 10 納秒。這是一個非常具有挑戰性的目標。相比之下,最快的可用內存周期時間略低于 1 納秒。然而,事情并沒有那么簡單。如果我正在構建這樣的開關元件,那么我需要對其進行設計,使其能夠應對從現在起 1、2 甚至 5 年內我可以預期的峰值開關負載。如果我弄錯了并且沒有設計足夠的容量和速度,那么我的設備將提前報廢,這將給網絡運營商帶來更多成本。如果我過度設計,那么我將在最先進的高速內存上花費太多,我的產品將比我的競爭對手貴得多。每臺設備都是以這種設計權衡構建的,這些設備的使用壽命取決于諸如互聯網未來增長率之類的不確定因素。關鍵是我們的網絡使用這樣的設備,網絡運營商的作用是不斷升級他們的交換設備能力,以保持領先于這些需求。并且意味著有時它們會滑倒不可避免。Akamai 顯然也是如此。當我們處于硅能力的最邊緣時,我們不能只是設計這個問題。網絡運營商的作用是不斷升級他們的交換設備能力,以保持領先于這些需求。并且意味著有時它們會滑倒不可避免。
但這并不是 Akami 獨有的問題。所有的網絡服務提供商都在追求一個相似的目標,并且所有這些系統有時都可能會切換到過載狀態并出現服務中斷。這次特定中斷的值得注意的是,這次中斷影響了大量在線服務提供商。作為在線平臺的后端服務提供商的業務并不完全是一個人口稠密且多樣化的商業環境。事實上,提供此類服務的企業很少,如果其中任何一家出現運營中斷,那么影響將非常明顯。
事實證明,這并不是 2021 年 6 月的孤立事件。本月早些時候,我們看到一組熱門服務消失了一個小時或更長時間。受影響的服務列表包括 Twitch、Pinterest、Reddit、Spotify、紐約時報和 BBC 等。所有這些服務有什么共同點?他們使用 Fastly。
ABC 關于Fastly停電的新聞報道
“由于有效的客戶配置更改于 6 月 8 日出現了一個未被發現的軟件錯誤,我們經歷了全球中斷。我們在一分鐘內檢測到中斷,然后確定并隔離原因,并禁用配置。在 49 分鐘內,我們 95% 的網絡正常運行。這次中斷是廣泛而嚴重的,我們真的很抱歉對我們的客戶和依賴他們的每個人造成的影響。”
https://www.fastly.com/blog/summary-of-june-8-outage
同樣,這不是攻擊。它更像是一個定時炸彈,特定的客戶配置設置可能會觸發共享 CDN 平臺的故障。所需要做的就是讓客戶偶然發現該特定配置設置,系統就會失敗。
Fastly 建立在一個名為“Varnish”的配置管理平臺上。正如 Fastly 報道的那樣:
“Fastly 建立在 Varnish 之上,它允許高性能的內容交付,包括能夠立即清除其全球網絡中的內容。使用 Varnish 配置語言 (VCL),Catch 可以自定義其 Fastly 配置,從而實現更智能的緩存。
“根據請求中的 cookie 等特定內容設置緩存規則,我們通常只會考慮運行我們自己的 Varnish 服務器。能夠在 CDN 層執行此操作使我們的設置更加強大和簡化。我們還能夠確保始終從 Fastly 提供某些文件格式,并且理論上永遠不必多次訪問我們的來源。
“Varnish 對我們來說非常重要,因為如果我們想對緩存層進行更改,我們可以控制 VCL。對于大多數 CDN,您無法獲得那種靈活性,但使用 Fastly 可以獲得這種靈活性。”
https://www.fastly.com/customers/catch/
“Varnish 是專門為取代 Squid 而設計的,Squid 是一種客戶端代理,可以改編并用作 Web 加速器。它的主要設計目標是提高內容密集型動態網站以及大量消耗 API 的可擴展性和容量。此類站點在 Web 服務器上運行,例如 Apache 或 Nginx,主要是源服務器。創建要提供的 Web 內容。Varnish 的工作不是創建內容,而是讓CDN閃電般快速。”
https://info.varnish-software.com/blog/history-varnish-cache-10-years
當挪威在線報紙 VG Multimedia 每周的頁面瀏覽量超過 4500 萬時,需要 12 臺服務器來處理這些請求。VG 的系統管理員 Anders Berg 認為必須有一種方法可以減少服務器數量,同時加快頁面加載速度。他為一個處理這個問題的開源項目編寫了一份規范,讓球滾動起來。
https://www.varnish-software.com/varnish-history/
因此,Fastly 的主要資產不是某些能夠獨特高效地執行 CDN 功能的專有軟件系統。與許多其他工具一樣,Varnish 是一種開源軟件工具。或許 Fastly 的特殊之處在于其龐大的客戶群,這些客戶可能使用 Fastly 來滿足他們的 CDN 需求,因為其他人也做出了使用 Fastly 的相同決定。換句話說,使 Fastly 在 CDN 世界中如此特別的原因在于它的規模,而這種規模可能是其他人選擇使用 Fastly 并為其進一步增長做出貢獻的更令人信服的原因之一。 規模會產生更大的規模。
CDN 市場存在一些問題。
首先,雖然選擇一個 CDN 提供商并將其用于整個在線內容和服務組合非常容易,但選擇兩個或更多這樣的 CDN 提供商并將它們一起用于自我修復的互備份設置可能更具挑戰性. 對于許多在線服務企業來說,這是一個“選擇一個CDN比做出明智的選擇更容易!” 從那時起,企業與 CDN 提供商共享命運。
其次,可供選擇的 CDN 并不多。如果你追求全球足跡,有足夠的能力吸收除最極端的 DDOS 容量攻擊之外的所有攻擊,甚至吸收所有此類攻擊,那么功能性服務接口允許 CDN 優化服務交付,同時讓客戶控制關鍵方面服務的安全性和完整性(例如私鑰),那么您的比較購物清單并不是很大。Fastly 和 Akamai 與 Amazon CloudFront、google Cloud、微軟的 Azure、Cloudflare 和 Limelight 一起出現在大多數最受歡迎的 CDN 列表中。那是七。當然還有更多,一些具有更多區域性,一些具有特定的技術專長,但這七家企業是當今 CDN 提供商世界的核心。
也許這才是真正的問題。在CDN中,現在似乎每個人都以另一種形式使用 CDN,但實際上可供選擇的 CDN 很少。這是一個高度集中的空間,體積經濟學占主導地位。較大的 CDN 提供商可以以較小的 CDN 企業無法實現的價格提供服務級別。這增加了他們的市場份額,這當然增加了他們的規模并進一步加劇了供應商之間數量經濟差異的規模。提供商空間在一小部分“核心”CDN 巨頭和一個更大的“光環”之間分叉,后者由更小的 CDN 提供商組成,這些提供商提供各種定制的方法來填補大型提供商的服務配置文件中留下的任何專業空白。大型供應商有效地控制了小型供應商的增長前景,因為他們控制著他們的服務產品中留下的差距。自然的結果是大變大,小變小。必然的結果是,當一個CDN服務提供商遇到服務中斷,而且這種中斷過去發生過,而且將來無疑還會發生時,那么中斷服務的傷亡名單就會非常大。
通常,此類中斷會削弱對服務提供的信心,客戶會尋找替代方案。結果很可能是公司的投資者會緊張,股價會下跌。一般。但這些 CDN 人似乎很“特別”。Fastly 的股價在整個 6 月份都在上漲,并且在股價方面沒有停電的殘余影響。
Fastly股價 – 2021 年 6 月
而Akami的股價在6月18日之后大漲!
Akamai 股價 – 2021 年 6 月
泡沫的特征通常是投資者的非理性繁榮,在這種情況下,要求分享尚未實現的未來賞金的喧囂完全淹沒了對市場基本面更為冷靜的評論,并且也忽略了關于成本和收入基礎的平凡對話。這也是高度中心化市場的問題之一。在高度集中的市場中,完全主導其市場的成功企業所提供的回報實際上是市場上提供的一切,以及壟斷溢價的前景作為獎勵!在提供此類賞金的情況下,
與互聯網的許多其他方面一樣,我們看到一個多樣化且競爭激烈的環境正在轉變為一組高度集中的環境,從而導致現有卡特爾和壟斷企業的形成。這種中心化的環境產生了一系列關鍵的依賴關系,因此當失敗發生時,在這個領域是不可避免的,它們將從少數人的小不便轉變為以各種方式影響我們所有人的重大事件。規模和中心性不一定只會創建更強大的服務。正如我們在 6 月份的這兩次特定中斷以及過去的其他中斷(例如2016 年 10 月的 DYN)中所看到的那樣,規模和中心性也給每個人帶來了更大程度的脆弱性。