雙十一剛剛過去,你的快遞都收到了嗎?好像曾經因流量激增,導致各地中轉及收件點爆倉,快遞遲遲不到,延遲甚至長達半個月的新聞幾乎絕跡。當運輸速度恒定,中轉站點的多寡、分揀能力的強弱、是否丟包重發,決定了你的快遞能否如期到達。
那么,如果 IM 消息是物,音視頻內容是物,那么全球通信網就是負責傳輸的物流系統。在物理距離恒定的前提下,對于路由跳數、網絡帶寬、網絡質量和緩存隊列的設計和優化,決定了系統能否做到高質量、低延遲的傳輸。
這是融云首席架構師李淼在 WICC 廣州“出海分論壇”中分享的話題引子。也因此,李淼關于《全球低延遲通信網絡的設計與優化》的話題分享變得更加具象。
RTC 與 IM 全球網絡的設計有所同,有所不同
融云全球通信網絡分為 RTC 全球網絡和 IM 全球通信絡兩個部分,這是由于 RTC 和 IM 在傳輸中不同的加速特點所決定。
(RTC 網絡與 IM 網絡)
相同點在于:二者可在數據中心、節點等多項物理設施上進行復用,并且都必須保證高質量、低延遲的傳輸,從而為用戶帶來極佳的場景體驗。
不同點在于:RTC 基于 UTP 協議運行,對于用戶體驗而言,允許有一定的丟包率,但對于延時要求苛刻;而IM 基于 TCP 協議進行業務承載,在要求消息不能丟失的同時,需要消息的集中存儲,不僅能為用戶不在線時存儲離線消息,還要根據業務類型,進行歷史消息的存儲。
因此,融云對于 RTC 的設計,是完全去中心化的分布式通信網絡。好處是在后續進行網絡優化時,可以隨意增加媒體節點部署,而不影響用戶的任何使用體驗。
融云 IM 的網絡設計采用的是將數據流量導入到數據中心的方式,已陸續在國內、北美和新加坡分別設立了數據中心,目前已迭代至基于 Anycast 的一體化加速網。特點在于多協議支持、多數據中心支持,并且,基于 SmartDNS & Anycast 的加速原理可以更高質量地保證在全球范圍內,節點分配的準確度。此外,IM 的許多全球鏈路優化工作,都可以在 RTC 上復用。
了解完以上架構,重點來了:融云是如何進行延時優化的呢?這需要分別從 RTC 和 IM 兩個方向進行解析。
如何降低 RTC 的網絡延時
(RTC 通信過程)
對于 RTC 而言,能降低延時最好的辦法,就是提高 RTC 節點的覆蓋率,目的在于縮短用戶與邊緣節點的物理距離,也就意味著以更少的跳數完成連接。
融云對于節點的選擇先是要保證大洲級的全覆蓋,再是對熱門區域進行重點覆蓋。所選節點基于一線 IaaS 廠商的公有云服務搭建,每個節點之間都可通過專線互聯。不但可以提升鏈路傳輸的穩定性,還可以降低 RTC 節點的跳數,甚至可以做到0 跳或者1 跳。
優化的難點在于:如何讓用戶選擇到質量最好的節點。通常最直觀的辦法是通過智能 DNS 解析,但融云經過驗證發現,準確度率只在80% 左右。為此,融云在之后增加了 IP Anycast,它跟 DNS 原理完全不同,可直接通過 IP 的方式來進行分配,這個分配是運營商級的。
在鏈路探測方面,物理距離最近的 IDC 未必就是質量最好的節點,即便采用 smart DNS+IP Anycast,準確度依然無法達到100%。為此,融云增加了客戶端的探測能力,在用戶連接時下發 N 個地址。客戶端根據下發地址進行探測,擇優選擇鏈路連接。據日志分析,準確度達99.5% 以上。
同云連接可以通過鏈路優化來保證,那么跨云又該怎么辦呢?
融云的做法是通過二級級聯,將數據中心之間的流量通過所采購的 SD-WAN 進行導入導出。這其中,級聯優化至關重要。
比如,一個北美用戶跟一個國內用戶通信,融云會先在北美與香港之間進行專線互聯,然后香港再與國內的節點進行專線互聯。這種通過香港節點進行轉發的方案,能夠在保證質量的前提下,達到低延時的網絡優化效果。
但難點在于:故障降級。傳輸過程中,同云的專線和 SD-WAN 都可能會出現故障。盡管故障的概率極低,但一旦故障發生,就必須有所取舍,為了保證用戶能夠正常接聽互通,只能選擇將整個通訊鏈路進行降級。比如當專線出問題時,會通過二級級聯的方式,進行節點的跳轉,或者直接通過互聯網公網的方式進行數據的轉發。
此外,要降延就要有完善的網絡延時監控系統。融云在客戶端建設了各種標準的 QoS 監測系統,包括數據實時上報和后臺分析。
如何降低 IM 的網絡延時
IM 的網絡延時優化途徑主要集中于節點間數據轉發和證書計算前置兩個方面。
在節點數據的轉發方面:由于 IM 數據基于 TCP 協議傳輸,但 TCP 的擁塞控制和丟包重傳策略并不友好,因此融云將部分 TCP 協議替換成 QUIC 協議,也就是說,從物理距離最遠的邊緣節點到路由節點數據的傳輸,融云都通過 QUIC 進行了優化。
(IM 全球網絡的歷程)
通過QUIC 優化,首先可以避免在邊緣點跟路由節點之間,TCP 的三次握手,直接將 TLS RTT 降為0;其次是當網絡抖動時,QUIC 有更友好的丟包重傳策略,可以做到丟哪個包就補哪個包,而不會像 TCP 那樣,一旦丟包,后續所有的包都要進行重傳。內測表明,這一優化,使整個網絡延時降低了15% 左右。
在證書計算前置方面:融云采取將 TLS 證書和 SSL 的證書,在邊緣節點上直接進行交換的方式。這樣一來,首先是減少了用戶數據到數據中心之間的整體的 RTT,可將 RTT 直接降到0。其次,IM 多有小包通訊的場景,例如一個信令包只有10-20 個字節,通過在邊緣點上將數據包進行解密,明文傳遞到融云的路由節點,再進行加密傳到數據中心,大大降低了兩個最遠物理距端點間的數據傳輸量。
需要說明的是,用戶完全無需擔心數據的安全問題。因為融云的邊緣節點和路由節點全部由融云控制,均為受信網絡。但如果是必須要在公網完成數據傳輸,融云仍然會通過傳統 TLS 方式來進行數據鏈路加密。
當然,融云對 IM 的優化策略遠不止于此,更多表現在客戶端及服務端日志的收集、zero copy、多路復用、IP 直連和 QoS 保證等多個方面。
比如對日志的收集,融云每發一個 SDK 版本,都會增加新的日志埋點,用于分析業務、分析網絡等,以此進行一些定向或定點區域的優化。
在談及未來計劃時,李淼指出,融云將不計成本,不遺余力地繼續加大網絡建設力度,為開發者提供更加優質的服務。就研發而言,將持續提升軟件本身的處理能力,不斷豐富數據收集的手段,同時提升數據預估的準確性。