7月24日,以“新視界·連未來”為主題的第三屆全球互聯網通信云大會(WICC 2021)在北京成功舉辦。作為 WICC 的主辦方,全球互聯網通信云領導廠商融云在“網絡傳輸與系統架構”的技術分論壇中,發表了《融云構建全球一體化網絡的設計解析》的主題演講。
融云首席架構師李淼為開發者全面解析了融云 RTC 和 IM 全球網絡的設計要點和質量監控體系,從架構層面詮釋了融云為開發者提供的全球化服務能力。
構建全球網絡的問題與難點
李淼首先介紹了融云全球通信網絡最大的特點是:因業務場景不同,RTC 實時音視頻和IM 即時通訊分別采用了不同的網絡傳輸架構方案。從業務場景上看,RTC 用于已確定且在線設備間的實時音視頻數據傳輸,數據不需要中心介質存儲,架構設計上采用了全球去中心化分布網絡;IM 無法確定接收端是否在線,因此需要離線消息存儲,架構設計上采用中心化架構。
在服務全球開發者的過程中,李淼認為構建全球網絡的問題與難點主要在于網絡連通率、數據傳輸延時、網絡抖動、網絡覆蓋率、數據的實時監控、質量改進方案和 QoE 質量體驗。為了解決這些問題,融云分別基于 UDP 和 TCP,搭建了 RTC 和 IM 的全球傳輸網絡,最終形成了覆蓋全球的一體化通信網。
融云RTC全球通信網絡的基本能力
融云所構建的 RTC 底層網絡通信架構,擁有用戶就近接入、服務節點級聯、節點專線網絡連接、動態鏈路調度和去中心化的邊緣節點架構五大基礎能力。演講中,李淼重點介紹了去中心化的架構設計和動態鏈路調度能力。
在架構設計上,融云 RTC 全球網絡部署完全是去中心化的,部署的每一個邊緣節點,都無需通知任何一個狀態服務器。訂閱關系基于發布時產生的地址,通過 IM 推送給對端用戶。對于邊緣節點而言, MediaServer 是整個音視頻通信的核心,除此之外的附加服務還包括 MCU,用于合流服務、錄像服務、審核服務、以及直播類向 CDN 的推流服務等。
在動態鏈路調度上,分為客戶端的節點選擇策略和服務端的級聯策略。
從客戶端看,如果是海外用戶,就近節點則優先選擇 BGP Anycast,其特點在于用戶在全網 IP 唯一,可基于 IP 直接訪問距離最近的節點;中國國內和禁運國的用戶,由于 Anycast IP 無法在運營商預撥,因此就近節點優先選擇 SmartDNS 接入。此外,為確保用戶的最佳體驗,融云會對所有終端用戶下發多條鏈路,讓客戶可以智能探測,從中選擇一條質量最好的鏈路。
從服務端看,首先是內網級聯優先,即多個數據中心通過專線網絡進行級聯。其次是公網級聯,一旦內網發生故障,則自動降級到公網,通過現有的互聯網完成級聯。第三是多級級聯,倘若內網、公網都出現問題,融云會選擇架構中的一個中繼節點進行服務器的再次轉發。
李淼從最佳實踐的角度建議,多以硬件或網絡的方式來解決問題而不是通過算法,可使網絡質量更加穩定、可靠。
融云第三代IM全球網絡的四大特點
為了確保全球用戶可以正常地使用融云的 IM 即時通訊服務,融云自2015年起就自建了 IM 全球網絡,至2020年已迭代到第三代。第三代IM全球通信網絡是基于 Anycast 的一體化加速網絡,具備多協議支持、支持接入多數據中心、分配策略基于 SmartDNS & Anycast 方式、全球網絡鏈路優化等四大特點。
李淼重點介紹了多協議支持和支持接入多數據中心這兩個特點。其中,多協議支持除了融云自有 IM 協議,還包括 http、https、websocket 等其它協議;支持接入多數據中心,是指融云在國內和海外擁有多個數據中心的情況下,客戶先將消息匯聚到路由節點,根據就近分配原則接入最近的數據中心,進行信息的流轉。
通過質量監控為用戶體驗保駕護航
“目前,融云全球通信網絡承載的日均消息在200億左右,每天實際處理的峰值超過2000億,每小時處理的峰值超過900億。要保證如此大體量的平臺穩定運行,質量監控手段至關重要。”李淼介紹說。
融云 RTC 全球網絡的質量監控手段包括客戶端日志及實時業務數據、服務端日志及實時業務數據、實時數據運算和監控報警。以客戶端日志的收集策略為例,李淼介紹,為了保證日志收集成功率,一旦客戶端打開服務,每10秒就自動向服務器上傳錯誤數據,這樣有利于提高日志收集的準確性和完整度,有了日志做基礎,才能對客戶端的網絡質量進行持續優化。
除了監控手段外,在監控質量上,融云RTC全球網絡關注 QoS (服務質量)和 QoE (體驗質量)兩方面的質量。QoS 涉及網絡延遲、終端帶寬、網絡丟包率、終端誤碼率和網絡抖動五個維度;QoE 僅體現在音視頻質量中,包括環境、用戶和服務,主要是以人為本進行的評估。
而對IM全球網絡的質量監控而言,融云更關注 QoS 而非 QoE 。QoS 包括網絡連接成功率、數據傳輸延時、網絡抖動和網絡覆蓋率等。其中重點要監控網絡連接成功率,這主要以時間維度+地理維度+應用維度+終端類型維度進行綜合分析,從而快速定位終端所出現的SDK問題,快速解決問題。
結語
全球通信網持續優化無止境。未來,融云將持續加大網絡建設的投入,一方面部署更多邊緣節點,提升網絡覆蓋率;另一方面,在不斷迭代的 SDK 中,增加新的數據埋點,豐富質量數據監控類型及收集手段,提升 SDK 質量和網絡質量。此外,融云還將嘗試 AI 網絡預測和無人值守運維,通過大數據方式提前預判網絡峰值,確保網絡穩定運行。
WICC 2021上,李淼揭秘的融云RTC和IM全球通信網絡,覆蓋全球233個國家和地區,擁有數千個加速節點和多個海外數據中心,能夠讓世界上每一個用戶都獲得最佳的通信體驗。