企業數字化運營需求催生了海量的數據任務,以阿里巴巴為例,這十年間隨著集團業務復雜度和數據體量的不斷攀升,任務量呈現出階梯式增長,每日任務調度量突破了2000萬。由此可見,在大數據時代,一款能夠保障千萬級實例平穩高效調度的數據建設工具,必將成為數字化企業不可或缺的中堅力量。
一、支持超大規模系統吞吐量和超復雜依賴關系
瓴羊Dataphin于近期發布V3.11版本,不僅上線了數據分析平臺、隱私計算平臺兩大能力模塊,同時重新設計了任務執行框架,使用k8s替換原有的Mesos作為資源調度底座,擁有全局資源視角,可充分利用機器資源,極大提高集群任務執行吞吐率,加快客戶數據產出。另外,任務調度資源池和在線服務共享k8s基礎設施,去除對Mesos和Zookeeper的依賴,降低Dataphin的部署、運維成本。
升級后的Dataphin V3.11版本,可以在24小時內完成3800萬的實例調度,較之前的V3.9版本,取得了顯著的優化成果,整體提升25.4倍,可支持超復雜依賴關系,比如在寬度100萬,深度20,以及寬度20,深度一百萬的2類調度測試場景中,全鏈路調度耗時有明顯減少,即席查詢性能提升也十分明顯。
二、引入混沌工程,運行千萬級任務不重復不漏跑
分布式架構下各組件之間相互調用和相互依賴,系統在失真環境下異常事件發生的概率大幅攀升,通過常規的測試手段很難發現這些問題,處理不好就會導致業務受損。
通過引入混沌工程,圍繞Dataphin分布式調度系統生產環境的任務運行穩態,使用技術手段模擬多樣化的真實異常注入(宕機重啟、DB異常、高負載、網絡延遲、時鐘不同步等),找出系統薄弱點,針對性的對系統進行加固防范,驗證調度系統在各種異常場景,外圍依賴服務不可用情況下,Dataphin核心功能如周期任務轉實例、任務起調、任務下發、任務執行、消息消費仍然可以保持穩定的運行狀態。
如果有一家日調度3萬的企業,為了新增業務想要追補近3年數據,之前需要額外的22.8個工作日,而擁有了Dataphin V3.11版本,哪怕數據任務超過限額,只需對調度系統進行擴容,即可承載千萬級別的調度任務規模,幫助企業在24小時內完成近3年數據追補。
三、Dataphin,阿里巴巴最佳實踐輸出
未來3-5年內,在數字化道路上快速挺進的企業,都將面臨任務量飛速增長的局面,屆時將對企業的數據處理能力提出更高的要求。
Dataphin(智能數據建設與治理)是瓴羊開發云核心產品之一,源自阿里巴巴內部大數據建設最佳實踐的商業化輸出。從2017到2023,歷經6年時間服務了千行百業的客戶。
我們深知,企業需要一套完善的數據技術與工具,實現數據采集、存儲、計算、建設和管理,利用數據思維對當下的業務運營與管理場景問題精細洞察,學會利用數據資產改善能效,以此循環往復,推動數據資產的持續沉淀,助力企業打造標準統一、準確可信、便捷可消費的數據體系。
面對不確定的未來,Dataphin團隊確信只有通過不斷夯實數據建設基礎能力,才能在應對錯綜復雜的數字化業務時更加游刃有余。我們期望與企業們一起乘風破浪,仰望星空、腳踏實地,持續在數字化轉型的實踐道路上并肩前行。