我認為,在未來 3 年內,這三個類別——APM、監測/指標、日志,可能還有其他類別——都可能不復存在。將只存在一個類別:可觀測性。并且它將包含您需要了解的,系統可以進入任何狀態所需的所有見解。
——Charity Majors, CEO Honeycomb
近日,由中國信通院發布的《中國數字經濟發展報告(2022年)》數據顯示,中國數字經濟發展始終呈現穩中向好的發展態勢,產業規模持續快速增長,已數年穩居世界第二。在 2021 年,中國數字經濟規模已超 45 萬億元,占國內生產總值 39.8%,在國民經濟中的地位更加穩固、支撐作用更加明顯。
在產業數字化轉型提速升級過程中,基于云計算的技術創新與產品應用起到了重要作用,從底層的基礎設施框架,到上層的業務流程定義,都在持續進化并已顛覆很多傳統思維與模式。今年,又誕生許多新熱點技術和方法,「可觀測性」(Observability)成為其中佼佼者之一。
日趨成熟的可觀測性工具,配合已實踐多年的「系統可靠性工程」(SRE),打破了對原有開發運維體系的認知瓶頸。系統本身是否具備可觀測性,和是否有合適的可觀測方案守護,已成為能否保障系統穩定性的最關鍵前提。運維不再限制于僵化的變更流程,開發可以隨時享受可編程基礎設施帶來的便利,測試和安全加固貫穿整個開發運維過程,系統所有的實時運行狀態都盡在掌控,潛在的風險可被提前預測,用數字化的手段,才是管理數字系統的最佳方案。
大型企業或可憑借自身強大的技術實力與持續性的產研投入,自建一套全鏈路可觀測平臺,但即便如此,隨著應用不斷迭代,或技術棧版本快速更新,仍要面對頻繁調整監測參數的巨大工作量;若中小企業或初創團隊,僅建設這樣一套全鏈路可觀測平臺,就已大大超出其技術和運維能力承受范圍。
8 月 27 日,觀測云首席布道師——吳亞昆作為「DataFunSummit2022:數據治理在線峰會」的「數據可觀測性」主題論壇出品人,特別邀請到了觀測云、睿象云、貨拉拉、中國 SRE 聯盟、阿里云、同創永益等業內知名企業和團隊的技術專家,在線分享討論具備代表性的超大平臺可觀測性解決方案與行業實踐,以及如何讓初創企業也能開啟全面可觀測能力的落地場景。
觀測云與合作伙伴的應用實踐探索
1、睿象云:告警,為可觀測性平臺分析提供可靠「現象」
睿象云技術總監王金良從可觀測性的整體形態出發,圍繞告警在可觀測系統的核心功能、價值和最佳實踐展開,發表《可觀測系統中的告警管理實踐》主題分享。
王金良表示,可觀測性并不是在取代監控,它更像是描述一種屬性的范疇,是一種能力的體現形式,越復雜的系統越需要這種屬性或能力。
告警作為 IT 運維信號總量的金字塔尖,對于可觀測性接下來的流轉及判斷起著至關重要作用。而統一的、準確的、智能化的告警平臺的誕生,為可觀測性平臺的分析,提供了更為可靠的「現象」,可幫助運維人員接下來分析原因引導方向。
2、觀測云:數據治理視角下的可觀測性
觀測云高級技術專家張田發表《數據治理視角下的可觀測性》主題分享,并以數據資產管理場景為例,深入淺出地闡述可觀測性對系統穩定運行的重要性。
張田表示,「可觀測性」表示收集一個系統的所有指標、日志以及鏈路追蹤數據,并通過一定的治理手段使這些數據有機結合,以合適的方式呈現出來,最終幫助用戶更好地來理解和解釋系統當前所處的狀態。
以數據資產管理場景為例,治理后資產用什么方式對上層應用提供服務,這些對外服務如何管控,誰使用了數據,用了多少數據,使用體驗如何,都是對治理效果的一次定量化衡量。這個衡量過程的核心就是系統的可觀測性。觀測云目前的統一可觀測能力已經非常成熟,實現這個能力的基礎就是數據關聯,做到統一數據展示、數據查詢、數據分析與數據報表展示。
3、貨拉拉:依托強大的技術團隊,實現全鏈路可視化監控
在本期主題論壇現場,貨拉拉架構師曹偉帶來《貨拉拉全鏈路監控的落地與實踐》精彩主題分享。
曹偉介紹道,貨拉拉成立于 2013 年,是互聯網貨運物流市場中的頭部品牌,隨著貨拉拉的業務規模不斷壯大,原來的系統架構已無法滿足業務需求,因此自 2020 年起,貨拉拉便著手對業務系統監控全面改革。
依托強大的技術團隊和深厚的技術積累,歷經兩年重重測試與不斷調整,貨拉拉串聯 Metric、Trace、Log 和業務,實現全鏈路可視化監控閉環,完成「所見即所得」的監控可視化建設。
曹偉現場表示,貨拉拉自研的可觀測系統得益于公司多年深厚的技術積累和研發恒心,目前貨拉拉監控 3.x 已實現快速定位、全局穩定性、微服務治理、高 ROI 等效果,未來將對自研存儲、根因分析、指標告警聯動、服務拓撲、回饋開源社區等方面持續投入。
4、中國 SRE 聯盟:首席布道師劉峰,SRE 的核心理念與可觀測性
在本次「數據可觀測性」主題論壇直播間,中國 SRE 聯盟首席布道師劉峰為觀看直播的觀眾帶來《SRE 的核心理念與可觀測性》精彩主題演講。
劉峰表示,分布式、復雜的服務以不可預測的用戶和可變吞吐量大規模運行,這意味著有數百萬種不同的方法出錯,但卻不能預測它們,將服務的所有輸出外部化,使我們能夠推斷該服務的內部狀態,即服務的可觀測性是建設云時代 IT 系統時的剛需。伴隨 DevOps、SRE 的全面到來和技術棧持續升級迭代,可觀測性與 SRE 工程、開發和運維、應用與系統環境、軟件工程與系統工程等之間逐漸形成引入和推動的「奇點」效應:同根同源,共生共進;無中生有,有中生新。
SRE 工程、可觀測性技術與應用實踐的最終目的,都是通過新興科學技術構建穩定的系統,用可靠的服務提升企業交付價值,助力數字化業務增長。
5、SLS:云原生可觀測平臺,助力業務數字化創新
隨著云計算技術不斷升級,承載業務的 IT 基礎設施規模擴大,各個應用之間的鏈路關系變得越來越復雜,每時每刻都在產生海量級的日志。對日志數據的采集、存儲與分析處理方式,是衡量企業系統數字化程度的重要標志。
來自阿里云的智能產品專家孟威表示,面對業務數字化,傳統的 IT 運維方案存在多種挑戰,需要能打通可觀測數據,快速根因診斷與問題定位,方便易用的新一代運維方案。日志服務 SLS,可提供一站式日志數據采集、加工、查詢與分析、可視化、告警、消費與投遞等功能,全面提升研發、運維、運營、安全等場景的數字化能力。
6、同創永益:數字韌性,數字化業務連續性下一站
同創永益鄭陽作為最后一位嘉賓出場,帶來《數字韌性:數字化業務連續性下一站》主題分享。
鄭陽表示,企業上云在為業務增長帶來提升的同時,也帶來了新的風險與挑戰。伴隨業務云化程度加深,最大的挑戰就是系統鏈路的復雜性,一個小的變更就有可能觸發大面積的系統混亂、故障和服務中斷。
混沌工程的出現,讓人們對復雜分布式系統在生產環境中抵御突發事件的能力有了信心。利用混沌工程可驗證、保障系統穩定性,比如在 Kubernetes 平臺上快速驗證其高可用性、彈性、可觀測性。
縱觀全國上下各企業的可觀測性建設,目前普遍處于探索階段,但站在中國可觀測性的起點,從技術范式顛覆的視角來看,系統的可觀測性將成為企業數字化轉型的典型特征。
中國的可觀測性始于觀測云
作為中國可觀測性領域的領頭羊,觀測云自今年 4 月正式發布以來,已榮獲中國信通院頒發的「可觀測性平臺技術能力」最高級別「先進級」認證、可信云企業級 SaaS 服務認證等多項國家級獎項,入選 CNCF 云原生全景圖的 Observability and Analysis 板塊,全面兼容 OpenTelemetry,數據接口全部開放。此外還提供強大的自定義編程功能,可接入物聯網、云平臺賬單等各種跨平臺數據源。
除提供開源組件外,觀測云還支持 SaaS 版按量計費模式,以及全功能的,可以本地部署的「社區版」供廣大技術愛好者免費試用體驗,極大降低了可觀測能力平臺的建設門檻,讓初創團隊甚至個人,都可以快速體驗到最先進和完整的可觀測能力。
聰明的團隊會觀測,一個成熟的技術團隊就應該掌握通過數據視角去分析問題,統一地建立整個系統可觀測性是 DevOps 和 SRE 能夠落地的充分必要條件。
觀測云始終堅持以數據為核心、價值為驅動,秉承開放創新發展的理念,持續增強技術與產品研發投入,提供優質的可觀測性產品體驗,助力企業、技術團隊及個人系統的可觀測性系統建設,為企業數字化轉型提供最大化的價值,并攜手各方生態合作伙伴,共同為中國可觀測性的發展貢獻力量。