2月25日,基調(diào)聽云虎年首場(chǎng)線上直播正式開播,本次直播以《讓業(yè)務(wù)系統(tǒng)不再深不可測(cè)》為主題,通過對(duì)可觀測(cè)體系的整體介紹以及DIALOG方案詳解,更直觀的展現(xiàn)基調(diào)聽云可觀測(cè)能力,幫助企業(yè)了解可觀測(cè)性作用于系統(tǒng)、業(yè)務(wù)以及用戶體驗(yàn)等方面的價(jià)值。
IT架構(gòu)變遷對(duì)系統(tǒng)及監(jiān)控的影響
隨著IT架構(gòu)在經(jīng)歷數(shù)據(jù)中心時(shí)代、分布式時(shí)代,到如今云原生時(shí)代的變遷,帶來了諸多變化:應(yīng)用的數(shù)量和容器的數(shù)量越來越多的情況下,系統(tǒng)復(fù)雜程度也隨之不斷加深;多云混合云場(chǎng)景下,整個(gè)容器的創(chuàng)建速度、生命周期以及整體規(guī)模,都已經(jīng)遠(yuǎn)遠(yuǎn)超過原有數(shù)據(jù)中心時(shí)代靠人或者靠固定模式所能管理的邊界;在資源仍然有限的今天,不斷增加的系統(tǒng)復(fù)雜性和故障排查的難度加大,正在竊取企業(yè)的創(chuàng)新的時(shí)間,降低企業(yè)的用戶體驗(yàn)。而對(duì)企業(yè)來講,數(shù)字化轉(zhuǎn)型使得企業(yè)或者企業(yè)的客戶都非常依賴于體系化的it系統(tǒng)來實(shí)現(xiàn)高速的增長(zhǎng),此時(shí)用戶體驗(yàn)和應(yīng)用可用性比以往任何時(shí)候都重要。以上種種都對(duì)企業(yè)在云原生時(shí)代下的復(fù)雜系統(tǒng)管理以及監(jiān)控運(yùn)營(yíng)提出了非常高的要求。
如下圖案例所示,我們可直觀感受到復(fù)雜系統(tǒng)下對(duì)于系統(tǒng)性能的要求,無論從深度還是廣度來說,都呈現(xiàn)了極為繁雜的調(diào)用關(guān)系。
因此,在整個(gè)IT演變過程中創(chuàng)新了多種監(jiān)控方式,傳統(tǒng)監(jiān)控能解決的是在一定范圍內(nèi),通過收集監(jiān)控?cái)?shù)據(jù),告知系統(tǒng)的狀態(tài)(運(yùn)行、停止、有問題等),通過數(shù)據(jù)聚合、異常檢測(cè)和根因分析推導(dǎo)系統(tǒng)性能下降的原因。但因?yàn)閿?shù)據(jù)割裂、監(jiān)控范圍受限等原因,在系統(tǒng)出現(xiàn)故障時(shí),無法快速找到故障原因,因此我們需要借助可觀測(cè)性來深入挖掘。
究竟何為可觀測(cè)性?
In control theory, observability is a measure of how well internal states of a system can be inferred from knowledge of its external outputs.-- Wikipedia Observability
根據(jù)維基百科對(duì)可觀測(cè)性的定義,我們可以理解為可觀測(cè)性是一種方法,通過檢查系統(tǒng)的外部輸出來衡量系統(tǒng)內(nèi)部狀態(tài)的能力。是一個(gè)關(guān)于解決"未知的已知"和"未知的未知(意外)"問題域的能力模型。可以讓你在系統(tǒng)不可用時(shí),快速了解問題的現(xiàn)狀及影響,并能夠深入探索、跟蹤問題的根因。
綜上所述,我們可以了解,監(jiān)控是根據(jù)某些領(lǐng)域模型去推導(dǎo)出問題出現(xiàn)在哪里,而可觀測(cè)性是通過探索發(fā)現(xiàn)系統(tǒng)不可用的原因。因此,監(jiān)控是為了提升系統(tǒng)可觀測(cè)性的手段。而可觀測(cè)性是系統(tǒng)的核心能力,用以提升系統(tǒng)性能。
實(shí)現(xiàn)可觀測(cè)性三大支柱
實(shí)現(xiàn)可觀測(cè)性有三大支柱:Metrics、Logging、Tracing,在三大支柱支撐下,通過不同的工具融合去實(shí)現(xiàn)可觀測(cè)性。
傳統(tǒng)意義上三大支柱是割裂的,在海量負(fù)載的系統(tǒng)下,每一個(gè)應(yīng)用、每一個(gè)服務(wù)會(huì)產(chǎn)生各樣的指標(biāo)及日志,而存儲(chǔ)這些又需要特定的工具,一來二去存儲(chǔ)的成本就會(huì)變高。當(dāng)出現(xiàn)故障時(shí),從離散的日志文件中尋找跟故障強(qiáng)相關(guān)的信息是一個(gè)耗時(shí)耗力的過程,而結(jié)果往往缺差強(qiáng)人意,因此通過催生以Tracing為核心將所有數(shù)據(jù)進(jìn)行關(guān)聯(lián),才可以實(shí)現(xiàn)深度可觀測(cè)性,創(chuàng)造更大價(jià)值。
基調(diào)聽云可觀測(cè)平臺(tái)
基調(diào)聽云通過對(duì)300+技術(shù)棧進(jìn)行適配擴(kuò)展,將追蹤、日志、指標(biāo)、行為、業(yè)務(wù)、OpenTelemetry等多源數(shù)據(jù)、統(tǒng)一采集、處理和分析模型,構(gòu)建基調(diào)聽云可觀測(cè)中臺(tái),納入現(xiàn)有技術(shù)實(shí)踐成果,對(duì)其進(jìn)行融合分析,通過OneTrace模型展示整個(gè)生態(tài)下的調(diào)用結(jié)構(gòu),結(jié)合獨(dú)有的AI能力實(shí)現(xiàn)根因診斷、異常監(jiān)測(cè)、智能告警,最終建立基于業(yè)務(wù)分析的可視化模型,更深入的幫助用戶實(shí)現(xiàn)業(yè)務(wù)可能性。基于基調(diào)聽云可觀測(cè)性平臺(tái),構(gòu)建5大場(chǎng)景可觀測(cè),并且在每個(gè)領(lǐng)域中建立相應(yīng)能力,形成完整的可觀測(cè)體系。
DIALOG作為貫通全棧IT與業(yè)務(wù)的智能可觀測(cè)性平臺(tái)解決方案,分別涵蓋六個(gè)層面的能力升級(jí):一是全棧數(shù)據(jù)采集,二是多維多源智能分析,三是以應(yīng)用和業(yè)務(wù)為中心,四是可觀測(cè)數(shù)據(jù)的縱橫融合打通,五是全方位可觀測(cè),六是助力業(yè)務(wù)增長(zhǎng)。可簡(jiǎn)單概括為“融匯,融通,融智”三大核心優(yōu)勢(shì)。通過DIALOG,企業(yè)在用戶體驗(yàn)至上的時(shí)代能夠深入感知用戶,感知業(yè)務(wù)波動(dòng)情況,從而實(shí)現(xiàn)系統(tǒng)的優(yōu)化,降本增效,最終基于基調(diào)聽云可觀測(cè)平臺(tái)數(shù)據(jù)驅(qū)動(dòng)力輔助企業(yè)智慧決策,決勝數(shù)字時(shí)代!