1.背景與挑戰(zhàn)
在當前互聯(lián)網(wǎng)迅速發(fā)展的大背景下,不論是企業(yè)、銀行還是大型金融公司,域名依然是用戶訪問互聯(lián)網(wǎng)業(yè)務通信過程的關(guān)鍵環(huán)節(jié)。作為互聯(lián)網(wǎng)最重要的基礎設施組件之一,互聯(lián)網(wǎng)上幾乎每個活動都會以DNS查詢開始,是各個應用連接的一個紐帶。利用DNS來進行負載均衡的鏈路管理和業(yè)務的區(qū)域調(diào)度也是我們?nèi)粘_\維的常規(guī)內(nèi)容。
DNS服務在整個互聯(lián)網(wǎng)中占據(jù)著非常重要的地位,一旦DNS服務出現(xiàn)問題將是災難性的故障。比如2009年著名的519事件,主要是因為域名互相攻擊造成DNSPOD宕機,之后請求的壓力全部轉(zhuǎn)至運營商服務器,致使南方六省的服務器全部崩潰,導致整個南方六省斷網(wǎng)。由此可見DNS在互聯(lián)網(wǎng)業(yè)務中的重要性。
同時由于企業(yè)和金融機構(gòu)對業(yè)務連續(xù)性和穩(wěn)定性的高要求,需要高質(zhì)量的運維服務作為保障。人工運維已經(jīng)無法滿足現(xiàn)階段業(yè)務管理場景,而如何實現(xiàn)多個數(shù)據(jù)中心流量負載和服務優(yōu)選,如何提供快速不中斷的解析服務,如何實現(xiàn)智能解析、解決用戶跨網(wǎng)訪問等難題,已經(jīng)成為了技術(shù)部門致力于思考解決的重點問題。
2.解決方案
為了應對以上挑戰(zhàn),智維數(shù)據(jù)根據(jù)多年的運維服務經(jīng)驗,進行了以下解決方案的設計,方案由數(shù)據(jù)收集、數(shù)據(jù)倉庫、數(shù)據(jù)融合、預警告警和智能分析處置5個模塊組成,滿足DNS智能調(diào)度,提供更可靠、穩(wěn)定和合理的流量調(diào)度。
邏輯架構(gòu)如下圖所示:
數(shù)據(jù)收集
通過流量鏡像方式實現(xiàn)互聯(lián)網(wǎng)區(qū)網(wǎng)絡流量采集。再通過API方式將DNS設備配置讀取收集。在后續(xù)數(shù)據(jù)融合模塊會將兩個相對獨立的模塊進行數(shù)據(jù)層面的融合,避免存在數(shù)據(jù)孤島和分析層面單一的問題。
數(shù)據(jù)倉庫
將收集的流量和配置數(shù)據(jù)進行初始化和自動同步操作,將收集的數(shù)據(jù)進行建模分類統(tǒng)計入庫,數(shù)據(jù)類型劃分不同的分析維度,如網(wǎng)絡、業(yè)務、資源和比例等,并定期自動更新。
數(shù)據(jù)融合
通過相對孤立的監(jiān)控設備和生產(chǎn)設備,兩大設備聯(lián)動融合,完成業(yè)務監(jiān)控自動化配置,自動完成應用定義。定義識別信息包括由細到粗:域名(業(yè)務)+IP地址+服務端口+線路名稱+物理位置等信息。
預警感知
基于監(jiān)控目標的歷史運行狀態(tài),自動生成變化的基線告警,同時結(jié)合異常檢測算法,二次精確計算當前基線偏離是否屬于異常檢測。當面對解析服務中斷、用戶跨網(wǎng)訪問,解析比例不協(xié)調(diào)等問題時,自動發(fā)現(xiàn)異常行為及時處理解決,降低故障的影響,最大化保障資源服務可用性。
智能分析處置
當觸發(fā)異常事件需處置分析時,往往依賴于運維人員的能力、經(jīng)驗,監(jiān)控系統(tǒng)也相對獨立,突發(fā)事件處置缺少明確方向,一方面需要付出較多的溝通和定位問題的時間成本;另一方面導致事件處理時間過長,影響被放大。
智維數(shù)據(jù)系統(tǒng)具備了基于內(nèi)置場景化的診斷分析,當異常事件發(fā)生時,可進行自動化分析,并直接將根因結(jié)論及處置建議推送至自服務平臺,大大提升突發(fā)事件的處理效率。
3.應用場景
我們通過實際場景來進一步理解幾個模塊的應用過程。
鏈路調(diào)度可視化
解析分布
智維數(shù)據(jù)提供各線路域名下訪問狀況統(tǒng)計分析,包括:域名解析比例、IP版本比例、運營商比例、地域比例等指標進行實時/歷史運行數(shù)據(jù)的統(tǒng)計和分析;
還包含帶寬用量、高帶寬占用的應用/IP、運營商鏈路質(zhì)量、網(wǎng)絡連接數(shù)量、數(shù)據(jù)包率,Top統(tǒng)計(IP、應用、協(xié)議、域名)等指標信息。運維人員通過對這些指標的可視化監(jiān)控,可快速掌握鏈路域名健康狀態(tài)和服務可用性情況,為優(yōu)化域名的服務提供數(shù)據(jù)基礎。還能及時發(fā)現(xiàn)域名下是否存在大量跨運營商的行為等異常情況,避免因跨運營商解析影響用戶體驗。
【上圖數(shù)據(jù)為demo數(shù)據(jù)演示】
也能對域名下實際解析比例與DNS配置比例嚴重不符情況進行分析,周期性統(tǒng)計優(yōu)化策略。
【上圖數(shù)據(jù)為demo數(shù)據(jù)演示】
解析分布報表
智維數(shù)據(jù)提供了解析量地域分布報表、解析量報表、跨運營商訪問報表、月度資源調(diào)度報告等報表數(shù)據(jù),對運維人員優(yōu)化解析策略提供長期數(shù)據(jù)支撐。
【上圖數(shù)據(jù)為demo數(shù)據(jù)演示】
鏈路智能調(diào)度
智維數(shù)據(jù)解決方案實現(xiàn)了不同線路間的智能調(diào)度,最大化保障資源服務可用性。當默認線路發(fā)生故障時,可甄別并觸發(fā)告警,第一時間感知異常并得到自動分析,給出合理有效的處理建議。
以下為鏈路調(diào)度基本判斷分析邏輯:
根據(jù)最優(yōu)監(jiān)控點模型,智能選擇監(jiān)控節(jié)點,保障數(shù)據(jù)采集的快速準確。選擇與資源、線路最接近,且性能最優(yōu)的監(jiān)控點,為調(diào)度決策提供有效的數(shù)據(jù)依據(jù)。
以下為鏈路智能調(diào)度分析報告,從報告中可以看出:
【上圖數(shù)據(jù)為demo數(shù)據(jù)演示】
1、在2月12號21:09由于“A中心的聯(lián)通01線路”出現(xiàn)異常流量突增;
2、主要原因為某一通訊對大量流量訪問導致,流量異常時段網(wǎng)絡質(zhì)量相對良好;
3、建議將流量比例分配至A數(shù)據(jù)中心聯(lián)通02線路以及B中心聯(lián)通線路,比例參考建議值;
4、一鍵生成可下發(fā)的配置。
自動化調(diào)度
自動化調(diào)度基于以上真實流量數(shù)據(jù)以及DNS配置策略相比較,將存在解析異常的情況生成優(yōu)化建議推送至內(nèi)部處置平臺,再由內(nèi)部平臺完成策略更正執(zhí)行。(例如:上圖中的建議是如何調(diào)整,對應到GSLB設備上就是如下命令。執(zhí)行完成后可以通過NPM可視化監(jiān)控判斷切換效果如何。)
【上圖數(shù)據(jù)為demo數(shù)據(jù)演示】
4.結(jié)語
智維數(shù)據(jù)的DNS自動調(diào)度方案還可以結(jié)合靈眸智能運維平臺,基于最新AI算法及內(nèi)置專家知識庫實現(xiàn)故障自動化分析,獲得最佳的應對方案。我們希望通過結(jié)合最前沿的技術(shù)能力,能最大程度地幫用戶減輕運維負擔,基于網(wǎng)絡流量視角賦能運維管理,提升數(shù)據(jù)中心整體運營效率和運維能力。