DataPipeline Head of AI 王睿在51CTO大咖來了公開課上作了題為《業(yè)務(wù)異常實(shí)時(shí)自動(dòng)化檢測 — 基于人工智能的系統(tǒng)實(shí)戰(zhàn)》的分享,本文根據(jù)分享內(nèi)容整理而成。
圖片來自 Pexels
王睿,之前在 Facebook/Instagram 擔(dān)任 AI 技術(shù)負(fù)責(zé)人,現(xiàn)在 DataPipeline 任 Head of AI,負(fù)責(zé)研發(fā)企業(yè)級業(yè)務(wù)異常檢測產(chǎn)品,旨在幫助企業(yè)一站式解決業(yè)務(wù)自動(dòng)化監(jiān)控和異常檢測問題。
分享主要從以下四方面跟大家分享構(gòu)建該產(chǎn)品的思路和實(shí)戰(zhàn):
- 為什么需要人工智能業(yè)務(wù)異常檢測系統(tǒng)
- 搭建該系統(tǒng)的挑戰(zhàn)和設(shè)計(jì)理念
- DataPipeline 的算法實(shí)現(xiàn)思路
- DataPipeline 的系統(tǒng)架構(gòu)
為什么需要人工智能業(yè)務(wù)異常檢測系統(tǒng)
企業(yè)會(huì)因?yàn)闃I(yè)務(wù)異常無法得到及時(shí)解決而遭受較大的損失,比如某知名互聯(lián)網(wǎng)企業(yè),將原價(jià)為 50 元的優(yōu)惠券以 18 元賣出,導(dǎo)致用戶在短時(shí)間內(nèi)大量瘋搶,損失慘重。
同樣,在金融、零售、電商領(lǐng)域因?yàn)?IT 系統(tǒng)的 Bug 或人工原因?qū)е碌臉I(yè)務(wù)異常也給企業(yè)造成了不可估量的經(jīng)濟(jì)損失。
然而,在業(yè)務(wù)異常出現(xiàn)時(shí),企業(yè)往往在幾天甚至幾個(gè)星期之后才會(huì)發(fā)現(xiàn)。以某公司為例,其主營業(yè)務(wù)為線上借貸,有次放款率突然增加,此時(shí)距離出現(xiàn)問題已經(jīng)過去十幾個(gè)小時(shí)。
后果是將錢款借給了許多不具備借貸資質(zhì)的人,導(dǎo)致回款率和營收大幅下降。
為此,隨著企業(yè)業(yè)務(wù)的持續(xù)高速增長以及信息化的全面普及,業(yè)務(wù)人員需要對業(yè)務(wù)變化有一個(gè)全面實(shí)時(shí)地掌控。
這時(shí),IT 運(yùn)維人員會(huì)關(guān)心服務(wù)器和網(wǎng)絡(luò)的運(yùn)行;產(chǎn)品負(fù)責(zé)人會(huì)關(guān)心用戶訪問,點(diǎn)擊率和用戶體驗(yàn)等;業(yè)務(wù)負(fù)責(zé)人則關(guān)心業(yè)務(wù)的核心 KPI,如銷售額。
這些指標(biāo)猶如一個(gè)人的心跳、血壓、體溫,反映企業(yè)業(yè)務(wù)的健康狀況。
如何能快速準(zhǔn)確地從業(yè)務(wù)指標(biāo)中識別異常,發(fā)現(xiàn)問題根因,并及時(shí)解決對企業(yè)而言就顯得尤為重要。
目前針對這塊,不同企業(yè)采取的方法各異。傳統(tǒng)的業(yè)務(wù)監(jiān)控方法往往是手工生成報(bào)表每天查看,對于比較重要且實(shí)時(shí)性要求較高的指標(biāo),會(huì)人工設(shè)定閾值,當(dāng)指標(biāo)跨過閾值時(shí)報(bào)警。
對于已知周期性的指標(biāo)一般會(huì)用類似同比環(huán)比的方法。隨著企業(yè)業(yè)務(wù)量和業(yè)務(wù)種類的不斷提升,人工的監(jiān)控也隨之增多。
而這種基于人工的方法則會(huì)顯示出幾大不足:
①大量業(yè)務(wù)指標(biāo)沒有被實(shí)時(shí)監(jiān)控。以電商為例,若只監(jiān)控總銷售額,采用人工方法很容易實(shí)現(xiàn)。
但是,一旦某些地區(qū)或品類的銷售額出現(xiàn)異常,只看總銷售額指標(biāo)則很難發(fā)現(xiàn)問題。
例如某零售企業(yè),其酸奶的銷售額在某地區(qū)較之前有所下降,原因是酸奶的庫存出現(xiàn)了周轉(zhuǎn)問題。
由于一直售賣過期酸奶,導(dǎo)致接到大量用戶舉報(bào)。針對該情況,若只監(jiān)控總銷售額很難發(fā)現(xiàn)問題,這時(shí)需要監(jiān)控品類和地區(qū)兩個(gè)維度更細(xì)粒度的指標(biāo)。
而監(jiān)控多個(gè)維度的指標(biāo),指標(biāo)監(jiān)控的數(shù)量會(huì)成倍增長,顯然是人工無法勝任的。
②告警洪流。當(dāng)業(yè)務(wù)出現(xiàn)問題時(shí),往往報(bào)警的接收人員會(huì)收到大量告警,使得他們被告警洪流淹沒,很難精準(zhǔn)定位問題根因。
除了告警的準(zhǔn)確率低以外,還由于業(yè)務(wù)指標(biāo)之間具有很強(qiáng)的相關(guān)性,主要體現(xiàn)在兩個(gè)方面:
首先是指標(biāo)之間的鏈路關(guān)系。比如在電商零售領(lǐng)域,當(dāng)服務(wù)器錯(cuò)誤增高時(shí)導(dǎo)致用戶訪問下降,從而導(dǎo)致下游的訂單減少。
另外是指標(biāo)的多維度特性,例如當(dāng)訂單下降時(shí),往往多個(gè)產(chǎn)品線,多個(gè)地區(qū)訂單量同時(shí)下降。
因此當(dāng)業(yè)務(wù)出現(xiàn)問題時(shí),往往是多個(gè)相關(guān)的指標(biāo)一起告警,形成告警洪流。
③誤報(bào)漏報(bào)。作為業(yè)務(wù)負(fù)責(zé)人,既不想在業(yè)務(wù)出現(xiàn)問題的最后一刻才知道,也不想在凌晨三點(diǎn)被一個(gè)假警報(bào)叫醒。
而多次的誤報(bào)會(huì)導(dǎo)致“狼來了”的效應(yīng),當(dāng)真正的問題出現(xiàn)時(shí),告警卻往往容易被接收人員忽略掉。
④人工維護(hù)成本。隨著業(yè)務(wù)的不斷變化,大量的告警閾值和規(guī)則需要人工調(diào)整,而這顯然跟不上業(yè)務(wù)的變化速度和監(jiān)控指標(biāo)不斷增多的節(jié)奏。
因此我們需要一套自動(dòng)化的智能業(yè)務(wù)監(jiān)控和異常檢測系統(tǒng),通過對指標(biāo)變化規(guī)律的學(xué)習(xí),自動(dòng)掌握指標(biāo)數(shù)據(jù)正常和異常的表現(xiàn)模式,從而全面,實(shí)時(shí)地監(jiān)控企業(yè)業(yè)務(wù)不同層面,不同維度的各項(xiàng)指標(biāo)。
這就是為什么我們需要搭建基于人工智能算法的業(yè)務(wù)異常檢測系統(tǒng)的原因。
搭建該系統(tǒng)的挑戰(zhàn)和設(shè)計(jì)理念
人工智能算法在異常檢測領(lǐng)域已經(jīng)被研究了幾十年,但是搭建這樣的系統(tǒng)卻并非易事。主要的挑戰(zhàn)有以下幾點(diǎn):
第一,對于異常的定義較為模糊且各種數(shù)據(jù)指標(biāo)的表現(xiàn)形式千差萬別。
比如 IT 的 CPU 異常與銷售額異常不同,因此試圖用一種通用的算法檢測不同類型指標(biāo)的異常往往準(zhǔn)確率很低。
因?yàn)槟骋活悢?shù)據(jù)的異常表現(xiàn)形式放在另一類數(shù)據(jù)指標(biāo)中可能就不會(huì)被認(rèn)為是異常。另外,在未來發(fā)生的異常很多時(shí)候是過去并未見過的。
這直接導(dǎo)致了第二個(gè)難點(diǎn),即很難獲取標(biāo)注數(shù)據(jù)。
不僅很難標(biāo)注一個(gè)數(shù)據(jù)的變化是否是異常,且異常出現(xiàn)的頻率較低,很難像傳統(tǒng)機(jī)器學(xué)習(xí)問題那樣獲得很多正負(fù)樣本。
第三,對該算法和系統(tǒng)的實(shí)時(shí)性和可擴(kuò)展性要求很高。
如果不能實(shí)時(shí)監(jiān)控大量指標(biāo),發(fā)現(xiàn)異常并告警,這個(gè)系統(tǒng)將失去其意義。
為解決上述痛點(diǎn),同時(shí)考慮到種種挑戰(zhàn),DataPipeline 在設(shè)計(jì)該系統(tǒng)前確定了幾點(diǎn)設(shè)計(jì)原則:
①無(半)監(jiān)督機(jī)器學(xué)習(xí)算法為主
雖然目標(biāo)是將數(shù)據(jù)分類為正常或異常,但由于異常的定義模糊,很難獲取標(biāo)注數(shù)據(jù),我們主要采取無監(jiān)督的機(jī)器學(xué)習(xí)算法。
當(dāng)然,對于給用戶發(fā)送的告警,系統(tǒng)需要可以收集用戶的反饋,然后用在提升算法的準(zhǔn)確性上。綜合來講,這是一種半監(jiān)督學(xué)習(xí)的方法。
②算法跟業(yè)務(wù)解耦
人工智能算法的優(yōu)勢在于解放人工,做到自動(dòng)化,因此算法需要跟業(yè)務(wù)盡可能解耦。
算法可以通過對于指標(biāo)歷史數(shù)據(jù)本身模式(如周期性)的學(xué)習(xí)來建模。而不同業(yè)務(wù)指標(biāo)數(shù)據(jù)的表現(xiàn)形式各異,總體上時(shí)序數(shù)據(jù)的表現(xiàn)類型是有限的,因此我們需要算法具備根據(jù)不同表現(xiàn)形式選擇不同模型的能力。
③異常相關(guān)性學(xué)習(xí)和根因分析
上面講到的一個(gè)很大的痛點(diǎn)是告警洪流。當(dāng)業(yè)務(wù)出現(xiàn)問題時(shí),業(yè)務(wù)人員往往被淹沒在大量告警中,很難快速準(zhǔn)確地定位問題。
因此我們需要學(xué)習(xí)監(jiān)控指標(biāo)之間的相關(guān)性,當(dāng)業(yè)務(wù)出現(xiàn)問題時(shí)給用戶一個(gè)匯總的告警,這樣不僅能避免告警洪流,還能讓用戶一目了然地看到反映問題的相關(guān)指標(biāo),從而更快找到問題根因。
從產(chǎn)品角度而言,這也是一個(gè)成熟的業(yè)務(wù)異常檢測系統(tǒng)中很重要的組成部分,即根因分析。
我們不僅希望及時(shí)地反應(yīng)業(yè)務(wù)問題,也希望能縮小發(fā)現(xiàn)問題到解決問題的時(shí)間和成本。
④算法的擴(kuò)展性和實(shí)時(shí)性
算法和整個(gè)系統(tǒng)需要做到對億級數(shù)據(jù)指標(biāo)的秒級實(shí)時(shí)響應(yīng)。因此我們主要考慮應(yīng)用輕量級并且支持線上學(xué)習(xí)(Online Learning)的算法模型。
近些年深度學(xué)習(xí)在異常檢測領(lǐng)域的應(yīng)用逐漸成熟,其相較于傳統(tǒng)的統(tǒng)計(jì)模型算法具有更強(qiáng)的泛化能力。
但這些算法的訓(xùn)練成本較大,因此需要對實(shí)時(shí)性要求更高的指標(biāo)系統(tǒng)進(jìn)行取舍。
DataPipeline 的算法實(shí)現(xiàn)思路
基于以上設(shè)計(jì)原則,DataPipeline 提出了解決問題的幾個(gè)步驟:
①接入數(shù)據(jù)
首先利用 DataPipeline 自身的數(shù)據(jù)集成能力,從不同數(shù)據(jù)源中接入實(shí)時(shí)的數(shù)據(jù)流或批式的數(shù)據(jù)集并進(jìn)行預(yù)處理,形成多個(gè)指標(biāo)的時(shí)序數(shù)據(jù)。
②正常表現(xiàn)的建模
進(jìn)而對每個(gè)單一的指標(biāo)時(shí)序數(shù)據(jù)學(xué)習(xí)其正常表現(xiàn)模式,擬合模型,并自動(dòng)生成置信區(qū)間。
如下圖,深藍(lán)色部分為數(shù)據(jù)本身,淺藍(lán)色部分為自動(dòng)生成的置信區(qū)間,紅色部分為異常。
③異常的檢測和過濾
對于新的數(shù)據(jù)點(diǎn),一旦其跨過置信區(qū)間系統(tǒng)便認(rèn)定為異常。接著對于每個(gè)識別出的異常進(jìn)行打分和過濾。
④關(guān)聯(lián)多個(gè)異常并自動(dòng)報(bào)警
對檢測出的多個(gè)異常,算法自動(dòng)進(jìn)行相關(guān)性學(xué)習(xí),將其關(guān)聯(lián)起來。最后生成一個(gè)匯總的告警,發(fā)送給用戶。
下面重點(diǎn)解釋對單一數(shù)據(jù)的正常表現(xiàn)建模,異常檢測和關(guān)聯(lián)多個(gè)指標(biāo)異常的具體技術(shù)實(shí)現(xiàn)。
單一數(shù)據(jù)的正常表現(xiàn)建模
在過去數(shù)十年里,許多不同類型的算法被研究和開發(fā)來嘗試解決這一問題。
其中有較為傳統(tǒng)的基于統(tǒng)計(jì)模型的算法,也有許多基于時(shí)序數(shù)據(jù)的分析方法,而近年來大熱的深度學(xué)習(xí)模型也被證明在時(shí)序數(shù)據(jù)預(yù)測和異常檢測上有較高的準(zhǔn)確性。
這些算法一般遵循這樣一個(gè)步驟:先對歷史數(shù)據(jù)進(jìn)行建模,學(xué)習(xí)數(shù)據(jù)正常表現(xiàn)的規(guī)律。
對新來的數(shù)據(jù)點(diǎn),根據(jù)數(shù)據(jù)點(diǎn)偏離正常表現(xiàn)模型的程度來判定是否為異常。
比如最簡單的算法模型是高斯分布,假設(shè)該指標(biāo)數(shù)據(jù)符合高斯分布,就可以通過歷史數(shù)據(jù)點(diǎn)估計(jì)出高斯分布的 mea n和期望(均數(shù))μ 和標(biāo)準(zhǔn)差 σ,進(jìn)而對新的數(shù)據(jù)點(diǎn)判定。
如果偏離期望多于三個(gè)標(biāo)準(zhǔn)差則該數(shù)據(jù)點(diǎn)不能被模型解釋的概率為 99.7%,我們就可以判定其為異常。
然而實(shí)際情況是,大部分?jǐn)?shù)據(jù)都無法簡單地表現(xiàn)為高斯分布。因此,首先我們需要根據(jù)數(shù)據(jù)本身來自動(dòng)選擇最適合的算法模型。
這也是很多開源的異常檢測算法直接被拿來使用往往得不到滿意效果的一個(gè)原因。
因?yàn)樗麄円话慵僭O(shè)數(shù)據(jù)的底層表現(xiàn)是平穩(wěn)的(Stationary),并且數(shù)據(jù)是規(guī)則取樣的(Regular Sampling),若使用不適合的算法模型對數(shù)據(jù)建模會(huì)得到非常不好的效果,甚至完全無法使用。
因此 DataPipeline 開發(fā)了一個(gè)算法,可以自動(dòng)根據(jù)數(shù)據(jù)的表現(xiàn)形式選擇最合適的算法進(jìn)行擬合。最常用的算法可以分為基于統(tǒng)計(jì)模型的算法和深度學(xué)習(xí)的算法。
統(tǒng)計(jì)模型算法:除了上面提到的高斯分布,比較常用的模型有基于指數(shù)平滑(Exponential Smoothing)的模型,實(shí)際是對過去的數(shù)據(jù)進(jìn)行平均來預(yù)測未來的數(shù)據(jù),只是給時(shí)間上更靠近當(dāng)下的數(shù)據(jù)點(diǎn)更大的權(quán)重。
比較經(jīng)典的有 Holt-Winters,ARIMA 等,這些還可以將周期性的規(guī)律考慮進(jìn)去。
深度學(xué)習(xí)算法:對于不符合規(guī)則取樣和不表現(xiàn)為 Staionary 的數(shù)據(jù),深度學(xué)習(xí)算法的效果更好。
LSTM(Long Short-Term Memory)是最常用的算法,而當(dāng)下許多最新的算法都是基于 LSTM 上的變種。
然而深度學(xué)習(xí)算法很難做到實(shí)時(shí)訓(xùn)練,即模型隨新的數(shù)據(jù)點(diǎn)實(shí)時(shí)更新,而且當(dāng)監(jiān)控?cái)?shù)據(jù)量大的時(shí)候非常耗費(fèi) CPU。
算法自動(dòng)選擇出最合適的模型后,系統(tǒng)便可根據(jù)歷史數(shù)據(jù)擬合模型,估計(jì)出模型參數(shù),進(jìn)而針對每個(gè)數(shù)據(jù)點(diǎn)給出預(yù)測。
對于實(shí)際數(shù)據(jù)點(diǎn)和預(yù)測數(shù)據(jù)點(diǎn)的差異(error)我們可以用高斯分布來模擬,利用高斯模型計(jì)算出一個(gè)置信區(qū)間,當(dāng)新數(shù)據(jù)的 error 偏離置信區(qū)間過大時(shí)將其判斷為異常。
周期性學(xué)習(xí)
許多指標(biāo)數(shù)據(jù)都表現(xiàn)出明顯的周期性,而周期性學(xué)習(xí)對異常檢測的準(zhǔn)確性至關(guān)重要。
最常見的自動(dòng)學(xué)習(xí)周期性方法是自相關(guān)學(xué)習(xí)(Autocorrelation)。簡言之,該算法是將數(shù)據(jù)向過去平移一個(gè)時(shí)間差(Lag),然后計(jì)算平移后的數(shù)據(jù)和原來數(shù)據(jù)的統(tǒng)計(jì)相關(guān)性。
如果某一個(gè) Lag 平移后的數(shù)據(jù)和原數(shù)據(jù)相關(guān)性很大,則認(rèn)為該 Lag 就是數(shù)據(jù)的周期性。此算法的主要問題是計(jì)算量較大,因?yàn)橐獙Χ鄠€(gè) Lag 進(jìn)行計(jì)算。
鑒于上面提到的實(shí)時(shí)性和可擴(kuò)展要求,DataPipeline 對該算法用 Subsampling 的方法進(jìn)行優(yōu)化,降低了計(jì)算復(fù)雜度。
相關(guān)性學(xué)習(xí)
之前提到為解決告警洪流問題,我們需要一個(gè)算法可以自動(dòng)化計(jì)算指標(biāo)間的相關(guān)性,在多個(gè)異常同時(shí)出現(xiàn)時(shí),可以將反映同個(gè)業(yè)務(wù)問題的異常關(guān)聯(lián)在一起,給用戶一個(gè)匯總的告警。
針對這類問題,一般傳統(tǒng)的方法是采取多變量分析(Multivariate Analysis),即將所有時(shí)序數(shù)據(jù)當(dāng)成互相有關(guān)聯(lián)的多變量一起建模,然后在整體層面檢測異常。
該方法的主要問題是很難規(guī)模化,且當(dāng)出現(xiàn)異常時(shí)檢測結(jié)果的解釋性較差。
因此,在 DataPipeline,我們采用單變量分析對每個(gè)指標(biāo)進(jìn)行異常檢測,然后利用大規(guī)模聚類算法將相關(guān)度較高的指標(biāo)進(jìn)行聚類(如上圖)。
這樣每個(gè)指標(biāo)的機(jī)器學(xué)習(xí)和相關(guān)性學(xué)習(xí)兩部分可以各自規(guī)模化,使得整個(gè)系統(tǒng)計(jì)算效率更高。
而聚類算法通過幾類特征來進(jìn)行計(jì)算:
異常表現(xiàn)的相似度:簡言之,如果兩個(gè)指標(biāo)多次、同時(shí)出現(xiàn)異常,則認(rèn)為兩者更相關(guān)。
我們可以生成一個(gè)異常表現(xiàn)的特征向量,若在某個(gè)時(shí)間點(diǎn)該指標(biāo)表現(xiàn)正常便設(shè)置為 0,若表現(xiàn)異常則設(shè)置為異常的打分(算法根據(jù)異常的嚴(yán)重程度自動(dòng)打分)。
統(tǒng)計(jì)模型的相似度:即指標(biāo)的數(shù)值是否有相似的模式。其中計(jì)算兩個(gè)時(shí)序數(shù)據(jù)數(shù)值相似度最常見的算法是 Pearson Correlation Coefficient。
元數(shù)據(jù)相似度和人工反饋:DataPipeline 還根據(jù)元數(shù)據(jù)的拓?fù)潢P(guān)系來判斷相關(guān)性。
比如同一個(gè)指標(biāo)的多個(gè)維度生成的多個(gè)子指標(biāo)會(huì)被認(rèn)為更相關(guān)。此外,用戶也可自己輸入一些信息告訴系統(tǒng)哪些指標(biāo)更相關(guān)。
DataPipeline 的系統(tǒng)架構(gòu)
若構(gòu)建一套企業(yè)級業(yè)務(wù)監(jiān)控和異常檢測系統(tǒng)應(yīng)該具備哪些組成部分?下面為 DataPipeline 的一些思路。
①產(chǎn)品功能組成
從產(chǎn)品功能角度而言,該系統(tǒng)可以接入企業(yè)的各種業(yè)務(wù)系統(tǒng)(左邊),包括核心業(yè)務(wù)系統(tǒng)和各種已有系統(tǒng),諸如數(shù)據(jù)分析,監(jiān)控系統(tǒng)等。
挑戰(zhàn)是如何將多源異構(gòu)的數(shù)據(jù)以一致的方式接入,且同時(shí)可以處理流式和批式數(shù)據(jù)。
DataPipeline 已有的數(shù)據(jù)融合產(chǎn)品可以很好地實(shí)現(xiàn)這點(diǎn)。如果企業(yè)自己搭建,則需要根據(jù)具體情況確定實(shí)現(xiàn)方式。
另外,針對中間的系統(tǒng)內(nèi)核,我們將其設(shè)計(jì)成了一個(gè)跟業(yè)務(wù)完全解耦的黑盒。
右邊則是用戶交互 UI,包括兩部分:
- 告警系統(tǒng),可根據(jù)企業(yè)的報(bào)警需要接到企業(yè)交流 App 如釘釘、郵件,電話等。
- 監(jiān)控看板,可以看到監(jiān)控的指標(biāo)數(shù)據(jù),搜索不同指標(biāo)和多維度展示。
另外,還可看到指標(biāo)異常的匯總展示,根因展示等。從看板上用戶可以根據(jù)展示出的異常進(jìn)行反饋,表明這是正確的異常還是誤報(bào),另外還可調(diào)整指標(biāo)異常檢測的敏感度。這些反饋和調(diào)整會(huì)返回到系統(tǒng)中。
②核心系統(tǒng)架構(gòu)
核心系統(tǒng)主要分為線上處理和線下模型訓(xùn)練兩部分。線上部分處理實(shí)時(shí)的數(shù)據(jù)指標(biāo)最新數(shù)據(jù)流,從模型存儲數(shù)據(jù)庫中讀入模型并存于內(nèi)存中,對數(shù)據(jù)流中每一個(gè)數(shù)據(jù)指標(biāo)進(jìn)行實(shí)時(shí)的閾值計(jì)算、異常檢測和打分。
之后多個(gè)數(shù)據(jù)指標(biāo)的異常檢測結(jié)果會(huì)被匯總到一個(gè)關(guān)聯(lián)性處理器,進(jìn)行異常的關(guān)聯(lián),最后將關(guān)聯(lián)好的異常指標(biāo)組匯總,生成并觸發(fā)告警。
在處理實(shí)時(shí)指標(biāo)數(shù)據(jù)時(shí),處理器會(huì)將最新的指標(biāo)數(shù)據(jù)和檢測出的異常分別寫入數(shù)據(jù)庫為線下訓(xùn)練做準(zhǔn)備。
線下部分會(huì)定時(shí)從數(shù)據(jù)指標(biāo)的歷史數(shù)據(jù)庫中讀取數(shù)據(jù)并進(jìn)行線下的模型訓(xùn)練,這其中便包括上面提到的算法自動(dòng)選擇,周期性學(xué)習(xí)等。也會(huì)定期利用用戶返回的反饋對模型進(jìn)行評估,計(jì)算出誤報(bào)漏報(bào)率等。
總結(jié)
業(yè)務(wù)異常的不及時(shí)解決會(huì)給企業(yè)帶來巨大的經(jīng)濟(jì)損失。
相對于傳統(tǒng)的人工生成報(bào)表和人工閾值的監(jiān)控方法,基于人工智能的業(yè)務(wù)異常檢測系統(tǒng)可以更自動(dòng)化,更全面地監(jiān)控業(yè)務(wù)各項(xiàng)指標(biāo)并給出準(zhǔn)確率更高,更有幫助性的報(bào)警和業(yè)務(wù)洞見。
而搭建這樣一套系統(tǒng)面臨業(yè)務(wù)數(shù)據(jù)表現(xiàn)形式多樣,告警過多準(zhǔn)確率低下等挑戰(zhàn)。
伴隨著企業(yè)級人工智能業(yè)務(wù)異常檢測系統(tǒng)的出現(xiàn),企業(yè)可以更高效、及時(shí)全面的掌控業(yè)務(wù),從而實(shí)現(xiàn)業(yè)務(wù)和經(jīng)濟(jì)效益的提升。