最近的熱播劇《天才基本法》中,提到了很多有趣的數學知識點,比如"親和數""巴什博奕""孔明棋""七橋問題"等等,讓很多觀眾直呼不明覺厲。其中,最讓Mr.Tech感興趣的是劇中男女主參加數學建模大賽時用到的貝葉斯網絡。
▲女主使用貝葉斯網絡進行算法建模,來預測嫌犯行動軌跡和抓捕時間方位。圖片截圖自電視劇《天才基本法》
貝葉斯網絡是一種分類算法,被廣泛地應用于醫療診斷、風控等業務場景中,并發揮著重要作用。關于"貝葉斯網絡",你了解多少?今天,國內專業的數據智能服務商每日互動(股票代碼:300766)就和大家一起走進機器學習領域,共同學習這個神奇的算法模型。
一、走進貝葉斯網絡
生活中,人們往往會從最終的結果反向推測其原因,從而更好地做風險規避,或提前創造充分條件以達成預期目標。不過事物之間的聯系往往錯綜復雜,我們如何抽絲剝繭,清晰分析出事件和事件之間的相互依賴關系?是否有可能通過數學的方式來計算和衡量其中的因果作用,幫助我們追溯甚至預測事物的走向?
貝葉斯網絡就是當下數據科學家和算法工程師用來解決此類問題的一種有效方式。
貝葉斯網絡(bayesian network)是描述隨機變量(事件)之間關系的模型。例如,貝葉斯網絡可以表示疾病和癥狀之間的概率關系。根據癥狀,該網絡可以計算各種疾病存在的概率。
貝葉斯網絡用有向無環圖(Directed Acyclic Graph,DAG)表示,其中每個節點代表一個隨機變量,節點間的聯系用有向箭頭表示,箭頭從"因節點"指向"被影響節點",用條件概率表達關系強度。
現實中,醫生的診斷過程和貝葉斯網絡的推理機制高度一致。如上圖,如果患者咳嗽非常嚴重,甚至出現氣急、呼吸不暢等癥狀,醫生結合霧霾天氣、患者的吸煙史等情況,初步判斷患者可能得了肺炎。接下來醫生會要求患者拍肺部的X光片,根據患者的X光片表現,做出更加科學的診斷結論。
目前,很多醫療輔助系統正是基于貝葉斯網絡,將過往的醫學診斷經驗很好地沉淀下來,實現智能診斷,幫助醫生大幅提升診斷效率。
接下來,我們再深入了解更深層次的問題:貝葉斯網絡如何量化和計算事件之間的因果/條件依賴關系?
在上述案例中,霧霾、吸煙、過敏、病菌感染等都是導致患者得肺炎的風險因子。那么哪一個風險因子的影響作用最大?這就需要我們理解貝葉斯網絡的底層數學思想--貝葉斯定理。
二、貝葉斯網絡與貝葉斯定理
貝葉斯定理由英國著名數學家托馬斯·貝葉斯提出,它是關于條件概率的定理,公式如下:
根據高中的概率論知識來理解貝葉斯公式:
P(A),P(B)表示事件A和事件B的獨立發生概率。
P(A|B)是個條件概率,表示當事件B發生的情況下,事件A發生的概率。
P(B|A)也是個條件概率,表示當事件A發生的情況下,事件B發生的概率。
貝葉斯定理中有先驗概率和后驗概率之分。
先驗概率:指根據以往經驗和統計分析得到的概率。是在"結果"發生之前的概率,比如公式中的P(A)就是先驗概率。先驗概率一般作為"由因求果"問題中的"因"出現。
后驗概率:是根據觀察到的樣本修正之后的概率值。指在結果發生之后,我們根據"結果"來計算和分析最有可能導致該結果的原因,即"執果尋因"中的"因"。公式中的P(A|B)就是后驗概率。
接下來,我們將剛才提到的醫療診斷實例簡化,來進一步理解貝葉斯定理。
假設(先驗概率均為假設數據):
患者病菌感染的概率P(V)=5%
患者感冒的概率P(C)=30%
患者因為病菌感染而感冒的概率P(C|V)=40%
那么:
根據貝葉斯定理,感冒患者被病菌感染的后驗概率P(V|C)=P(C|V)*P(V)/P(C)=40%*5%/30%≈66.67%
再復雜一些。
假設(先驗概率均為假設數據):
患者發熱的概率P(F)=6%
患者因為感冒而發熱的概率P(F|C)=60%
那么:
患者因為病菌感染而發熱的概率P(F|V)=P(C|V)*P(F|C)=24%
那么:
根據貝葉斯定理,發熱患者被病菌感染的后驗概率P(V|F)=P(F|V)*P(V)/P(F)=24%*5%/6%=20%
如上,貝葉斯網絡其實就是基于貝葉斯定理對事物之間因果關系以及依賴關系進行量化,并使得因果或依賴關系的強弱可以被推理和計算。
在解決實際業務問題時,算法工程師們往往會通過對歷史數據進行統計得到先驗概率,然后使用貝葉斯網絡進行推理,實現對機器故障原因、患者病因等的智能分析,以及對機器設備故障概率、患者患病風險等的預測。
只不過,在實際的機器學習過程中,算法工程師們需要計算的數據量非常龐大,所構建的貝葉斯網絡更為復雜。
貝葉斯定理與人類大腦的推理過程非常相似,作為人工智能領域學習和推理的重要分支,貝葉斯定理一直備受關注。而以貝葉斯定理為基礎的貝葉斯網絡由Judea Pearl于1986年提出,是近年來機器學習領域的研究熱點。2011年,Judea Pearl還憑借在人工智能以及貝葉斯網絡方面的貢獻,獲得了"計算機界的諾貝爾獎"--圖靈獎。
當前,算法工程師們對貝葉斯網絡的研究側重在結構學習方面,希望能夠構建起更加客觀、可靠的網絡模型,更好地發揮出貝葉斯網絡在不確定性推理方面的優勢。
結語:
《天才基本法》中,女主成功應用貝葉斯網絡和貝葉斯定理解決了疑犯軌跡預測和追蹤的問題。而在現實世界,人們對大數據和AI技術的應用更加深入,不斷探索使用數據智能技術解決各種不確定問題,比如基于豐富、實時的數據構建動態貝葉斯網絡,幫助相關部門預測公共突發事件的影響,支撐應急管理等等。
作為一家數據智能企業,每日互動(個推)也一直走在技術創新的前沿。通過對大數據進行深度治理和挖掘,每日互動(個推)將大數據加工為信息和知識,解讀出數據的人文涵義,從而更好地服務行業客戶和政府相關部門,助力科學決策。
想要了解更多數智前沿技術?持續關注每日互動的個推技術實踐"漫話DI"系列專欄,和Mr.Tech一起近距離感受數智魅力~