日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網為廣大站長提供免費收錄網站服務,提交前請做好本站友鏈:【 網站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(50元/站),

點擊這里在線咨詢客服
新站提交
  • 網站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

Yeslab講師 曹鑫磊

私有虛擬網絡(VPN)是在公用網絡基礎之上建立的私有加密通信隧道網絡,企業對于自管轄網絡中個人使用VPN軟件行為具有監管責任,但技術上卻很難識別VPN的加密與通信方式,因此利用人工智能(AI)領域的神經網絡技術從網絡流量中識別VPN軟件行為是一種全新的檢測方法。這種方法完全跟VPN技術解耦,不論VPN軟件使用的加密技術如何復雜,神經網絡都可以站在VPN使用者的角度去識別VPN行為。在華為HCIA-AI與HCIP-AI認證中,神經網絡在被描述為核心技能,本文就將講解如何使用神經網絡來識別VPN流量。

 

根據我國互聯網相關法律,個人及企業在未備案前提下不允許私自建立與使用跨國際VPN線路與軟件。但實際情況是企業難以管理個人利用企業網絡使用各類VPN軟件,甚至自己搭建VPN通道連接至境外服務器。隨著VPN技術在不斷進步,這類監管任務的難度也在不斷提升。

 

網絡行為是主機連接至網絡后,向網關或對端發送網絡數據包的行為,例如持續均等時間間隔的發包與發送一定流量后馬上停止一段時間就被認為是兩種不同的網絡行為。基于這種方法,我們使用的數據集體現了此類發包規律的明顯特征。

 

神經網絡是人工智能領域的流行算法,利用神經網絡模型與反向傳播技術可以對神經網絡進行基于數據的監督學習訓練,完成訓練的模型會對某些數據的擬合度提高一些。用神經網絡搭建數據分類器是計算機視覺、自然語言處理等領域的常用方法,我們也使用這樣的方法來處理網絡行為數據。

 

數據

 

我們使用了公開的VPN流量數據集,該數據集由一家安全企業對近1000名員工的網絡數據進行抓包截取,并固化為一些行為特征。這份數據分兩個月抓取完成,第一個月由全體員工不連接任何VPN進行正常工作,其流量包含訪問公司信箱、OA系統、即時聊天、視頻網站、購物網站等。第二個月由全體員工按自己的方式連接VPN進行辦公,流量仍包含上述站點。這樣就抓取了兩份不同標簽的網絡數據(VPN | NOVPN)

 

抓取的數據以數據流為基本單位進行了特征提取,提取出來的數據特征如下所示:

· FIAT指標: 向前發送兩個數據包之間的時間(固化為四個指標:平均值,最大值,最小值,標準差)

· BIAT指標: 向后發送兩個數據包之間的時間(固化為四個指標:平均值,最大值,最小值,標準差)

· FLOWIAT: 形成數據流的兩個數據包之間的時間(固化為四個指標:平均值,最大值,最小值,標準差)

· ACTIVE: 時間量,在變成空閑之前的活躍時間

· IDLE: 時間量,在變成活躍之前的空閑時間

這份網絡流量數據最終被制作為23個數據屬性,1個標簽屬性,使用Pandas導入數據后如圖1所示:

通過實驗讀懂神經網絡識別VPN行為

圖1:示例數據展示

數據分布

通過觀察數據在各個值域的分布情況,可以對數據的質量有所掌握,數據的質量問題會導致模型訓練結果不太理想。例如某些數據可能存在部分值域數據非常多,而其他值域幾乎沒有數據的"一邊倒"情況,我們需要通過對數據質量的考察,來決定是否需要做一些數據增強、數據篩選與特征工程。神經網絡擁有非常龐大的參數空間,對特征工程的要求偏低。本文所使用的數據分布圖如圖2所示。

通過實驗讀懂神經網絡識別VPN行為

圖2:每項屬性的數據分布,大多數屬性存在上述"一邊倒"問題,也是在真實世界中捕獲網絡流量數據的正常現象

神經網絡模型

本文使用的神經網絡為多層感知器模型,通過前向傳播的線性計算與非線性激活來完成推理過程,推理結果與標簽計算獲得誤差,使用誤差通過反向傳播的偏微分計算獲得殘差并最終轉化為梯度來更新神經網絡的可學習參數。其數學過程不在這里詳細講解,這類知識可以在華為HCIA-AI認證、HCIP-AI認證與華為人才在線平臺中獲取。

 

模型結構

本文使用的神經網絡模型結構如下:

· 輸入層:(None, 23) 維度的數據輸入

· 第一個隱含層:32個神經元,激活函數為"ReLU"

· 第二個隱含層:32個神經元,激活函數為"ReLU"

· 第三個隱含層:16個神經元,激活函數為"ReLU"

· 輸出層:使用"Sigmoid"激活和函數做 (0-1) 范圍的單值輸出

· 誤差計算使用二值交叉熵

· 優化算法使用"Adam"

· 學習速率:0.0007

神經網絡結構圖如圖3所示,模型參數如圖4所示。

通過實驗讀懂神經網絡識別VPN行為

 

圖3:本文使用的神經網絡架構,這種"先胖后瘦"的結構可以對信息特征的表達空間先做擴充,然后再進行壓縮,適用于小型數據集

通過實驗讀懂神經網絡識別VPN行為

圖4:模型參數

激活函數

激活函數是為神經網絡提供非線性輸出能力的關鍵因素,許多著名的神經網絡模型(如AlexNet與ResNet等)都非常考究激活函數的選擇過程。本文所描述的模型對于所有隱含層均使用ReLU作為激活函數,其函數曲線如圖5所示。輸出層則使用Sigmoid作為激活輸出,其函數曲線如圖6所示。

通過實驗讀懂神經網絡識別VPN行為

圖5:ReLU函數曲線


通過實驗讀懂神經網絡識別VPN行為

圖6:Sigmoid函數曲線

訓練過程

訓練數據樣本數量為16758,測試數據樣本數量為2000,訓練時先打亂訓練數據,并劃分出驗證數據集,完成全部訓練樣本數據的過程記為1次訓練,共訓練500次,其訓練誤差與驗證誤差曲線如圖7所示:

通過實驗讀懂神經網絡識別VPN行為

圖7:X軸為訓練次數,Y軸為誤差值,藍色曲線為訓練誤差,紅色曲線為驗證誤差

實驗結果

最終對測試數據的2000個樣本推理準確率為85.56%,本實驗的出發點為檢測企業中的VPN流量行為,在該人工智能模型支持下,配合人力二次檢測,可以有效發現企業中VPN軟件的使用情況,讓企業不用再耗費高成本采購專業監管設備或服務。

 

從深度上講,如果能收集更多的數據,使用神經網絡來檢測VPN流量就會更加準確,從廣度上講,我們可以使用同類方法檢測異常流量、區分個性化應用流量以及預分類惡意流量等。華為的網絡人工智能 (NAIE智能體) 就包含了許多利用人工智能來協助運維人員完成問題檢測、指標固化、信號強度計算等許多復雜的案例。相信在不遠的未來,我們所使用的計算機網絡必定能夠依靠人工智能技術向每一個人提供更加個性化、差異化的服務。

 

作者簡介:

曹鑫磊,在華為授權合作伙伴(HALP)Yeslab負責華為人工智能和網絡自動化方向課程開發和授課,對華為認證有著獨到的見解,深受學員好評。

分享到:
標簽:VPN
用戶無頭像

網友整理

注冊時間:

網站:5 個   小程序:0 個  文章:12 篇

  • 51998

    網站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網站吧!
最新入駐小程序

數獨大挑戰2018-06-03

數獨一種數學游戲,玩家需要根據9

答題星2018-06-03

您可以通過答題星輕松地創建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學四六

運動步數有氧達人2018-06-03

記錄運動步數,積累氧氣值。還可偷

每日養生app2018-06-03

每日養生,天天健康

體育訓練成績評定2018-06-03

通用課目體育訓練成績評定