在剛剛結束的“第三屆中國人工智能大賽”上,沖出了一支“黑馬”冠軍戰隊——來自瑞數信息的AI團隊,從164支參賽戰隊中突出重圍,勇奪網絡安全方向A級冠軍。
作為一場含金量非常高的公開技術賽事,“中國人工智能大賽”由國家互聯網信息辦公室、工業和信息化部、公安部、國家廣播電視總局、廈門市人民政府聯合主辦,至今已成功舉辦兩屆,累計一千余支團隊參賽報名,囊括了海內外頂尖的技術企業、高??蒲性核_競技。
本屆大賽亦是高手如云,競爭異常激烈。“網絡安全”作為三大賽題方向之一,吸引了國內大部分的頭部安全公司和安全創新企業參賽,代表了業內的領先水平。
令人意外的是,作為冠軍戰隊,瑞數信息AI團隊竟然是第一次參與公開賽事。這支神秘的冠軍戰隊是如何誕生的?他們采用了哪些技術和策略成功破題?又是如何看待AI技術在網絡安全領域的應用?接下來就讓我們為大家揭秘大賽背后的故事。
賽事回顧:以AI技術檢測識別Webshell攻擊
本屆大賽網絡安全方向的比賽任務是“檢測文件數據是否為可用于網絡攻擊的Webshell文件”。主辦方會提供不少于10萬條的文件樣本數據集,以供參賽戰隊比拼對樣本數據集中Webshell文件的檢測能力,通過檢出評價+誤報評價兩大評判標準數值相加,按總分高低排序決定最終名次。
熟悉網絡安全領域的人都知道,Webshell是威脅Web應用安全的一大頑疾。基于隱秘性、基于腳本、靈活便捷、功能強大等特點,Webshell被網絡攻擊者當作網站后門工具使用,以實現維持對攻陷服務器的長期遠程接入能力。因此,及時檢測和發現Webshell能有效阻斷很多潛在攻擊,大大提升網絡安全,Webshell檢測識別能力也由此成為企業安全防御的重點。
正因如此,本屆大賽將“Webshell的檢測能力”作為賽題,具有非常強的現實意義。而這樣的賽題,對于活躍在網絡安全領域的各大廠商而言,也是一個常規題。目前幾乎所有的安全廠商都已跟進了以AI檢測Webshell的技術,但如何答好這道題,則顯示了廠商背后的AI實力。
據瑞數信息AI團隊介紹,AI檢測技術主要涉及到三個方面:特征提取、模型構建和訓練調參。
特征提?。喊〝祿逑春吞卣鞴こ?,主要難點在于從已知樣本數據中提取合適的數據特征作為模型輸入,特征工程是影響模型效果最關鍵的因素。
模型構建:需要根據實踐經歷了解不同模型的使用場景和優劣特征,難點在于針對不同特點的數據構建合適的模型,更有效地學習數據內在特征,發揮模型優勢。
訓練調參:針對模型構建結束后,訓練過程中設定合適的模型超參數,難點在于需要通過不斷的經驗積累,設定的超參數使模型在特定數據集下達到最優效果。
游刃有余:瑞數AI融合深度學習模型
在本次比賽中,由于主辦方提供的檢測目標為PHP和JSP腳本混合數據,不同語言腳本特征不一樣,需要設計不同算法進行檢測,因此,瑞數信息AI團隊在構建Webshell檢測模型時,結合不同的數據類型,采用了將不同模型相結合的融合深度學習模型。在檢測前會對腳本進行區分,再通過合適的模型進行檢測。
事實上,瑞數信息AI團隊日常研究的Webshell腳本遠不止PHP和JSP兩種,這也成為AI團隊在比賽中游刃有余的底氣。
此外,主辦方提供的測試集數據量遠大于本地訓練集,容易出現過擬合情況,導致檢測效果較差。同時,在實際比賽中,主辦方只提供了少量黑白樣本,這使得各大戰隊構建的模型幾乎沒有調優空間,只能根據主辦方黑白樣本的大致比例做相應的判斷調整。因此在模型調優上也需要足夠的實戰經驗。
對此,瑞數信息AI團隊的方案是在訓練數據集上通過增加模擬數據集,對數據集進行增強處理;在模型上,盡量簡化模型結構,在網絡結構中不設計過深的層級,加入dropout層并調整合適比例,加入正則化等提升模型泛化效果。
在瑞數信息AI團隊看來,這次大賽比拼的是綜合能力,模型效果的呈現是多方面結合的成果:
首先,在數據量上,通過在實踐中不斷積累,收集更多更完備的訓練數據集,使模型學習的數據更具代表性,具備更強的泛化效果;其次,在經驗上,通過對Webshell腳本更深入的理解和實踐,對樣本數據進行更有效的特征工程,強化模型效果;最后,在算法模型上,構建合適的模型結構,調整合適的模型超參數,使模型在訓練集上有最優的效果。
實戰價值:進階的瑞數AI檢測技術
考慮到賽事提供的樣本可能有一定局限性,那么瑞數信息在本次比賽中展現的AI檢測能力,是否具備實戰價值,能否在實際攻防中得以應用?
據瑞數信息AI團隊介紹,本次賽事主辦方提供的PHP和JSP兩種類型的Webshell腳本,在實際攻擊中都是常見且具有代表性的腳本。因此,本次大賽各大戰隊展現的AI檢測能力,完全能夠應用到網絡攻防實戰中。
事實上,通過AI算法對Webshell進行檢測,是近年來網絡安全領域一種領先的技術應用,通過大量的訓練樣本,針對提取的特征自動發現其內在聯系,自動學習Webshell和正常樣本的分布差異。
AI檢測方法的誕生,很大程度源于網絡威脅不斷升級,傳統Webshell檢測方法已捉襟見肘。常見的Webshell檢測方法有兩種:靜態檢測和動態檢測。其中,靜態檢測是先建立一個惡意字符串特征庫,通過與特征庫的比對檢索出高危腳本文件。但這種方法容易誤報,無法對加密或者經過特殊處理的Webshell文件進行檢測。動態檢測則是通過行為模式深度檢測腳本文件的安全性,對于新型變種腳本有一定的檢測能力,但針對特定用途的后門較難檢測。
瑞數信息AI團隊表示,靜態檢測和動態檢測大部分是建立在安全專家對Webshell腳本深入理解的情況下提煉的關鍵特征,這項工作非常耗時,同時維護起來也是一項極其繁瑣的工作。即便如此,依然有檢測不到的時候。
但是基于AI檢測Webshell能克服傳統Webshell檢測方式的單一性和滯后性,對未知數據具備一定的識別效果,同時能很好處理通過加密編碼等繞過靜態檢測的Webshell,因此作為現有檢測方式的有力補充,可以有效提升實際檢測效果。
實至名歸的AI冠軍團隊
瑞數信息在AI技術上已有近六年的積累,團隊成員來自北京大學、中國科學技術大學、武漢大學、西南大學等國內一流名校的本科和碩士研究生,在安全領域有著豐富的經驗積累和實踐經歷。此外,瑞數信息還積極與國內頂級高校北京理工大學在網絡安全領域展開深度研究和合作,推動網絡安全“產、學、研、用”的一體化發展,不斷提升網絡空間安全水平。
除了“AI+安全”的高端人才配置,瑞數信息AI團隊也非常重視技術研究和實戰演練的相互印證。在為大型企業客戶提供安全防護中已經很好地驗證其模型效果,并不斷優化提升實戰效果。
這也就不難理解,為什么瑞數信息AI團隊初次參賽就斬獲冠軍,既能“抬頭看天”,緊跟學術前沿不斷創新,又能“低頭走路”,以實戰為基準做好當下每一件事,瑞數信息冠軍戰隊可謂實至名歸。
對于AI檢測技術的未來,瑞數信息AI團隊認為,現階段AI檢測應用還不夠廣泛,一方面受限于大規模算力的支持,另一方面也需要降低人為提取模型數據特征的比例。在數據方面,高質量的Webshell數據量較為稀缺,一定程度上也影響了AI檢測效果的提升。
但是,AI檢測作為一種處在早期發展階段的技術,相信其未來一定能夠得到更加廣泛的應用,用于發現更為隱蔽的攻擊手段;同時,隨著AI算法從傳統算法—深度學習—強化學習的不斷進化,也將對安全產生更大的助力。
AI檢測是一個進化發展的過程,瑞數信息將通過不斷推動人工智能與行業深度融合及跨界應用,加速人工智能在網絡安全技術的發展和應用創新!