在紛繁復雜、光怪陸離的數字世界,漏洞的必然存在和入侵的不可避免,使網絡安全成為永恒的話題。無論是入侵者還是防御者,都在尋求有力的武器。AI技術的出現,在自動化助力上,能顯著提升攻防雙方的能力基線。未來已來,機器智能對抗是新網絡安全時代的選擇。本文詳細闡述AI在網絡安全應用的必要性、可行性、應用實踐,以及經驗總結,從專家知識經驗到安全數據利用,從安全左右腦的雙輪驅動,到多方知識協同,打造抵御多方位立體化攻擊的安全長城。
網絡安全的問題源自何方?
安全問題的本源,即系統中蘊含超出設計意圖的輸入、中間過程和輸出。一個簡單的函數設計,功能點是特定的輸入下的特定的輸出。實現的時候,可以采用不同的內部邏輯,都能實現此功能點。良好的設計,會充分考慮例外的輸入,不同中間過程中的異常處理,以及非預期輸出的處理。但是,實際開發過程,由于開發能力、進度壓力、邏輯復雜度大等各方因素,會有各種設計意圖外的副效應,而這些副效應會成為系統的漏洞,并被利用產生非預期的行為。
對于需要大量人員參與、大量邏輯迭代構建的系統,其復雜度呈指數上升,就會在某種程度上超出設計者的能力控制范圍。
系統的漏洞不可避免,不可杜絕。任何的系統都必然存在漏洞,有漏洞就可能會被入侵。
如何客觀看待當下網絡安全的真實存在?
傳統基于靜態規則和簽名、簡單行為識別武裝起來的防御系統,可以抵御常規攻擊,但是,在有計劃投入的黑客組織的持續攻擊下,基本是透明的。近年來,國際安全行業針對“assume breach”形成共識,是否被入侵成功,只取決于自身的商業和政治價值以及入侵的成本。在高價值目標里,入侵是已經客觀的存在,并將長期存在。所以,從危害程度看,內網安全防護會是未來的重中之重。
同時,隨著萬物互聯的智能世界的到來,網絡攻擊日益增多且越來越自動化、智能化。復雜的攻擊可以自動檢測環境,從而混淆、躲避和變種;高度自動化的工具使攻擊變得更加聰明,傳統防御策略是無法處理這些問題。安全團隊的人力會淹沒在大量的告警事件中,產生告警疲勞,從而難以及時識別和應對真正的威脅。
網絡安全的現實困局是:第一,組織內安全專家人力和知識不對等;第二,專業安全設備的應用復雜度高,導致對網絡威脅根本視而不見或者即使見也無力處置,干脆當個腦袋埋入沙堆的鴕鳥,麻木不仁、聽天由命,直到產生巨大危害的那一天。
漏洞必然存在,威脅入侵不可避免,如何保衛數字世界安全?
如果把網絡世界的安全看做是一場攻防戰爭,攻防各方首先都要有強大的軍備。在這個軍備清單里,AI會是關鍵武器。作為新時代的電力,它將發光并照耀整個真實及虛擬的世界。
在網絡安全領域,傳統防御模式的假設是:所有攻擊場景都是已知的,每種攻擊場景和應對策略一一對應,那么,基于規則的系統便可高效地運行。類似于中國武術的散打表演,按照固定套路來。
但是,現實是殘酷的。
隨著大數據時代的到來,黑客的攻擊手段日趨復雜與多樣,新型病毒和病毒變種層出不窮。例如,2017年,勒索病毒WannaCry席卷全球,150多個國家遭遇攻擊。
WannaCry爆發后,依然不斷有黑客修改該病毒,新型病毒及變種不斷涌現,勒索病毒已成為威脅互聯網安全的一大毒瘤。
AI作為信息世界的最新技術,也已經被具有創新精神的黑客組織采用來武裝自己。面對這些瘋狂且極具創新顛覆意識的對手,傳統防御技術已無法跟上快速演進的攻擊和威脅。不要說新型未知威脅,即使對于已有的安全漏洞的攻擊變種,也很難及時發現并有效處置。
同時,國內網絡安全市場正在經歷一場場轉變。從注重安全合規,向注重效果轉變;從原來的流于表面的安全設備購置和部署匹配,向注重實戰的攻防演練、調查問責轉變。網絡安全的建設模式,也從被動防御轉為主動能力建設。整個網絡安全行業最終進入基于AI的機器智能對抗時代:誰擁有更多的AI能力和攻防知識,誰的獲勝面就更大。
AI是一種機器展現的智能。理想的智能機器能夠感知周圍環境,并采取行動以最大可能達成特定目標。教科書對AI的經典定義是:象人一樣行動、象人一樣思考;合理地思考、合理地行動。
網絡安全領域的AI應用可以定義為替代安全專家能力的自動化技術
當前,促成AI在網絡安全領域應用的要素都已經集齊:1. 高性能計算AI芯片;2. 大量可采集的數據、日志和安全事件;3. AI算法近年來的突飛猛進,聚集這個時代大量最優秀的大腦。無論傳統機器學習、貝葉斯網絡、知識圖譜,還是深度學習、圖計算,在各行各業都得到充分的實踐。
即使上述條件成立,人們還是會有疑惑:在極具個人英雄主義色彩的安全攻防領域,面對新型威脅的創新不斷和靈活多變的網絡攻擊套路,在攻防雙方成本嚴重不均衡的博弈場景下:AI是否具備解決網絡安全問題的條件并真能成為關鍵武器呢?
首先,判斷待解決問題的背后,解是否存在。
世界是稀疏的,世界萬事萬物背后都會有一定規則在起著作用,包括大自然的作品和人類的所有作品都一樣。物理世界,從量子力學看,微觀上是由不確定性原理和薛定諤方程的概率波統治的;而宏觀上,則是由廣義相對論、麥克斯韋方程組統治的充滿確定性的世界。
理論上,圍棋有超越宇宙中所有原子數量的變化。而實際上,AlphaZero經過450萬盤的強化學習,就已經可以戰勝AlphaGo Lee了,這表明每個局面可選擇的有效下法其實是有限的。所以,在特定場景和具體設計下,事物的存在和發展在可量化描述的維度上是稀疏的,有大概率的趨同性。
網絡攻擊也是基于一定的樣本和攻防理論,而非完全孤立和隨機離散,也就內含了某個模式或者規律,是可解的。
其次,探討和提取模式和規律,有很多成熟的科學方法。
在簡單的系統中,通過歸納總結,人類專家就可以提取出規律,用在網絡安全領域就是一系列的安全規則、簽名以及情報。在復雜的系統中,模式和定律需要通過大量數據分析才能得到。
AI是超越人工的利器,可以從數據中找到特定的模式并刻畫事物的特征,總結出定律和定理,并抽象為可以用符號推理表達的知識。比如,引爆此次AI技術浪潮的是基于深度學習的神經網絡,它之所以有如此大的作用,正是因為它較好地模擬了人腦這“分層”和“抽象”的認知和思考方式。其實質,是通過構建隱層的神經網絡模型和獲取海量的訓練數據,學習到更有用的本質特征,從而最終提升信息分類或預測的準確性。圖像識別通過應用深度神經網絡,已經擁有超越人的識別能力?,F實中,人臉識別應用非常廣泛,也已經顯示出高于人工識別的優越性。在數據中心的AIops中,AI同樣發揮著重要作用。
AI本身擅長的就是,從大量紛繁復雜、但含有有效信息的數據中尋找本質的模式或規律,對于網絡安全領域也一樣。
AI如何有效的應用于網絡安全領域?
網絡安全AI應用的目標是替代人類安全分析專家在特定場景下的工作,實現自動化。
先看看人腦的決策機制:
右腦,感性,非計算模式,從已存儲的模式中啟發式匹配檢索。即通常意義上的直覺,可以快速匹配、快速反應,根據歷史經驗來提取關鍵事物特征和行為模式,從而第一時間做出決策。
左腦,理性分析,通過一定的邏輯計算,從普世定理和領域知識出發進行演繹推理。從知識概念中來,到現實證據中去,通過推理模型預測和證據對照來判斷真偽,指導做出決策。
理性可避免錯誤,也可能會受限于舊知識而因循守舊。感性激發創造力和快速反應,但會陷入被設計的陷阱,誤判較大。
人的決策,很多時候是左右腦互博而達到協調統一,才能給出更合理的結論。
AI在網絡安全中的應用模式,也大概如此。安全AI右腦需要有類似老刑警“看一眼即懂”的能力,不放過任何一個可疑分子;安全AI左腦需要用攻防知識庫和推理引擎來武裝自己,從多維關聯、攻擊鏈、圖計算到知識圖譜,推導得出一個更合理的最終決策。
AI在網絡安全中的應用模式如下:
第一,安全數據的加工中AI的應用。安全數據加工目的是自動或者半自動產生安全情報、規則或者簽名。一般來講,這個加工過程需要安全專家參與最后的確認與調整。通過利用AI工具,可以過濾掉大部分無用的數據,并給出更精確的情報、規則和簽名的建議,減少安全專家的分析工作量,提高工作效率,減少重復的勞動。
第二,監督學習的安全AI檢測。通過對海量黑白樣本的學習,建立分類模型,識別威脅的真實性,是最常見的應用。有別于靜態固定的簽名和規則,AI模型比人類專家更能在海量數據中找到最接近本質的特征表達,因而有更強的泛化能力,適應于各種變種。變種很多有家族屬性和惡意代碼的重用度,這些是監督學習算法最擅于捕捉到的關鍵特征,需要注意的前提是,大數據量和高質量的黑白樣本,以及場景問題在可以用的安全數據中的信息含量多少。
構建AI模型的門檻既低又高。低,是因為數據驅動的機器學習和深度學習,無腦擬合,容易過擬合得到高精度得分,可以在局部數據很到漂亮的結果;高,是因為要替代或者超越人類安全專家,首先需要的數據不僅有量還要有質,同時在算法上有深入研究。到模型構建的最后時刻,每前進1個百分點都非常困難,需要“煉丹師”般高深的功底才能取得一個實戰環境基本可用的AI模型。而這只一個開始,AI模型還要根據不同客戶具體環境下的安全數據的分布差異,不斷的迭代優化,反復打磨才能實戰可用。
第三,無監督學習的安全AI檢測。無監督學習不需要事先標記好數據,而是可以通過數據本身在時空維度上的內在聯系,建立行為基線;或者通過聚類算法,來表達數據本身的分布屬性,從而獲得安全數據的分布模型。通過數據空間的分布模型可以發現異常,分類不同的數據集合,從而自學習、自適應地識別0 Day攻擊或基于已知漏洞變種的攻擊。無監督模式是很好的未知威脅檢測方式。
第四,基于安全AI的認知能力構建。從安全攻防知識、資產的脆弱性/重要性、情報,通過各種知識推導給出最終結論,可用于最終決策,高級威脅識別,同時給出威脅自動處置腳本,加快響應速度,減少系統受損程度和增加對APT組織的攻擊預判。
AI在網絡安全中的具體實踐舉例
實踐一:基于DNN的惡意文件檢測
惡意文件數據量巨大,大部分會有有家族性,有較好的AI檢測基礎。惡意文件檢測基于深度學習DNN模型,用以識別文件是否為惡意文件。其優點是檢測算法使用了靜態檢測技術,無需惡意文件的運行時行為,常用于本地檢測。此外,模型小于1MB,運行內存小,適合防火墻做輕量化檢測。
惡意文件的本地檢測流程
惡意文件檢測建模實踐二:C&C檢測——DGA和DNS隱蔽通道檢測
C&C是內網防護的重點,同時也積累了大量流量行為數據,有較好的AI應用基礎。DGA(域名生成算法)是一種利用隨機字符來生成C&C域名,從而逃避域名黑名單檢測的技術手段。DGA檢測使用了卷積神經網絡(CNN)的模型,識別準確率高達99.9%以上。
DNS隱蔽通道是指黑客利用DNS協議實現諸如遠程控制、文件傳輸等操作。例如,2017年著名的XShell DNS通道攻擊,黑客在XShell中植入惡意代碼,通過DNS隱蔽通道外發用戶敏感數據。一個典型的DNS隱蔽通道攻擊過程如下圖所示。
圖中,1. 被控端發起包含“數據上傳”的域名請求;2. 域名請求DNS服務器進行遞歸查詢;3. 控制端服務器返回含C&C data的DNS應答;4. C&C data到達被控端。
使用深度學習卷積神經網絡(CNN)識別DNS隱蔽通道,通過batch normalization、word embedding、dropout等技術優化CNN模型,使得DNS隱蔽通道識別準確率高達97%以上。
實踐三:惡意加密流量識別
互聯網上的加密流量呈現增多趨勢。同時,為繞過傳統的流量檢測技術,也有很多惡意軟件通過TLS加密流量進行通信。如何識別惡意和正常流量,從而有效及時阻斷,需要用到基于AI技術的方法。
整個工作分為三步:
首先,安全研究人員通過獲取的黑白樣本集,結合查詢開源情報,域名、IP、SSL等的情報信息,進行特征信息提??;通過對黑白樣本的客戶端簽名和服務器證書的簽名進行分析;基于上述分析取證的特征向量,采用機器學習的方法,利用樣本數據進行訓練,從而生成分類器模型。這就形成華為HiSec CIS安全態勢感知系統最核心的ECA檢測分類模型。華為HiSec CIS安全態勢感知系統,采用大數據分析和機器學習技術,用于抵御APT攻擊。從海量數據中提取關鍵信息,通過多維度風險評估,采用大數據分析方法關聯單點異常行為,從而還原出APT攻擊鏈,準確識別和防御APT攻擊。幫助客戶做到智能檢測、全網協防及威脅可視,免核心信息資產損失。
第二步,流探針提取網絡流量中加密流量的特征數據,包括TLS握手信息、TCP統計信息、DNS/HTTP相關信息以及3/4層協議統計信息,統一上報給AI分析系統。
最后, AI分析系統結合自身的大數據關聯分析能力,對探針上送的各類特征數據進行處理,利用檢測分類模型識別加密流量中的異常C&C連接,從而發現僵尸主機或者APT攻擊在命令控制階段的異常行為。
AI在網絡安全中的應用總結
借助AI技術的自動化數據加工可提升數據處理效率,讓安全專家更專注于價值信息,從中提取更有效的規則、簽名、情報。內嵌入靜態規則引擎,簡單高效,是安全防御的重要手段,實際在廣泛應用。
在威脅手段不斷變化和漏洞日益增加,常規防御手段失效的情況下,更能適應變化的AI檢測模型成為最后的兜底、最后的防線。建立成百上千的AI檢測模型的集群,可以從各個方位形成天羅地網,構筑最強力的防線。
還必須從組織的安全管理的視角出發,從網絡虛擬空間走向物理實體空間,實現用戶友好的AI安全檢測和威脅閉環,協同業界頂尖的安全專家能力,賦能給單個組織,抵御外部的持續攻擊,實現威脅的預防和根治。安全能力來自對網絡安全空間的認知理解,包括實體(用戶、主機、系統、應用等)、威脅(情報、漏洞)、APT組織和其攻擊技術。知識決定命運,安全知識多的一方會獲得更大優勢,構建多層次的AI推理引擎是知識應用的關鍵。
人工智能技術能夠解決靜態規則引擎的弊端,從而加強威脅檢測能力,并通過知識智能推理來解決安全運維面臨的挑戰。目前,硬件生態的繁榮、AI芯片的涌現為人工智能技術在網絡安全領域的落地提供了堅實保障。此外,AI能夠助力設備間以及云間協同,促進安全互動生態的發展,通過多方聯動打造越發牢固的安全平臺,為企業筑起安全防護的鋼鐵長城。
責任編輯:ct
評論
查看更多