發現和制止威脅的傳統方法已不再有效。一個原因是,隨著應用程序和系統之間的互連不斷增加,攻擊者進入系統并造成破壞的方式也越來越多。
將人工智能應用于這個問題似乎是一個自然選擇,但從某種意義上說,這擴大了數據問題。一個典型的用戶在工作時可能會與 100 個或更多的應用程序交互,而應用程序之間的集成意味著這 100 個應用程序之間可能會有成千上萬的互連和共享權限。如果你有 10000 個用戶,你需要 10000 個模型作為開始。
好消息是 NVIDIA Morpheus 解決了這個問題。 NVIDIA 最近宣布了對 Morpheus 的更新,這是一個應用于 網絡安全問題的數據科學的端到端工具。
問題概述
任何給定應用的被破壞的憑據都會給攻擊者一個巨大的權限世界,隨著時間的推移,這些權限不會是明顯的或靜態的。在 2021 , 61% 的攻擊的根源是受損的憑據 。
雖然大多數應用程序和系統都會創建日志,但這些日志的種類、數量和速度意味著可能的大部分響應是“在馬離開后關上牲口棚的門”。如果幸運的話,識別憑證違規和造成的損害可能需要數周時間,如果一般的話,則需要數月時間。
由于用戶數量超過“適度”或“非常適度”,傳統的基于規則的系統無法創建警告。當用戶或系統開始做一些不尋常的事情時,一個知道另一個人或系統典型行為的人幾乎會立即注意到可疑的事情。
每個賬戶都有一個數字指紋:它在特定的時間序列中做或不做的一組典型的事情。這個問題不再僅僅通過定期重置的強密碼、一個規則表和定期從日志數據海洋中對日志進行滴大小的抽查來解決。
問題在于理解每個用戶的日常工作。這是一個數據科學問題。
多種方法的模型集成
10000 個型號已經夠嚇人的了。但如果我們致力于解決網絡安全問題,就像嚴重的數據科學問題一樣,一種模式是不夠的。在最關鍵的數據科學問題中,最先進的技術是整合多個模型。
模型集成是指以某種方式組合模型,以提供比單個模型更好的預測。事實證明,“群體智慧”也是正確的,許多機器學習方法都試圖預測同樣的事情。
在識別惡意攻擊的數字指紋的案例中, Morpheus 采用了兩種不同的模型,并使用它們來提醒人類分析師可能存在的嚴重危險。一種方法只有幾年的歷史,另一種方法有幾百年的歷史:
因為攻擊試圖通過模仿給定帳戶的行為來隱藏其行為,所以自動編碼器測試給定用戶的行為作為平面快照的典型程度。
因為攻擊是暫時的,所以傅里葉變換用于理解隨時間變化的典型行為。
方法 1 :自動編碼器
在使用 Morpheus 啟用的特定示例中,自動編碼器根據 AWS CloudTrail 數據進行訓練。 CloudTrail 日志是可以轉換為表格數據的嵌套 JSON 對象。數據字段隨時間和用戶的不同而變化很大。這需要神經網絡方法提供的靈活性和 Morpheus 平臺的一部分 RAPIDS 的預處理速度。 Morpheus 在此用例中部署的特定神經網絡方法是自動編碼器。
圖 1 自動編碼器架構。
從較高的層次上講,自動編碼器是一種神經網絡,它試圖從給定的數據中提取噪聲,并以近似的形式重建該數據,而不產生噪聲,同時盡可能真實地反映實際數據。
例如,想象一張表面有劃痕的照片。一個好的自動編碼器可以在沒有劃痕的情況下再現底層圖片。一個訓練有素的自動編碼器,一個熟悉其領域的自動編碼器,在重建給定數據時具有低的“損失”或誤差。
在本例中,您將獲取給定用戶的典型行為,去掉細微變化的“噪音”,然后復制該數字指紋。與任何統計問題一樣,每個編碼事件都有一個相關的丟失或錯誤。
要部署此解決方案,請更新 Morpheus 附帶的預訓練模型,為每個用戶/服務和機器/服務交互提供一段典型的無攻擊數據。將這些模型移至 MueEUS 的英偉達 Triton 推理服務器層。
令人驚訝的是,實際的自動編碼被丟棄,丟失的數字被保留。定義了一個用戶定義的閾值,用于標記要由人工審核的帳戶。默認選項是經典的 Z 分數:損失的四個標準差是否高于此用戶的平均損失?
圖 2 。現代企業的組合爆炸及其安全要求
方法 2 :快速傅立葉變換
圖 3 Morpheus 框架捕獲的異常活動的兩個時間點,如果不進行 FFT 等時間序列分析,可能無法檢測到
快速傅立葉變換( FFT )提取數據噪聲下波的基本行為。傅立葉分析是在 1700 年代后期發展起來的,在金融、交通工程、經濟學以及網絡安全等領域的應用數學分析中仍然具有非常重要的價值。
一個給定的時間序列可以分解成不同的組成部分,顯示有規律的季節、每周和每小時的變化以及趨勢。分解一個時間序列可以讓分析師了解,盡管存在持續的振蕩,但隨著時間的推移,一些東西是否確實在增長。他們還可以了解網絡安全用例是否對時間序列感興趣,以及在正常的流量漲落之外是否有真正不尋常的事情發生。
機器應用程序活動往往會隨著時間的推移而振蕩,攻擊者的活動可能很難在數據中的周期性噪音中檢測出來,而僅僅是一個體積警報。要在周期數據中發現細微的異常,可以使用 FFT 將數據從時域轉換到頻域。然后將信號重建回時域(使用 iFFT ),但僅使用前 90% 的頻率。原始信號和重構信號之間的較大差異表示機器活動異常并可能受到惡意人類活動危害的時間。
Morpheus 通過了解給定用戶/服務和機器/服務系統交互的正常活動周期,應用 FFTs 。在此之后, GPU 快速執行分解,并對轉換后的數據應用滾動 Z 分數,以標記異常的時段。作為參考, CuPy FFT 分解比通過 NumPy 進行的類似運算快 120 倍。有關更多信息,請參閱 比較 Tensorflow 、 PyTorch 、 CuPy 、 PyFFTW 和 NumPy 的 FFT 速度測試 。
把它們放在一起
Morpheus 是幫助人類分析師的工具。這意味著,當它向一個人發送正確數量的數據時,它是最有用的。
圖 4 NVIDIA Morpheus 工作流
回到前面的討論, Morpheus 使用了投票組合。這兩種模型最緊急標記的數據被發送給人類安全團隊。這使得網絡安全紅色團隊的力量倍增,他們將寶貴的時間用于威脅的實時展開,而不是數周或數月后。
網絡安全數據問題就像從淤泥中提煉礦石:你從大量的零開始,當你篩選、提煉和分析時,你得到了一些真正值得一看的東西。雖然我們不認為系統入侵是黃金,但我們知道分析師的時代是黃金。
有效的防御需要情報工具來幫助跟蹤和確定優先級。 Morpheus 部署的復雜方法的集成正是為了實現這一點。這意味著為部署 Morpheus 的企業降低了財務、聲譽和運營風險。
試試看
Morpheus 附帶了代碼、數據和模型,讓您能夠了解用例如何工作,并了解 Morpheus 將如何為您的企業工作。使用前面的工作流,您觀察到 micro-F1 分數為 1 。此外,在多個實驗中,你發現錯誤歸因率接近 0% (機器與人類相比)。
除了最先進的數據科學和預建模型外, Morpheus 還被設計為網絡安全數據科學的平臺。它無縫地結合了一套 NVIDIA 和 Cyber Log Accelerator ( CLX )技術,使部署變得簡單快捷。
請記住,這些模型,特別是 FFT 模型,不能完全冷啟動,必須提供一定數量的數據,代表正常的、無攻擊的 CloudTrail 日志流。
這僅僅是 Morpheus 可以做些什么來阻止困擾企業的黑客幽靈的開始。很容易想象,在不久的將來,為了獲得更高的預測精度,將同時部署更多的模型。
關于作者
Rachel Allen 是 NVIDIA Morpheus 團隊的高級網絡安全數據科學家,她的重點是 GPU 加速機器學習方法的研究和應用,以幫助解決信息安全挑戰。在加入 NVIDIA 之前, Rachel 是 Booz Allen Hamilton 的首席數據科學家,她在那里設計了各種先進的威脅搜尋和網絡防御能力。她擁有弗吉尼亞大學認知科學學士學位和神經科學博士學位。
About Gorkem Batmaz
Gorkem Batmaz 是 NVIDIA RAPIDS-CLX 團隊的高級數據科學家。他的重點是應用 GPU 加速高性能分析來解決網絡安全挑戰。他開發了開源的基于 ML / NLP 的預測性維護、網絡釣魚 DGA 惡意軟件檢測、資產分類和周期性檢測解決方案。
審核編輯:郭婷
-
NVIDIA
+關注
關注
14文章
4994瀏覽量
103159 -
gpu
+關注
關注
28文章
4743瀏覽量
128992
發布評論請先 登錄
相關推薦
評論