NVIDIA 深度學習學院( DLI )正在為如何構建異常檢測的人工智能應用提供指導者、動手訓練。
異常檢測是識別數據集中異常偏離的數據的過程。與識別統計異常值的簡單過程不同,異常檢測旨在發現在其上下文中不應被視為正常的數據。
異常可以包括與捕獲和標記的異常相似的數據、在不同上下文中可能正常但不在其出現的上下文中的數據,以及只能通過訓練神經網絡的洞察理解為異常的數據。
在許多商業和研究環境中,異常檢測是一種強大而重要的工具。醫療保健專業人員使用異常檢測更早更有效地識別人類疾病的跡象。 IT 和 DevOps 團隊針對任何數量的業務應用異常檢測來識別可能導致性能下降或服務丟失的事件。營銷和財務團隊利用異常檢測來識別對其 KPI 有重大影響的特定事件。
簡言之,任何團隊都可以從與他們的目標相關的數據中識別特殊情況中獲益,這可能會從異常檢測的有效使用中獲益。
異常檢測方法
考慮到異常檢測的各種重要應用,有許多方法可用于執行異常檢測,這并不奇怪。確定哪種方法對給定場景最有效的一個有用因素是,是否已經存在指示哪些樣本異常的標記數據。當可以定義異常并且存在足夠的代表性數據時,可以使用監督學習方法。或者,在沒有此類標記數據的情況下,可能需要無監督的方法,但仍然需要檢測新的異常。
DLI workshop 人工智能在異常檢測方面的應用包括監督和非監督情況。利用 KDD 網絡入侵數據集,采用監督 XGBoost 模型檢測異常網絡流量。此外,該模型經過訓練,不僅可以將尚未發現的異常數據分類為攻擊的一部分,還可以識別攻擊的種類。
對于無監督學習方法,考慮了兩種方法,首先是訓練深度自編碼神經網絡。接著介紹了一種雙網絡生成對抗網絡( GAN ),其中分量鑒別器網絡執行異常檢測。下面是每種方法的更多細節。
XGBoost 詳細信息
XGBoost 是一種優化的梯度增強算法,具有廣泛的應用。除了廣泛的實際使用案例外, XGBoost 還憑借其在 Kaggle 數據科學競賽中廣泛而有效的表現贏得了良好的聲譽。鑒于存在用于訓練的標記數據,異常檢測問題被認為是一個分類問題,其中經過訓練的 XGBoost 模型識別出保持測試數據中的異常。 NVIDIA GPU 通過并行化訓練來加速 XGBoost ,首先作為二進制分類器,然后作為識別異常類型的多類分類器。
AE 詳細信息
深度自動編碼器由兩個對稱部分組成。第一部分稱為編碼器,將數據壓縮或“編碼”為低維潛在表示。第二部分,解碼器,嘗試從編碼器產生的潛在向量重構原始輸入。在訓練期間,編碼器和解碼器都進行了優化,以創建輸入數據的潛在表示,從而更好地捕獲其基本方面。當用低異常率進行訓練時,潛在向量比異常更能代表豐富的正常數據樣本。因此,解碼器的輸出將比異常更可靠地重建正常數據。通過自動編碼器傳遞正常數據將產生比異常更低的重建誤差,通過設置該誤差的閾值來完成分類。
GAN 細節
生成性對抗網絡由兩個相互競爭以提高整體性能的神經網絡組成。其中一個網絡,生成器,學習獲取一個隨機種子,并從與訓練集數據相同的分布中生成一個人工數據樣本。第二個網絡,鑒別器,學習區分來自訓練數據集的樣本和生成器生成的樣本。
當正確地訓練時,生成器將學習提供逼真的人工數據樣本,而鑒別器可以準確地識別訓練集中出現的數據。當使用代表非正常數據的數據進行訓練時,生成器能夠創建類似正常數據的新樣本,鑒別器能夠將樣本分類為正常樣本。
最典型的是, GAN 的訓練目標是使用生成器生成新的、逼真的數據樣本,同時丟棄鑒別器。然而,對于異常檢測,將生成器放在一邊,利用鑒別器確定未知輸入數據是正常的還是異常的。
了解更多
人工智能驅動的異常檢測提供了豐富的,有時是跨廣泛領域的基本功能。此外,適用于異常檢測的技術也可以在其他人工智能領域發揮巨大作用。
關于作者
Josh Wyatt 是一位經驗豐富的軟件工程師、講師和課程開發人員,為NVIDIA 深度學習學院開發內容。 Josh 幫助培訓了全世界數千名開發人員、研究人員和數據科學家,在加速計算、數據科學和深度學習領域構建 GPU 加速應用程序。喬希擁有加州圣瑪麗學院哲學學士學位。
審核編輯:郭婷
-
人工智能
+關注
關注
1791文章
47350瀏覽量
238744 -
深度學習
+關注
關注
73文章
5504瀏覽量
121221
發布評論請先 登錄
相關推薦
評論