機器學習已迅速獲得認可,成為廣泛應用的強大技術,這是理所當然的。機器學習算法,尤其是深度神經網絡 (DNN),已經大大超越了早期的圖像識別方法,當谷歌將其文本翻譯服務轉換為機器學習算法時,用戶立即注意到了顯著的改進。機器學習方法已經在垃圾郵件過濾、惡意軟件檢測、安全威脅檢測等應用以及自動駕駛等新興技術中扮演著安靜但關鍵的角色,它是全球真正無人駕駛汽車熱潮的核心。盡管如此,仍有理由以適當的謹慎和意識行事。即使機器學習傳播得更廣泛,滲透到日常生活中也更深入,
在過去的幾年里,研究機器學習算法魯棒性的研究人員已經認識到,訓練有素的機器學習模型可能會被誘使對數據進行錯誤分類。使用多種不同的技術,研究人員發現他們可以通過操縱輸入數據來欺騙模型,方法就像添加噪聲一樣簡單。在更復雜的方法中,使用對抗性神經網絡發現輸入數據的細微變化可能會導致錯誤分類。這種錯誤分類已經產生了嚴重的后果,例如,在無人駕駛車輛中,停車標志被錯誤分類為限速標志可能會導致損壞、受傷或更糟。
在大多數情況下,研究人員將這些技術應用于白盒模型,這些模型可以完全暴露被攻擊的神經網絡的內部工作原理。盡管這種級別的可見性可能不會改變結果,但關于這些白盒模型中發現的漏洞是否適用于實際應用程序的問題仍然存在。當對黑盒模型的攻擊開始成功時,這些問題很快就消失了,在黑盒模型中,對模型的訪問僅包括呈現輸入數據和查看推理結果的能力。
在這些成功的黑盒攻擊中,研究人員創建了一個并行模型,該模型經過訓練可以模擬黑盒模型在兩個模型接收到相同輸入數據時生成的結果。這種方法和類似的方法需要大量的輸入數據集以及對受攻擊模型的相應大量輸入查詢。由于這個和其他原因,這些攻擊中使用的方法是否適用于實際情況仍然存在問題,在這些情況下,攻擊者可能會面臨他們可以應用的輸入查詢數量的限制,或者他們可以接收的輸出數據或詳細信息的數量。甚至這些問題最近也消失了,因為研究人員發現,即使在這些嚴格的限制下,他們也可以欺騙黑盒模型對數據進行錯誤分類。
在大多數這些白帽攻擊中,特別令人不安的是,黑客可以使用對大多數人來說似乎微不足道甚至難以察覺的輸入修改來欺騙模型。模型可能會將略有改動的照片歸類為與人類觀察者明顯看起來不同的東西。類似地,當巧妙地將單詞注入語音音頻流時,結果可能聽起來像人類的原始語音,盡管模型聽到了注入的短語。
從本質上講,DNN 既使這種漏洞成為可能,又使這些相同漏洞的緩解變得復雜。DNN 中的多層神經元通過在源自原始輸入的眾多特征之間建立復雜的關聯來對輸入進行分類。這在微觀層面是如何發生的還不是很清楚。事實上,對 DNN 如何產生結果的一般理解非常有限,以至于不存在用于尋找最佳模型參數或架構的通用算法甚至啟發式方法。最有經驗的研究人員表示,找到最佳模型的方法是嘗試盡可能多的替代架構,調整他們的設計,進一步修改他們的設計,然后看看哪個模型表現得最好。
缺乏對 DNN 如何產生結果的理解為漏洞利用打開了大門——或者更準確地說,它為黑客提供了一個潛在的后門。例如,創建圖像識別模型的最有效方法之一是使用其他預訓練模型作為開發自定義模型的起點。由于模型操作的微觀細節沒有得到很好的理解,黑客可能會破壞現有模型(即沒有明顯效果)并將修改后的模型植入預訓練模型的存儲庫中。然后,如果開發人員使用受損模型作為起點,他或她的自定義模型可能會為黑客提供最終的目標應用程序及其相關資源的后門。
機器學習應用程序中的威脅和這些威脅的緩解是剛剛開始出現的安全方面。最有可能的是,治愈的方法是疾病,白帽黑客可能會使用黑帽黑客用來破壞這些相同類型模型的相同技術來保護模型。就目前而言,那些保護方面的人正在吸取的直接教訓主要是關于對這些威脅類別的認識。在模型安全故事的早期階段,應對這些威脅的準備工作首先要了解,修復任何產品開發中的安全漏洞所需的相同基礎知識與同樣適用于機器學習模型獲取和自定義模型開發的相同基礎知識.
審核編輯:湯梓紅
-
神經網絡
+關注
關注
42文章
4774瀏覽量
100890 -
機器學習
+關注
關注
66文章
8425瀏覽量
132766
發布評論請先 登錄
相關推薦
評論