香港中文大學(深圳)和清華大學聯合完成的后門防御工作被NeurIPS 2022接收為Spotlight論文。基于投毒的后門攻擊對由不可信來源數據所訓練的模型構成了嚴重威脅。給定一個后門模型,我們觀察到,相較于干凈樣本,毒性樣本的特征表示對數據變換更加敏感。這啟發我們設計了一個簡單的敏感性度量——“針對數據變換的特征一致性(FCT)”,并基于FCT設計了一個樣本區分模塊,用以區分不可信訓練集中的毒性樣本和干凈樣本。此外,基于上述模塊,我們提出了兩種有效的后門防御方法,分別適用于不同的防御場景。第一種方法用于從頭訓練出一個安全模型(in-training defense),涉及一個兩階段的安全訓練模塊。第二種方法用于移除后門模型中的后門(post-training defense),包含一個交替遺忘毒性樣本和重新學習干凈樣本的后門移除模塊。在3個基準數據集和8種后門攻擊上的實驗結果表明了我們方法相較于SOTA防御方法的優越性能。
論文標題: Effective Backdoor Defense by Exploiting Sensitivity of Poisoned Samples
收錄會議: NeurIPS 2022 (Spotlight)
論文鏈接: https://openreview.net/pdf?id=AsH-Tx2U0Ug
代碼鏈接: https://github.com/SCLBD/Effective_backdoor_defense
1 問題背景
訓練深度神經網絡(DNNs)往往需要大量的訓練數據,這些數據有時可能由不可信的第三方來源所提供。這些不可信的數據可能會對模型的訓練帶來嚴重的安全威脅。典型的威脅之一就是基于投毒的后門攻擊,它可以通過投毒一小部分訓練樣本(即:給這部分樣本的圖像加上指定的觸發器,并把它們的標簽改為某個目標類別),來向模型中注入后門(即:在訓練過程中,模型能夠學到觸發器和目標類別之間的映射)。一般地,一個后門模型可以很好地預測干凈樣本,并且能將任何帶有觸發器的毒性樣本預測為目標類別。為了解決上述威脅,本文提出2個有效的后門防御方法,即使使用不可信來源的數據訓練,我們仍能得到安全、干凈的模型。
2 方法介紹
方法的總體框架如圖所示:
2.1 樣本區分模塊
我們觀察到,在后門模型的特征空間中,帶有觸發器的毒性樣本總是會匯聚到一起,如下圖的紅色實心點所示。這表示,即使毒性樣本包含著不同的物體,這些物體所代表的信息都被后門模型所忽略了。換句話說,毒性樣本的特征表示由觸發器所主導,而不是物體。因此,我們猜測:這樣的主導作用來源于后門模型對觸發器的過擬合,這是因為在不同的毒性樣本中,觸發器比物體具備更少多樣性。
為了驗證這一猜測,我們嘗試對干凈和毒性樣本分別進行相同的數據變換,如旋轉。我們觀察到,毒性樣本的特征表示不再匯聚到一起,而是移動到各自的ground-truth類別中,如下圖的紅+所示。這表示,觸發器的主導作用消失了,我們也證實了上述的猜測。此外,我們發現,雖然干凈樣本的特征表示也受到數據變換的影響,但是相較于毒性樣本,這些影響小得多。這些觀察給了我們啟發:我們可以利用特征表示對數據變換的敏感性來區分干凈和毒性樣本。
接下來,我們設計了一個度量——針對圖像變換的特征一致性(FCT),來描述這種敏感性。
如下圖所示,我們發現,依據這個度量,干凈與毒性樣本的分布具有顯著差異。其中,左圖/右圖對應被BadNets attack/Blend attack攻擊后的數據集。
因此,基于FCT,我們可以建立一個樣本區分模塊(Sample-distinguishment module)。基本規則是選取FCT最大的一部分作為毒性樣本,FCT最小的一部分作為干凈樣本。
2.2 安全訓練模塊
結合樣本區分模塊,我們設計了一個兩階段的安全訓練模塊two-stage secure training (ST) module,這2個模塊共同組成防御方法D-ST,它適用于in-training defense的防御場景,即:給定一個毒性數據集,此方法可以從頭訓練出一個安全的(準確率高且不包含后門)的模型,且在整個訓練過程中模型都不會被注入后門。
2.2.1 階段一:用半監督對比學習(SS-CTL)來學習特征提取器
現有防御方法DBD使用對比學習(CTL)來學習特征提取器,在這一過程中,干凈樣本的標簽所包含的有價值信息會流失。另一方面,研究表明,相較于CTL,有監督對比學習(S-CTL)可以學到表現更好的特征提取器。因此,考慮到樣本區分模塊可以鑒別干凈樣本,我們提出半監督對比學習(SS-CTL)來學習一個不包含后門的安全的特征提取器。SS-CTL的損失函數如下:
對于每個毒性樣本和不確定樣本,SS-CTL將促使它的2個數據增強版本靠近;對于每個干凈樣本,SS-CTL將促使所有同類干凈樣本的數據增強版本靠近。
2.2.1 階段二:用混合交叉熵損失來學習分類器
給定訓練好的安全特征提取器,我們設計了一個混合交叉熵函數來學習分類器,表示如下:
它能夠從干凈樣本學習到正確映射的同時,防止后門注入分類器。
2.3 后門移除模塊
結合樣本區分模塊,我們設計了一個后門移除模塊backdoor removal (BR) module,這2個模塊共同組成防御方法D-BR,它適用于post-training defense的防御場景,即給定一個毒性數據集,我們先使用標準監督訓練得到一個準確率高且包含后門的模型,再利用此方法移除模型中的后門,從而得到一個安全的(準確率高且不包含后門)模型。特別地,后門移除模塊本質上是一個交替學習算法,包含了2個交替的步驟,分別是遺忘與重新學習。
2.3.1 遺忘
這一步旨在通過遺忘從毒性樣本中學到的知識來移除后門,損失函數如下:
2.3.3 重新學習
這一步旨在通過從干凈樣本中重新學習知識來維持模型的識別準確率,損失函數如下:
3 實驗結果
3.1 D-ST的有效性
我們選取適用于安全訓練防御范式的方法DBD來作為baseline。此外,我們設計2個baseline方法。Baseline1和baseline2分別用CTL和S-CTL來訓練特征提取器,且都用標準交叉熵來訓練分類器。表1表示我們的方法D-ST不僅能夠得到較高的ACC,還能將平均ASR抑制為1.21%(在CIFAR-10數據集上,在CIFAR-100上則是0.05%)。
3.2 D-BR的有效性
我們選取5個適用于后門移除防御范式的SOTA方法來作為baselines。表2表示我們的方法D-BR不僅能夠維持高ACC,還能將平均ASR由97.29%減小至0.31%(在CIFAR-10數據集上,在CIFAR-100上則是由99.77%減小至0.07%)。
3.3 其它實驗
除了上述的主體實驗以外,我們做了大量的實驗來說明:(1)單個SD模塊的有效性,(2)單個BR模塊的有效性,(3)單個ST模塊的有效性,(4)在不同數據變換類型下方法的表現,(5)在不同干凈/毒性樣本選擇比例下方法的表現,(6)在不同投毒比例下方法的表現,(7)在不同模型結構及特征維度下方法的表現。更多的結果與分析請見原論文。
4 總結
在本文中,我們揭示了毒性樣本對數據變換的敏感性,并提出了一個敏感性度量(FCT)。此外,我們提出了樣本區分模塊(SD module),安全訓練模塊(ST module)和后門移除模塊(BR module)3個模塊,它們構成了2種適用于不同防御范式的后門防御方法(D-ST, D-BR)。大量的實驗分別證明了每個模塊與整體方法的有效性。
審核編輯 :李倩
-
模塊
+關注
關注
7文章
2719瀏覽量
47562 -
神經網絡
+關注
關注
42文章
4774瀏覽量
100890 -
數據集
+關注
關注
4文章
1208瀏覽量
24737
原文標題:NeurIPS 2022 | 一種基于毒性樣本敏感性的有效后門防御!
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
評論