NeurIPS 2022 | Parameter-Efficient Masking Networks,美國東北大學(xué),羅切斯特理工等,提出參數(shù)集約型掩碼網(wǎng)絡(luò),探索有限數(shù)量隨機數(shù)的表征能力并提升神經(jīng)網(wǎng)絡(luò)儲存和傳輸效率。
為了處理更復(fù)雜的任務(wù),近年來神經(jīng)網(wǎng)絡(luò)的規(guī)模也在不斷變大,如何高效的儲存和傳輸神經(jīng)網(wǎng)絡(luò)變得十分重要。另一方面,隨著彩票假說(Lottery Ticket Hypothesis (LTH))的提出,隨機稀疏神經(jīng)網(wǎng)絡(luò)最近展現(xiàn)出很強的潛力,如何利用這種潛力來提高網(wǎng)絡(luò)的存儲和傳輸效率也很值得探索。
來自美國東北大學(xué)和羅切斯特理工的研究者提出參數(shù)集約型掩碼網(wǎng)絡(luò)(Parameter-Efficient Masking Networks (PEMN))。作者首先探索了有限數(shù)量隨機數(shù)生成的隨機網(wǎng)絡(luò)的表征能力。實驗表明,即使網(wǎng)絡(luò)由有限數(shù)量的隨機數(shù)生成,通過選擇不同的子網(wǎng)絡(luò)結(jié)構(gòu),其依然具有很好的表征能力。通過這種探索性實驗,作者自然地提出使用一組有限數(shù)量隨機數(shù)作為prototype,結(jié)合一組mask來表達一個神經(jīng)網(wǎng)絡(luò)。因為有限數(shù)量的隨機數(shù)和二值的mask占用很少的儲存空間,作者以此來提出一種新的思路來進行網(wǎng)絡(luò)壓縮。文章已被NeurIPS 2022 接受。代碼已開源。
Parameter-Efficient Masking Networks
論文地址: https://arxiv.org/abs/2210.06699
論文代碼: https://github.com/yueb17/PEMN
1. 相關(guān)研究
MIT研究人員提出彩票假說 Lottery Ticket Hypothesis (ICLR’19):在一個隨機初始化網(wǎng)絡(luò)中,存在一個彩票子網(wǎng)絡(luò)(winning ticket)在被單獨訓(xùn)練的情況下達到很好的效果。彩票假說探索了隨機稀疏網(wǎng)絡(luò)的可訓(xùn)練性。Uber研究人員提出Supermask (NeurIPS’19):在一個隨機初始化網(wǎng)絡(luò)中,存在一個子網(wǎng)絡(luò),可以直接用來做推斷而不需要訓(xùn)練。Supermask探索了隨機稀疏網(wǎng)絡(luò)的可用性。華盛頓大學(xué)研究人員提出Edge-Popup (CVPR’20):通過反向傳播學(xué)習(xí)子網(wǎng)絡(luò)的mask,大幅提升了隨機稀疏網(wǎng)絡(luò)的可用性。
2. 研究動機/流程
以上相關(guān)研究從不同角度探索了隨機稀疏網(wǎng)絡(luò)的潛力,如可訓(xùn)練性和可用性,其中可用性也可以理解為表征能力。在此工作中,作者感興趣的是由隨機數(shù)生成的神經(jīng)網(wǎng)絡(luò)在不訓(xùn)練權(quán)重的情況下有多強的表征能力。隨著對該問題的探索,作者提出了Parameter-Efficient Masking Networks (PEMN)。自然地,作者運用PEMN為網(wǎng)絡(luò)壓縮提供了一種新的思路,并作為一個例子對PEMN的潛在應(yīng)用場景進行探索。
3. 探索隨機數(shù)構(gòu)成的神經(jīng)網(wǎng)絡(luò)的表征能力
給定一個隨機網(wǎng)絡(luò),作者選擇Edge-Popup算法在其中選擇子網(wǎng)絡(luò)來探索其表征能力。不同的是,相對于對整個網(wǎng)絡(luò)進行隨機初始化,作者提出了三種參數(shù)集約型的網(wǎng)絡(luò)生成策略來使用一個prototype構(gòu)建隨機網(wǎng)絡(luò)。
One-layer: 選擇網(wǎng)絡(luò)中重復(fù)結(jié)構(gòu)的權(quán)重作為prototype來填充其他的與之結(jié)構(gòu)相同的網(wǎng)絡(luò)層。
Max-layer padding (MP): 選擇參數(shù)量最多的網(wǎng)絡(luò)層作為prototype并且截斷相應(yīng)的參數(shù)量來填充其他網(wǎng)絡(luò)層。
Random vector padding (RP): 選擇一定長度的隨機向量作為prototype并對其進行復(fù)制來填充整個網(wǎng)絡(luò)。
三種不同的隨機網(wǎng)絡(luò)生成策略把網(wǎng)絡(luò)中不重復(fù)參數(shù)值(unique values)的數(shù)量逐步變小,我們基于不同策略得到的隨機網(wǎng)絡(luò)來選擇子網(wǎng)絡(luò),從而探索了有限數(shù)量隨機數(shù)生成的隨機網(wǎng)絡(luò)的表征潛力。
上圖展示了使用ConvMixer 和 ViT 網(wǎng)絡(luò)CIFAR10圖像分類的實驗結(jié)果。Y軸為準確率,X軸為使用不同策略得到的隨機網(wǎng)絡(luò)。隨之X軸的變大,隨機網(wǎng)絡(luò)中不重復(fù)隨機數(shù)數(shù)量逐漸變小 (RP后的數(shù)字表示相比較于MP,RP中不重復(fù)隨機數(shù)數(shù)量的比例)。根據(jù)實驗結(jié)果,我們觀察到即使隨機網(wǎng)絡(luò)只有非常有限的不重復(fù)隨機數(shù)(比如PR_1e-3),依然可以很好的維持選擇出來的子網(wǎng)絡(luò)的表征能力。至此,作者通過不同的隨機網(wǎng)絡(luò)生成策略,探索了有限數(shù)量隨機數(shù)構(gòu)成的神經(jīng)網(wǎng)絡(luò)的表征能力并觀察到即使不重復(fù)隨機數(shù)非常有限,其對應(yīng)的隨機網(wǎng)絡(luò)依然可以很好地對數(shù)據(jù)進行表征。同時作者基于這些隨機網(wǎng)絡(luò)生成策略,結(jié)合所得到的子網(wǎng)絡(luò)掩碼,提出了Parameter-Efficient Masking Networks(PEMN)這種新的神經(jīng)網(wǎng)絡(luò)類型。
4. 一種新的網(wǎng)絡(luò)壓縮思路
本文選擇了神經(jīng)網(wǎng)路壓縮為例來拓展PEMN的潛在應(yīng)用。具體來說,文中所提出的不同隨機網(wǎng)絡(luò)生成策略可以高效的使用prototype來代表完整的隨機網(wǎng)絡(luò),尤其是最細粒度的random vector padding (RP)策略。作者使用RP策略中的隨機向量prototype和與之對應(yīng)的一組子網(wǎng)絡(luò)掩碼來表示一個隨機網(wǎng)絡(luò)。在其中prototype需要保存浮點數(shù)格式,而掩碼只需要保存成二值格式。因為RP中的prototype長度可以很短(因為有限數(shù)量的不重復(fù)隨機數(shù)仍有很強的表征能力),所以表示一個神經(jīng)網(wǎng)絡(luò)的開銷會變得很小,即儲存一個長度有限的浮點數(shù)格式的隨機向量和一組二值格式的掩碼。相比較于傳統(tǒng)的稀疏網(wǎng)絡(luò)儲存子網(wǎng)絡(luò)的浮點值,本文提出了一種新的網(wǎng)絡(luò)壓縮思路用來高效的儲存和傳輸神經(jīng)網(wǎng)絡(luò)。
在上圖中,作者使用PEMN對網(wǎng)絡(luò)進行壓縮并與傳統(tǒng)的網(wǎng)絡(luò)剪枝方法進行對比。實驗使用ResNet網(wǎng)絡(luò)在CIFAR數(shù)據(jù)集做圖像分類任務(wù)。我們觀察到,新的壓縮方案表現(xiàn)普遍優(yōu)于傳統(tǒng)的網(wǎng)絡(luò)剪枝,尤其是在很高的壓縮率下,PEMN仍然可以維持較好的準確率。
5. 結(jié)論
本文受近來隨機網(wǎng)絡(luò)展現(xiàn)出來的潛力所啟發(fā),提出不同種參數(shù)集約策略來構(gòu)建隨機神經(jīng)網(wǎng)絡(luò),進而探索了在只有有限的不重復(fù)隨機數(shù)的情況下所生成的隨機神經(jīng)網(wǎng)絡(luò)的表征潛力,并提出參數(shù)集約型掩碼網(wǎng)絡(luò)Parameter-Efficient Masking Networks (PEMN)。作者將PEMN應(yīng)用到網(wǎng)絡(luò)壓縮的場景中探索了其在實際應(yīng)用方面的潛力并且為網(wǎng)絡(luò)壓縮提供了一種新的思路。作者提供了廣泛的實驗,表明了即使隨機網(wǎng)絡(luò)中只有非常有限的不重復(fù)隨機數(shù),通過子網(wǎng)絡(luò)的選擇,其依然有較好的表征能力。此外,相比較于傳統(tǒng)剪枝算法,實驗表明新提出的方法可以取得更好的網(wǎng)絡(luò)壓縮效果,驗證了PEMN在該場景下的應(yīng)用潛力。
審核編輯 :李倩
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4774瀏覽量
100890 -
算法
+關(guān)注
關(guān)注
23文章
4620瀏覽量
93048
原文標題:NeurIPS 2022 | PEMN:參數(shù)集約型掩碼網(wǎng)絡(luò)
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論