亚洲男人的天堂久久香蕉网,四虎影院在线网址,我在厨房他在下添的好爽

本文作者重新審視了ResNet之所以工作的原因，得出結論:ResNet本質上就干了一件事：降低數(shù)據中信息的冗余度。

最近在總結完成語義分割任務的輕量級神經網絡時，看到了MobileNetV2中對于ReLU層的思考，于是我也回過頭重新審視ResNet之所以work的本質原因。以下是一些個人的見解，如有錯誤，還望及時指正。

在談及ResNet之前，我們先聊聊故事的背景。

我們知道，在神經網絡中，非線性激活層可以為模型引入了非線性，讓模型具有更強的擬合能力。如果只是單純的線性操作層的疊加，則完全可以等價為一個線性層，這就浪費了深度神經網絡的一身好本領。

所謂針無兩頭尖，那么非線性激活層會帶來一些什么問題呢？我們以ReLU為例來進行說明，其他非線性激活層亦同理。

首先，最直觀的，從實驗中我們可以注意到一個事實：ReLU 會造成的低維數(shù)據的坍塌（collapse）。顧名思義，即是說，低維度的feature在通過ReLU的時候，這個feature會像塌方了一樣，有一部分被毀掉了，或者說失去了。能恢復嗎？能，但是基本無法百分百還原了。

具體表現(xiàn)出來就是：若是我們對一個feature，先通過一個給定的變換規(guī)則T，將它映射到它的embeddingspace中，再在該embeddingspace中，利用一個ReLU去處理該feature，最后再把這個feature以同樣的變換規(guī)則（逆方向）給映射回原始空間，我們會發(fā)現(xiàn)，這時，這個feature已經變得連親媽都不認得了。如圖↓

圖片來自《MobileNetV2:InvertedResidualsandLinearBottlenecks》

ReLU這個東西，其實就是一個濾波器，只不過這個濾波器的作用域不是信號處理中的頻域，而是特征域。那么濾波器又有什么作用呢？維度壓縮，俗話說就是降維啦：如果我們有m個feature被送入ReLU層，過濾剩下n個（n

那么，為什么低維數(shù)據流經非線性激活層會發(fā)生坍塌（信息丟失），而高維數(shù)據就不會呢？

打個簡單但不嚴謹?shù)谋确剑捍蠹叶加羞^年搶高鐵票的經驗吧？幾個人（維度低）幫你搶一張票，肯定沒有一群人（維度高）幫你搶一張票，成功的概率高啊。幾個人里面，大概率全軍覆沒，沒一個能幫上你忙的。而一群人里面，大概率總有那么一個手速驚人的單身青年，幫你搶到你心心念念的回家票。

在數(shù)據上也是一個道理，維度低的feature，分布到ReLU的激活帶上的概率小，因此經過后信息丟失嚴重，甚至可能完全丟失。而維度高的feature，分布到ReLU的激活帶上的概率大，雖然可能也會有信息的部分丟失，但是無傷大雅，大部分的信息仍然得以保留。所謂留得青山在，不愁沒柴燒嘛。更何況被ReLU截殺的信息，可能只是一些無用游民（冗余信息）。

那么數(shù)據的坍塌，是個很嚴重的事嗎？

那事兒可大了。如果把神經網絡比作一個人的話，你這就是給它的某個部位的血管里，丟了個血栓。

當信息無法流過ReLU時，該神經元的輸出就會變?yōu)?。而在反向傳播的過程中，ReLU對0值的梯度為0，即發(fā)生了梯度消失，這將導致神經元的權重無法再通過梯度下降法進行更新，這種現(xiàn)象被稱為特征退化。所以這個神經元相當于死掉了，喪失了學習能力。我們說，一旦神經元的輸出陷入0值，就無法恢復了。

那么，我們應該怎么去規(guī)避數(shù)據的坍塌呢？非線性激活層到底是個什么樣的東西？

其實，對于一個數(shù)據，利用非線性激活層對其進行激活，其實是從該數(shù)據的信息中提取出其潛在的稀疏性，但是這種提取的結果是否正確，就要分情況討論了。

對于一個M維的數(shù)據，我們可以將其看成是在M維空間中的一個M維流形（manifold）。而其中的有用信息，就是在該M維空間中的一個子空間（子空間的維度記為N維，N<=M）中的一個?N?維流形。非線性激活層相當于壓縮了這個?M?維空間的維度（還記得前面提過的維度壓縮嗎？）。若是該?M?維空間中的?M?維流形本來就不含有冗余信息（M=N），那么再對其進行維度壓縮，必然導致信息的丟失。

而維度低的數(shù)據其實就是這么一種情況：其信息的冗余度高的可能性本來就低，如果強行對其進行非線性激活（維度壓縮），則很有可能丟失掉有用信息，甚至丟失掉全部信息（輸出為全0）。

與非線性激活層不同的是，線性激活層并不壓縮特征空間的維度。于是，我們得到了一條使用激活層的原則：

對含有冗余信息的數(shù)據使用非線性激活（如ReLU），對不含冗余信息的數(shù)據使用線性激活（如一些線性變換）。

兩種類型的激活交替靈活使用，以同時兼顧非線性和信息的完整性。

由于冗余信息和非冗余信息所攜帶的有用信息是一樣多的，因此在設計網絡時，對內存消耗大的結構最好是用在非冗余信息上。

根據以上的原則設計出來的結構，聰明的你想到了什么？ResNet。不得不贊嘆KaimingHe的天才，ResNet這東西，描述起來固然簡單，但是對它的理解每深一層，就會愈發(fā)發(fā)現(xiàn)它的精妙及優(yōu)雅，從數(shù)學上解釋起來非常簡潔，非常令人信服，而且直切傳統(tǒng)痛點。

ResNet本質上就干了一件事：降低數(shù)據中信息的冗余度。

具體說來，就是對非冗余信息采用了線性激活（通過skipconnection獲得無冗余的identity部分），然后對冗余信息采用了非線性激活（通過ReLU對identity之外的其余部分進行信息提取/過濾，提取出的有用信息即是殘差）。

其中，提取 identity 這一步，就是 ResNet 思想的核心。

從本文的觀點來看，因為從數(shù)據中拿掉了非冗余信息的identity部分，會導致余下部分的信息冗余度變高。這就像從接近飽和的溶液中移走了一部分溶質，會使得剩下的溶液的飽和度降低，一個道理。

在這里也引用一下其他的一些觀點，方便大家可以從一個更全面的角度去看這個問題：

從特征復用的觀點來看，提取identity部分，可以讓網絡不用再去學習一個identitymapping（雖然是一樣的東西，但是畢竟又要從頭學起，講真，換你來試試，這其實真的不容易學到），而是直接學習residual。這就輕松愉快多了：站在巨人的肩膀上，做一點微小的工作什么的...

既然說了ResNet解決的痛點，也順便多說幾句它帶來的好處：

由于identity之外的其余部分的信息冗余度較高，因此在對其使用ReLU進行非線性激活時，丟失的有用信息也會較少，ReLU層輸出為0的可能性也會較低。這就降低了在反向傳播時ReLU的梯度消失的概率，從而便于網絡的加深，以大大地發(fā)揮深度網絡的潛能。

特征復用能加快模型的學習速度，因為參數(shù)的優(yōu)化收斂得快（從identity的基礎上直接學習殘差，總比從頭學習全部來得快）。

最后是兩個小tips：

如果一個信息可以完整地流過一個非線性激活層，則這個非線性激活層對于這個信息而言，相當于僅僅作了一個線性激活。

解決由非線性激活導致的反向傳播梯度消失的竅門，就是要提高進行非線性激活的信息的冗余度。

如果您覺得本文對您有所幫助，請高抬貴手點個贊～

接下來會填之前語義軟分割的坑和圖神經網絡的坑，還有一些雜七雜八的：如姿態(tài)估計網絡啦、deepSLAM啦、視覺跟蹤網絡啦、VQA啦...最近光忙著看paper和寫筆記了，有空再整理后發(fā)上來。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4772

瀏覽量
100855
冗余

冗余

+關注

關注
1

文章
111

瀏覽量
20238
resnet

resnet

+關注

關注
0

文章
12

瀏覽量
3171

原文標題：對 ResNet 本質的一些思考

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關注！文章轉載請注明出處。

色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

搜索歷史

ResNet本質上就干了一件事：降低數(shù)據中信息的冗余度。

評論

為什么做一件事或者學習FPGA每隔一段時間就會感覺遇到瓶頸呢？

[原創(chuàng)]每天做好一件事

什么叫做“每天6件事”，如何落實“每天6件事”

學習C2000，大學里最值得干的一件事

干貨-背鉆工藝，超高速信號電路板必須要做的一件事！

提高電源冗余度的結構分析

小米神話被華為OV聯(lián)手打敗，只因為雷軍常做這三件事

超冗余度桁架機械臂的容錯逆運動學仿真_趙普

10年專注一件事，OPPO品牌獲年輕用戶認可

什么叫冗余度

馬云從企業(yè)家到師者的決然轉身，教會給了人們的第一件事

希捷就只做了一件事兒，對此，你怎么看？

如何正確看待人工智能時代的發(fā)展

為ADAS構建時需要考慮的6件事說明

江波龍電子丨商業(yè)往事第69話：每一件事都可以有策略