色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種可以減少RNN訓練時內存需求的新方法

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-10-30 09:08 ? 次閱讀

多倫多大學的研究人員提出Reversible RNN,一種可以減少RNN訓練時內存需求的新方法,在保留模型性能的同時,將激活內存成本降低了10-15倍。

循環神經網絡(RNN)在處理序列數據方面能有很好的性能,但在訓練時需要大量內存,限制了可訓練的RNN模型的靈活性。

近日,多倫多大學Vector Institute的研究人員提出Reversible RNN,描述了一種可以減少RNN訓練時內存需求的新方法。論文題為Reversible Recurrent Neural Networks,已被NIPS 2018接收。

https://arxiv.org/pdf/1810.10999.pdf

可逆RNN(Reversible RNN)是指網絡中hidden-to-hidden的轉換可以逆向進行的RNN,這就提供了一個減少訓練的內存需求的路徑,因為隱藏狀態不需要存儲,而是可以在反向傳播期間重新計算。

這篇論文先證明了完全可逆的RNN(perfectly reversible RNNs),即不需要存儲隱藏的激活,在根本是受到限制的,因為它們不能忘記隱藏狀態的信息

然后,論文提出一種存儲少量bits的方案,以允許在遺忘時實現完美的逆轉。

這一方法實現了與傳統模型相當的性能,同時將激活內存成本降低了10-15倍。

研究人員將這一方法擴展到基于注意力的sequence-to-sequence模型,實驗證明能它能保持性能,同時在encoder中將激活內存成本降低了5-10倍,在decoder中降低了10-15倍。

可逆循環結構

用于構建RevNets的技術可以與傳統的RNN模型結合,產生reversible RNN。在本節中,我們提出了GRU和LSTM的可逆版本。

Reversible GRU

讓我們首先回顧一下用于計算下一個隱藏狀態的GRU方程,給定當前隱藏狀態和當前輸入(省略偏差):

這里,⊙表示elementwise乘法。為了使這個更新可逆,我們將隱藏狀態h分成兩組,。使用以下規則更新這些組:

注意,而不是被用于計算的更新。我們將此模型稱為可逆門控循環單元(Reversible Gated Recurrent Unit),簡稱RevGRU。

對于i = 1,2,,因為它是sigmoid函數的輸出,映射到開放區間(0,1)。這意味著RevGRU更新在精確算術中是可逆的:給定,我們可以使用。然后我們可以使用以下公式找到

Reversible LSTM

接下來我們構建一個reversible LSTM。LSTM將隱藏狀態分離為輸出狀態h和單元狀態c。更新方程是:

我們不能直接應用可逆技術,因為的非零線性變換。但可以使用以下公式實現可逆性:

使用RevLSTM。

No Forgetting的限制

我們已經證明,通過確保不丟棄任何信息,可以構建具有有限精度的reversible RNN。

但是,對于語言建模等任務,我們還是無法找到能獲得可接受性能的架構。

我們認為這是由于無遺忘可逆模型(no-forgetting reversible models)的基本限制導致的:如果任何隱藏狀態都不能被遺忘,那么任何給定時間步長的隱藏狀態必須包含足夠的信息來重建所有先前的隱藏狀態。因此,在一個時間步長上,存儲在隱藏狀態中的任何信息都必須保留在所有未來的時間步長,以確保精確的重構,從而超過了模型的存儲容量。

圖1:在重復任務上展開完全可逆模型的反向計算,得到sequence-to-sequence計算。左:重復任務本身,其中模型重復每個輸入標記。 右:展開逆轉。模型有效地使用最終隱藏狀態來重建所有輸入tokens,這意味著整個輸入序列必須存儲在最終隱藏狀態中。

我們通過考慮一個基本的序列學習任務,即重復任務,來說明這個問題。在這個任務中,RNN被輸入一個離散token的序列,并且必須在隨后的時間步長中簡單地重復每個token。

普通的RNN模型只需要少量的隱藏單元就可以輕松解決這個任務,因為它不需要建模長距離依賴關系。但請考慮一個完全可逆的模型如何執行重復任務。

展開反向計算,如圖1所示,顯示了sequence-to-sequence的計算,其中編碼器和解碼器權重相關聯。編碼器接收token并產生最終隱藏狀態。解碼器使用該最終隱藏狀態以反向順序產生輸入序列。

我們通過實驗證實,容量有限的NF-RevGRU和NF-RevLSM網絡無法解決重復任務。

有限遺忘實現可逆性

由于No Forgetting不可能,我們需要探索實現可逆性的第二種可能:在正向運算期間存儲隱藏狀態丟失的信息,然后在反向計算終恢復它。

我們研究了fractional forgetting,即允許遺忘一小部分bits。

算法1描述了可逆乘法的完整過程。

實驗和結果

我們在兩個標準RNN任務上評估了可逆模型的性能:語言建模和機器翻譯。我們希望確定使用我們開發的技術可以節省多少內存,這些節省跟使用理想緩沖區可能節省的內存有可比性嗎,以及這些內存節省是否以降低性能為代價。

表1:Penn TreeBank詞級語言建模上的驗證困惑度(內存節省)。當遺忘被限制為每個timestep 每個隱藏單元2、3和5bits,以及沒有限制的情況下的結果。

表2:WikiText-2單詞級語言建模的驗證困惑度。當遺忘被限制為每個timestep 每個隱藏單元2、3和5bits,以及沒有限制的情況下的結果。

表3:具有不同遺忘限制時Multi30K數據集上的性能。P表示測試BLEU scores; M表示訓練期間編碼器的平均內存節省。

總的來說,雖然Emb attention實現了最佳的內存節省,但Emb + 20H在性能和內存節省之間實現了最佳平衡。

具有Emb + 20H attention且遺忘最多2bits的RevGRU實現了34.41的test BLEU score,優于標準GRU,同時分別在編碼器和解碼器中將激活內存要求降低了7.1倍和14.8倍。

具有Emb + 20H attention且遺忘最多3bits的RevLSTM的test BLEU score為37.23,優于標準LSTM,同時分別在編碼器和解碼器中將激活內存要求降低了8.9倍和11.1倍。

baseline GRU和LSTM模型的測試BLEU分數分別是16.07和22.35。RevGRU的測試BLEU得分為20.70,優于GRU,同時分別在編碼器和解碼器中節省內存7.15倍和12.92倍。RevLSTM得分為22.34,與LSTM相比,分別在編碼器和解碼器中節省了8.32倍和6.57倍的內存。兩種可逆模型都被限制為最多遺忘5 bits。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4771

    瀏覽量

    100719
  • rnn
    rnn
    +關注

    關注

    0

    文章

    89

    瀏覽量

    6886

原文標題:【NIPS 2018】多倫多大學提出可逆RNN:內存大降,性能不減!

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    一種標定陀螺儀的新方法

    一種標定陀螺儀的新方法
    發表于 08-17 12:17

    一種在金上生成硫醇封端的SAM的新方法

    一種在金上生成硫醇封端的SAM的新方法 - 應用簡報
    發表于 10-30 11:05

    一種求解非線性約束優化全局最優的新方法

    本文提出了一種求解非線性約束優化的全局最優的新方法—它是基于利用非線性互補函數和不斷增加新的約束來重復解庫恩-塔克條件的非線性方程組的新方法。因為庫恩-塔克條
    發表于 08-11 10:53 ?16次下載

    一種估計小電流系統線路對地電容的新方法

    一種估計小電流系統線路對地電容的新方法 中性點絕緣系統的接地電容電流,是電力系統的重要參數之。通常采用附加電容法和金屬接地法進行
    發表于 07-11 16:33 ?823次閱讀
    <b class='flag-5'>一種</b>估計小電流系統線路對地電容的<b class='flag-5'>新方法</b>

    一種級數混合運算產生SPWM波新方法

    一種級數混合運算產生SPWM波新方法_耿衛東
    發表于 01-07 18:39 ?0次下載

    一種求解動態及不確定性優化問題的新方法

    一種求解動態及不確定性優化問題的新方法_劉曉
    發表于 01-07 18:56 ?0次下載

    一種設計同步時序邏輯電路的新方法

    一種設計同步時序邏輯電路的新方法
    發表于 02-07 15:05 ?29次下載

    PC機與單片機串行通信的一種新方法

    PC機與單片機串行通信的一種新方法
    發表于 09-04 14:20 ?4次下載
    PC機與單片機串行通信的<b class='flag-5'>一種</b><b class='flag-5'>新方法</b>

    目前微通道面臨的限制,突破硅技術的一種新方法

    有用。Yuan說道,“我們介紹了一種以纖維方式制作微流控裝置的新方法,該方法與傳統基于芯片的形式相比具有諸多優勢。”
    的頭像 發表于 12-18 15:01 ?4408次閱讀

    一種精確測量儲能成本的新方法:LCUS

    儲能成本關乎行業發展前景,但其測算方法其實非常復雜,國外家能源公司提出了一種儲能成本精確測算的新方法——Levelized Cost of Using Storage(LCUS)。
    發表于 04-06 08:40 ?1513次閱讀

    一種復制和粘貼URL的新方法

    它也存在于瀏覽器中,Microsoft Edge也不例外。但是,雷蒙德(Redmond)的用戶啟用了一種復制和粘貼URL的新方法,該方法有些簡單,但并非所有用戶都知道如何利用它。這是最合乎邏輯的,因為在瀏覽器中處理地址的
    的頭像 發表于 12-21 16:55 ?4009次閱讀

    一種改善微波模塊增益指標溫度特性的新方法

    電子發燒友網站提供《一種改善微波模塊增益指標溫度特性的新方法.pdf》資料免費下載
    發表于 10-25 10:05 ?0次下載
    <b class='flag-5'>一種</b>改善微波模塊增益指標溫度特性的<b class='flag-5'>新方法</b>

    一種產生激光脈沖的新方法

    英國和韓國的科學家提出了一種產生激光脈沖的新方法,其功率是現有激光脈沖的1000多倍。
    的頭像 發表于 11-20 16:56 ?575次閱讀
    <b class='flag-5'>一種</b>產生激光脈沖的<b class='flag-5'>新方法</b>

    一種產生激光脈沖新方法

    等離子體中脈沖壓縮的概念 英國和韓國的科學家提出了一種產生激光脈沖的新方法,其功率是現有激光脈沖的1000多倍。 科學家們使用計算機模擬聯合研究,展示了一種壓縮光的新方法,以充分提高光
    的頭像 發表于 12-07 06:32 ?497次閱讀
    <b class='flag-5'>一種</b>產生激光脈沖<b class='flag-5'>新方法</b>

    一種無透鏡成像的新方法

    使用OAM-HHG EUV光束對高度周期性結構進行成像的EUV聚光顯微鏡 為了研究微電子或光子元件中的納米級圖案,一種基于無透鏡成像的新方法可以實現近乎完美的高分辨率顯微鏡。 層析成像是一種
    的頭像 發表于 07-19 06:20 ?374次閱讀
    <b class='flag-5'>一種</b>無透鏡成像的<b class='flag-5'>新方法</b>
    主站蜘蛛池模板: 久久毛片网站| 亚洲第一页视频| 日本19xxxx撤尿| 一扒二脱三插片在线观看| 樱花草动漫www| AV多人爱爱XXx| 好硬好湿好爽再深一点视频| 热久久2018亚洲欧美| 中文字幕一区久久久久| 纯肉小黄文高H| 韩国甜性涩爱| 色欲人妻无码AV专区| 91久久线看在观草草青青 | 精品一二三区久久AAA片| 就操成人网| 亚洲欧洲自拍偷拍| 国产精品色无码AV在线观看| 青青草干免费线观看| 在教室伦流澡到高潮H女攻视频| 国产免费69成人精品视频| 久久免费精品国产72精品剧情| 小寡妇水真多好紧| 夫妻日本换H视频| 青青青青草| brazzers情欲狂欢| 国产自拍视频在线一区| 试看做受120秒免费午夜剧场| 中国xxxxx69| 国产精品久久久久久久久爆乳| 久久这里只精品热在线18| 亚洲欧美无码2017在线| 国产免费看黄的私人影院| 视频一区国产| 国产 亚洲 中文在线 字幕| 日本久久久WWW成人免费毛片丨| 99手机在线视频| 免费看的一级毛片| 91精品一区二区三区在线观看| 久久中文字幕亚洲| 中文字幕久精品视频在线观看| 九九热这里都是精品|