色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

放棄 RNN 和 LSTM 吧,它們真的不好用

8g3K_AI_Thinker ? 來源:未知 ? 作者:胡薇 ? 2018-04-25 09:43 ? 次閱讀

2014 年 RNN/LSTM 起死回生。自此,RNN/LSTM 及其變種逐漸被廣大用戶接受和認可。起初,LSTM 和 RNN 只是一種解決序列學習和序列翻譯問題的方法(seq2seq),隨后被用于語音識別并有很好的效果,比如 Siri,Cortana,Alexa 等;此外,這種技術在機器翻譯領域也有應用,比如 Google Translate。

2015-2016 年,新的 ResNet 和 Attention 技術出現。實際上,我們可以將 LSTM 理解為一種巧妙地 bypass technique,而 attention 的成功表明了 MLP(多層感知器)網絡可以被上下文向量影響的平均網絡(averaging network)所替代。

兩年過去了,我們現在已經可以給出結論:

放棄 RNN 和 LSTM 吧,它們真的不好用

基于 attention 的網絡逐漸被越來越多的企業采用,比如 Google,Facebook,Salesforce 等公司都已經開始用基于attention的模型來替換RNN和其變種。RNN 在各種應用場景下時日無多,因為相比基于 attention 的模型,RNN 需要更多的資源來訓練和運行。

編者注:訓練 RNN 和 LSTM 是非常困難的,因為計算能力受到內存和帶寬等的約束。這同時也是硬件設計者的噩夢,并最終限制了神經網絡解決方案的適用性。簡而言之,每個 LSTM 單元需要 4 個線性層(MLP 層),以便每個順序時間步運行一次。線性層需要大量的內存帶寬才能執行計算;由于系統沒有足夠的內存帶寬將數據饋送到計算單元,實際上它們無法使用許多計算單元。添加更多的計算單元很容易,但添加更多的內存帶寬卻很難。因此,RNN/LSTM 及其變種并不和硬件加速非常匹配,一個可能的解決方案就是讓計算在存儲器設備中完成。

為什么 RNN/LSTM 真的不好用?

RNN,LSTM及其變種主要使用序列處理,如下圖所示:

圖1 RNN中的序列處理

圖中的箭頭表示長期信息在進入當前的處理單元前需要有序地進入所有其他的處理單元。也就是說,這很容易通過多次乘小于 0 的數字來進行破壞和攻擊,這就是梯度消失的原因。

梯度消失可以利用 LSTM 模塊來補救,目前的 LSTM 可是看作是多交換網關,有點像 ResNet。因為 LSTM 可以繞過一些單元,對長時間的步驟進行記憶,因此 LSTM 可以一定程度上解決梯度消失的問題。

圖2 LSTM中的序列處理

從圖2可以看出,從前面的單元傳遞來當前單元的序列路徑依然存在。事實上,因為這條路徑會不斷添加并且會遺忘與之相關的路徑分支,它會變得越來越復雜。LSTM、GRU 及其變體能學習大量的長期信息,但它們最多只能記住約 100s 的長期信息,而不是 1000s,10000s 甚至更長時間的信息。

RNN 還有一個問題就是并不與所有硬件兼容。如果要快速訓練 RNN,那么就需要大量的計算資源,而這正是我們缺少的。如果在云上運行 RNN 模型的話,也會消耗比其他模型更多的資源。隨著語音轉文本需求的快速增長,云端的擴展也變得更加困難。

你需要做些什么?

因為大多數時間我們處理的都是實時的因果數據(casual data),我們想利用這些已知的數據來為之后的決策做準備。那如果可以避免進行序列處理,我們就可以找出更好的 look-ahead 和 look-back 的單元,這樣的 look-ahead/back 就叫做 neural attention 模塊。

這種補救方法融合了多個 neural attention 模塊,組成了一個分層的 neural attention 編碼器,如圖3所示:

圖3 分層 neural attention 編碼器

還有一種更好地分析過去的方法就是用 attention 模塊把過去所有的編碼向量總結為一個上下文向量 Ct。

這里還有一個 attention 模塊的分層,與神經網絡和時間卷積網絡(Temporal convolutional network)的分層非常像。分層神經 attention 編碼器的多層 attention 能查看過去信息的一小部分,比如說 100 個向量,而上面分層的attention模塊還能查看到 100 個下層的注意力模塊,也就是 100×100 個向量。這極大地擴展了分層神經 attention 編碼器的能力。

更重要的是將傳播向量傳輸到網絡輸出所需要的路徑長度:在分層網絡中,路徑長度與 Log(N)成比例的,其中 N 是分層的層數。這與 RNN 需要執行的T步驟形成了對照,其中 T 是需要記住的順序的最大長度,而 T >> N。

Neural Turing Machines(NTM,神經圖靈機)的架構也與圖3類似,但是 NTM 是讓神經網絡來決定通過 attention 從內存中讀取什么的。也就是說,真實的神經網絡將決定哪個過去的向量對未來的決策更重要。

在內存存儲方面。與 NTM 不同,上面的架構把所有之前的表示都儲存在內存里,這就會造成效率比較低的問題。有一個解決的辦法就是增加另外一個單元來防止有相互關系的數據多次保存。當前科學研究的重點是由應用去決定保存哪些向量,哪些不保存。

目前許多的公司仍在使用 RNN/LSTM 來進行語音轉文本的工作,都沒有意識到這種網絡結構在效率和可擴展性上的缺點。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3639

    瀏覽量

    134444
  • rnn
    rnn
    +關注

    關注

    0

    文章

    89

    瀏覽量

    6886

原文標題:放棄 RNN/LSTM 吧,因為真的不好用!望周知~

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    RNNLSTM模型的比較分析

    RNN(循環神經網絡)與LSTM(長短期記憶網絡)模型在深度學習領域都具有處理序列數據的能力,但它們在結構、功能和應用上存在顯著的差異。以下是對RNN
    的頭像 發表于 11-15 10:05 ?384次閱讀

    深度學習框架中的LSTM神經網絡實現

    長短期記憶(LSTM)網絡是一種特殊的循環神經網絡(RNN),能夠學習長期依賴信息。與傳統的RNN相比,LSTM通過引入門控機制來解決梯度消失和梯度爆炸問題,使其在處理序列數據時更為有
    的頭像 發表于 11-13 10:16 ?340次閱讀

    LSTM神經網絡在圖像處理中的應用

    LSTM通過引入門控機制來解決傳統RNN的梯度消失和梯度爆炸問題。這些門控機制包括輸入門、遺忘門和輸出門,它們控制著信息的流動,使得網絡能夠記住或忘記信息。 LSTM在圖像處理中的應
    的頭像 發表于 11-13 10:12 ?380次閱讀

    LSTM神經網絡在語音識別中的應用實例

    神經網絡簡介 LSTM是一種特殊的循環神經網絡(RNN),它能夠學習長期依賴關系。在傳統的RNN中,信息會隨著時間的流逝而逐漸消失,導致網絡難以捕捉長距離的依賴關系。LSTM通過引入門
    的頭像 發表于 11-13 10:03 ?475次閱讀

    LSTM神經網絡的調參技巧

    長短時記憶網絡(Long Short-Term Memory, LSTM)是一種特殊的循環神經網絡(RNN),它能夠學習長期依賴信息。在實際應用中,LSTM網絡的調參是一個復雜且關鍵的過程,直接影響
    的頭像 發表于 11-13 10:01 ?532次閱讀

    LSTM神經網絡與傳統RNN的區別

    在深度學習領域,循環神經網絡(RNN)因其能夠處理序列數據而受到廣泛關注。然而,傳統RNN在處理長序列時存在梯度消失或梯度爆炸的問題。為了解決這一問題,LSTM(長短期記憶)神經網絡應運而生。 循環
    的頭像 發表于 11-13 09:58 ?280次閱讀

    LSTM神經網絡的優缺點分析

    長短期記憶(Long Short-Term Memory, LSTM)神經網絡是一種特殊的循環神經網絡(RNN),由Hochreiter和Schmidhuber在1997年提出。LSTM因其在處理
    的頭像 發表于 11-13 09:57 ?1058次閱讀

    使用LSTM神經網絡處理自然語言處理任務

    自然語言處理(NLP)是人工智能領域的一個重要分支,它旨在使計算機能夠理解、解釋和生成人類語言。隨著深度學習技術的發展,特別是循環神經網絡(RNN)及其變體——長短期記憶(LSTM)網絡的出現
    的頭像 發表于 11-13 09:56 ?374次閱讀

    LSTM神經網絡在時間序列預測中的應用

    LSTM是一種特殊的循環神經網絡(RNN),它能夠學習長期依賴關系。與傳統的RNN相比,LSTM通過引入門控機制(輸入門、遺忘門、輸出門)來解決梯度消失和梯度爆炸的問題,使其能夠處理
    的頭像 發表于 11-13 09:54 ?569次閱讀

    LSTM神經網絡的基本原理 如何實現LSTM神經網絡

    LSTM(長短期記憶)神經網絡是一種特殊的循環神經網絡(RNN),它能夠學習長期依賴信息。在處理序列數據時,如時間序列分析、自然語言處理等,LSTM因其能夠有效地捕捉時間序列中的長期依賴關系而受到
    的頭像 發表于 11-13 09:53 ?380次閱讀

    請問class D類運放不好用作驅動headphone的原因有哪些?

    請問class D類運放不好用作驅動headphone的原因除了EMI問題,還有沒有其它問題的限制,導致TI沒有生產class D的headphone功
    發表于 11-04 08:06

    LSTM模型的基本組成

    長短期記憶網絡(Long Short-Term Memory, LSTM)是一種特殊的循環神經網絡(RNN)架構,它在處理序列數據時能夠捕捉長期依賴關系,有效解決了傳統RNN在處理長序列時容易出現
    的頭像 發表于 07-10 17:01 ?1217次閱讀

    藍牙信標是什么?藍牙信標好不好用?

    是什么,另外這好不好用呢? 以新銳科創藍牙信標為例 一、藍牙信標是什么? 通過名字我們不難看出,其實藍牙信標的基本用途與藍牙還是有一定關系的,它實際上是一個Beacon設備。一般它都會被放在室內的一個固定位置,然后可以
    的頭像 發表于 07-09 16:32 ?537次閱讀
    藍牙信標是什么?藍牙信標好<b class='flag-5'>不好用</b>?

    如何理解RNNLSTM神經網絡

    在深入探討RNN(Recurrent Neural Network,循環神經網絡)與LSTM(Long Short-Term Memory,長短期記憶網絡)神經網絡之前,我們首先需要明確它們
    的頭像 發表于 07-09 11:12 ?634次閱讀

    stm32L0串口接收不好用是什么原因導致的?

    stm32L0系列串口在使用中出現,一段時間后串口接收就不好用了,各位能不能給一下使用經驗。
    發表于 07-04 07:42
    主站蜘蛛池模板: 亚洲国产精品无码中文字满| 老湿影院色情a| 二级片免费看| 99久久综合| 777久久人妻少妇嫩草AV蜜桃| 一个人免费观看在线视频播放| 亚洲.欧美.中文字幕在线观看| 特级做A爰片毛片免费69| 日本无翼恶漫画大全优优漫画| 暖暖 日本 视频 在线观看免费| 麻豆最新免费版| 美女在线永久免费网站| 久久亚洲人成网站| 久久这里只精品热在线18| 久久久精品久久久久三级| 久久久黄色大片| 美女的避毛| 蜜桃传媒在线播放| 男生在床上脱美女 胸| 女生扒开尿口| 日本三级床震| 天天狠狠弄夜夜狠狠躁·太爽了 | va亚洲va天堂va视频在线| 99热国产这里只有精品6| japanesematur乱儿| videosgrati欧美另类| 高清撒尿hdtube撒尿| 国产成人在线视频| 国产欧美一区二区三区视频| 国精产品一区一区三区有限在线 | 国产福利视频一区二区| 国产精品你懂的在线播放| 国产亚洲精品线观看不卡| 黄色a级免费网站| 伦理片天堂eeuss影院| 女人色极品影院| 双性将军粗壮H灌满怀孕| 亚洲精品久久久一区| 影音先锋xfplay影院av| 99久久国语露脸精品国产| 高清欧美性猛交xxxx黑人猛交|