色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

使用巧妙的集成方法改進(jìn)了神經(jīng)網(wǎng)絡(luò)的優(yōu)化過(guò)程

zhKF_jqr_AI ? 來(lái)源:未知 ? 作者:李倩 ? 2018-05-04 11:40 ? 次閱讀

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)集成

傳統(tǒng)上,集成組合若干不同的模型,讓它們基于相同的輸入做出預(yù)測(cè)。接著通過(guò)某種平均化方法決定集成的最終預(yù)測(cè)。可能是通過(guò)簡(jiǎn)單的投票或取均值,也可能是通過(guò)另一個(gè)模型,該模型基于集成模型的結(jié)果學(xué)習(xí)預(yù)測(cè)正確值或標(biāo)簽。嶺回歸是一種組合若干預(yù)測(cè)的特定方法,Kaggle競(jìng)賽冠軍使用過(guò)這一方法。

集成應(yīng)用于深度學(xué)習(xí)時(shí),組合若干網(wǎng)絡(luò)的預(yù)測(cè)以得到最終預(yù)測(cè)。通常,使用不同架構(gòu)的神經(jīng)網(wǎng)絡(luò)比較好,因?yàn)椴煌軜?gòu)的網(wǎng)絡(luò)更可能在不同的訓(xùn)練樣本上犯錯(cuò),因而集成的收益會(huì)更大。

然而,你也可以集成同一架構(gòu)的模型,并得到出乎意料的好效果。比如,在這篇快照集成的論文中,作者在訓(xùn)練同一個(gè)網(wǎng)絡(luò)時(shí)保存了權(quán)重快照,在訓(xùn)練之后,創(chuàng)建了同一架構(gòu)、不同權(quán)重的網(wǎng)絡(luò)集成。這可以提升測(cè)試表現(xiàn),同時(shí)也是一個(gè)非常節(jié)省開銷的方法,因?yàn)槟阒挥?xùn)練一個(gè)模型,訓(xùn)練一次,只不過(guò)不時(shí)地保存權(quán)重。

每個(gè)學(xué)習(xí)率周期末尾保存模型;圖片來(lái)源:原論文

你可以閱讀文章開頭提到的Vitaly Bushaev的博客文章了解細(xì)節(jié)。如果你到目前為止還沒(méi)有嘗試過(guò)周期性學(xué)習(xí)率,那你真應(yīng)該嘗試一下,它正在成為當(dāng)前最先進(jìn)的技術(shù),而且非常簡(jiǎn)單,算力負(fù)擔(dān)也不重,可以說(shuō)是在幾乎不增加額外開銷的前提下提供顯著的增益。

快照集成使用周期性學(xué)習(xí)率退火;圖片來(lái)源:Vitaly Bushaev

上面所有的例子都是模型空間內(nèi)的集成,組合若干模型,接著使用這些模型的預(yù)測(cè)以得到最終模型。

而本文開頭提到的論文,作者提出的是權(quán)重空間內(nèi)的集成。該方法通過(guò)組合同一網(wǎng)絡(luò)在訓(xùn)練的不同階段的權(quán)重得到一個(gè)集成,接著使用組合的權(quán)重做出預(yù)測(cè)。這一方法有兩大優(yōu)勢(shì):

組合權(quán)重后,我們最終仍然得到一個(gè)模型,這有利于加速預(yù)測(cè)。

該方法超過(guò)了當(dāng)前最先進(jìn)的快照集成。

在我們看看這一方法是如何工作之前,我們需要先理解損失平面(loss surface)和概化解(generalizable solution)。

權(quán)重空間的解

第一個(gè)重要的洞見是,一個(gè)訓(xùn)練好的網(wǎng)絡(luò)是多維權(quán)重空間中的一點(diǎn)。對(duì)任何給定的架構(gòu)而言,每個(gè)不同的網(wǎng)絡(luò)權(quán)重組合產(chǎn)生一個(gè)不同的模型。任何給定架構(gòu)都有無(wú)窮的權(quán)重組合,因而有無(wú)窮的解。訓(xùn)練神經(jīng)網(wǎng)絡(luò)的目標(biāo)是找到一個(gè)特定的解(權(quán)重空間中的點(diǎn)),使得訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集上的損失函數(shù)的值都比較低。

在訓(xùn)練中,訓(xùn)練算法通過(guò)改變權(quán)重來(lái)改變網(wǎng)絡(luò)并在權(quán)重空間中漫游。梯度下降算法在一個(gè)損失平面上漫游,該平面的海拔為損失函數(shù)的值。

狹窄最優(yōu)和平坦最優(yōu)

可視化和理解多維權(quán)重空間的幾何學(xué)非常困難。與此同時(shí),了解它又非常重要,因?yàn)殡S機(jī)梯度下降本質(zhì)上是在訓(xùn)練時(shí)穿過(guò)這一高維空間中的損失平面,試圖找到一個(gè)良好的解——損失平面上的一“點(diǎn)”,那里損失值較低。研究表明,這一平面有很多局部最優(yōu)值。但這些局部最優(yōu)值并不同樣良好。

為了處理一個(gè)14維空間中的超平面,可視化一個(gè)3維空間,然后大聲對(duì)自己說(shuō)“十四”。每個(gè)人都這么做。

-- Hinton (出處:coursera課程)

可以區(qū)分良好的解與糟糕的解的一個(gè)量度是平坦性(flatness)。背后的想法是訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集會(huì)產(chǎn)生相似但不是完全一樣的損失平面。你可以將其想象為測(cè)試平面相對(duì)訓(xùn)練平面平移了一點(diǎn)。對(duì)一個(gè)狹窄的解而言,測(cè)試時(shí)期,損失較低的點(diǎn)可能因?yàn)檫@一平移產(chǎn)生變?yōu)閾p失較高的點(diǎn)。這意味著這一狹窄的解概括性不好——訓(xùn)練損失低,測(cè)試損失高。另一方面,對(duì)于寬而平的解而言,這一平移造成的訓(xùn)練損失和測(cè)試損失間的差異較小。

我解釋了兩種解之間的差異,因?yàn)楸疚年P(guān)注的新方法可以導(dǎo)向良好、寬闊的解。

快照集成

起初,SGD會(huì)在權(quán)重空間中跳一大步。接著,由于余弦退火,學(xué)習(xí)率會(huì)降低,SGD將收斂于某個(gè)局部解,算法將保存一個(gè)模型的“快照”。接著學(xué)習(xí)率重置為高值,SGD再次邁一大步,以此類推。

快照集成的周期長(zhǎng)度為20到40個(gè)epoch。較長(zhǎng)的學(xué)習(xí)率周期是為了在權(quán)重空間中找到足夠不同的模型,以發(fā)揮集成的優(yōu)勢(shì)。

快照集成表現(xiàn)優(yōu)異,提升了模型的表現(xiàn),但是快速幾何集成(Fast Geometric Ensembling)效果更好。

快速幾何集成(FGE)

快速幾何集成和快照集成非常相似。它們的不同主要有兩點(diǎn)。第一,快速幾何集成使用線性分段周期學(xué)習(xí)率規(guī)劃,而不是余弦退火。第二,F(xiàn)GE的周期長(zhǎng)度要短得多——2到4個(gè)epoch。這是因?yàn)樽髡甙l(fā)現(xiàn),在足夠不同的模型之間,存在著損失較低的連通路徑。沿著這些路徑小步前進(jìn)所得的模型差異較大,足夠發(fā)揮集成的優(yōu)勢(shì)。因此,相比快照集成,F(xiàn)GE表現(xiàn)更好,搜尋模型的步調(diào)更小(步調(diào)更小使其訓(xùn)練更快)。

如上圖左側(cè)的圖像所示,根據(jù)傳統(tǒng)的直覺(jué),良好的局部極小值被高損失區(qū)域分隔開來(lái)(圖中虛線)。而上圖中、右的圖像顯示,局部極小值之間存在著路徑,這些路徑上的損失都很低(圖中實(shí)線)。FGE沿著這些路徑保存快照,從而創(chuàng)建快照的集成。

快照集成和FGE都需要儲(chǔ)存多個(gè)模型,接著讓每個(gè)模型做出預(yù)測(cè),之后加以平均以得到最終預(yù)測(cè)。因此,我們?yōu)榧傻念~外表現(xiàn)支付了更高的算力代價(jià)。所以天下沒(méi)有免費(fèi)的午餐。真的沒(méi)有嗎?讓我們看看隨機(jī)加權(quán)平均吧。

隨機(jī)加權(quán)平均(SWA)

隨機(jī)加權(quán)平均只需快速集合集成的一小部分算力,就可以接近其表現(xiàn)。SWA導(dǎo)向我之前提到過(guò)的廣闊的極小值。在經(jīng)典定義下,SWA不算集成,因?yàn)樵谟?xùn)練的最終階段你得到一個(gè)模型,但它的表現(xiàn)超過(guò)了快照集成,接近FGE。

SWA的直覺(jué)來(lái)自以下由經(jīng)驗(yàn)得到的觀察:每個(gè)學(xué)習(xí)率周期得到的局部極小值傾向于堆積在損失平面的低損失值區(qū)域的邊緣(上圖左側(cè)的圖形中,褐色區(qū)域誤差較低,點(diǎn)W1、W2、3分別表示3個(gè)獨(dú)立訓(xùn)練的網(wǎng)絡(luò),位于褐色區(qū)域的邊緣)。對(duì)這些點(diǎn)取平均值,可能得到一個(gè)寬闊的概化解,其損失更低(上圖左側(cè)圖形中的WSWA)。

上圖中間的圖形顯示,WSWA在測(cè)試集上的表現(xiàn)超越了SGD。而上圖右側(cè)的圖形顯示,WSWA在訓(xùn)練時(shí)的損失比SGD要高。結(jié)合WSWA在測(cè)試集上優(yōu)于SGD的表現(xiàn),這意味著盡管WSWA訓(xùn)練時(shí)的損失較高,它的概括性更好。

下面是SWA的工作機(jī)制。SWA只保存兩個(gè)模型,而不是許多模型的集成:

第一個(gè)模型保存模型權(quán)重的平均值(wSWA)。在訓(xùn)練結(jié)束后,它將是用于預(yù)測(cè)的最終模型。

第二個(gè)模型(w)將穿過(guò)權(quán)重空間,基于周期性學(xué)習(xí)率規(guī)劃探索權(quán)重空間。

SWA權(quán)重更新公式;

在每個(gè)學(xué)習(xí)率周期的末尾,第二個(gè)模型的當(dāng)前權(quán)重將用來(lái)更新第一個(gè)模型的權(quán)重(公式見上)。因此,訓(xùn)練階段中,只需訓(xùn)練一個(gè)模型,并在內(nèi)存中儲(chǔ)存兩個(gè)模型。預(yù)測(cè)時(shí)只需要平均模型,基于其進(jìn)行預(yù)測(cè)將比之前描述的集成快很多,因?yàn)樵诩芍校阈枰褂枚鄠€(gè)模型進(jìn)行預(yù)測(cè),最后進(jìn)行平均。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 集成
    +關(guān)注

    關(guān)注

    1

    文章

    176

    瀏覽量

    30231
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4771

    瀏覽量

    100719
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5500

    瀏覽量

    121113

原文標(biāo)題:權(quán)重空間集成學(xué)習(xí)背后的直覺(jué)

文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    粒子群優(yōu)化模糊神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別中的應(yīng)用

    針對(duì)模糊神經(jīng)網(wǎng)絡(luò)訓(xùn)練采用BP算法比較依賴于網(wǎng)絡(luò)的初始條件,訓(xùn)練時(shí)間較長(zhǎng),容易陷入局部極值的缺點(diǎn),利用粒子群優(yōu)化算法(PSO)的全局搜索性能,將PSO用于模糊神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
    發(fā)表于 05-06 09:05

    求助基于labview的神經(jīng)網(wǎng)絡(luò)pid控制

    小女子做基于labview的蒸發(fā)過(guò)程中液位的控制,想使用神經(jīng)網(wǎng)絡(luò)pid控制,請(qǐng)問(wèn)這個(gè)控制方法可以嗎?有誰(shuí)會(huì)神經(jīng)網(wǎng)絡(luò)pid控制么。。。叩謝
    發(fā)表于 09-23 13:43

    如何構(gòu)建神經(jīng)網(wǎng)絡(luò)

    原文鏈接:http://tecdat.cn/?p=5725 神經(jīng)網(wǎng)絡(luò)是一種基于現(xiàn)有數(shù)據(jù)創(chuàng)建預(yù)測(cè)的計(jì)算系統(tǒng)。如何構(gòu)建神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)包括:輸入層:根據(jù)現(xiàn)有數(shù)據(jù)獲取輸入的層隱藏層:使用反向傳播優(yōu)
    發(fā)表于 07-12 08:02

    卷積神經(jīng)網(wǎng)絡(luò)一維卷積的處理過(guò)程

    inference在設(shè)備端上做。嵌入式設(shè)備的特點(diǎn)是算力不強(qiáng)、memory小。可以通過(guò)對(duì)神經(jīng)網(wǎng)絡(luò)做量化來(lái)降load和省memory,但有時(shí)可能memory還吃緊,就需要對(duì)神經(jīng)網(wǎng)絡(luò)在memory使用上做進(jìn)一步優(yōu)化
    發(fā)表于 12-23 06:16

    圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理的簡(jiǎn)要介紹

    為提升識(shí)別準(zhǔn)確率,采用改進(jìn)神經(jīng)網(wǎng)絡(luò),通過(guò)Mnist數(shù)據(jù)集進(jìn)行訓(xùn)練。整體處理過(guò)程分為兩步:圖像預(yù)處理和改進(jìn)神經(jīng)網(wǎng)絡(luò)推理。圖像預(yù)處理主要根據(jù)圖像
    發(fā)表于 12-23 08:07

    卷積神經(jīng)網(wǎng)絡(luò)模型發(fā)展及應(yīng)用

    為 三個(gè)過(guò)程:輸入信號(hào)線性加權(quán)、求和、非線性激活。1958 年到 1969 年為神經(jīng)網(wǎng)絡(luò)模型發(fā)展的第一階段, 稱為第一代神經(jīng)網(wǎng)絡(luò)模型。在 1958 年 Rosenblatt 第 一次在 MCP 模型上
    發(fā)表于 08-02 10:39

    優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些?

    優(yōu)化神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法有哪些?
    發(fā)表于 09-06 09:52

    基于人工免疫網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)集成方法

    提出基于人工免疫網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)集成方法AINEN。在用Bagging生成神經(jīng)網(wǎng)絡(luò)集成之后,將人工免疫網(wǎng)絡(luò)
    發(fā)表于 04-10 08:49 ?18次下載

    基于免疫聚類的神經(jīng)網(wǎng)絡(luò)集成的研究

    基于免疫聚類的思想,提出了一種神經(jīng)網(wǎng)絡(luò)集成方法。采用輪盤賭選擇方法重復(fù)地從各免疫聚類中的抽取樣本以構(gòu)成神經(jīng)網(wǎng)絡(luò)集成中各個(gè)體
    發(fā)表于 02-21 11:24 ?7次下載

    改進(jìn)PSO優(yōu)化神經(jīng)網(wǎng)絡(luò)算法的人體姿態(tài)識(shí)別_何佳佳

    改進(jìn)PSO優(yōu)化神經(jīng)網(wǎng)絡(luò)算法的人體姿態(tài)識(shí)別_何佳佳
    發(fā)表于 03-19 11:41 ?1次下載

    BP神經(jīng)網(wǎng)絡(luò)風(fēng)速預(yù)測(cè)方法

    針對(duì)BP神經(jīng)網(wǎng)絡(luò)風(fēng)速預(yù)測(cè)中存在的結(jié)構(gòu)不確定以及網(wǎng)絡(luò)過(guò)度擬合的問(wèn)題,利用遺傳算法的全局搜索能力和模糊聚類算法的數(shù)據(jù)篩選能力,分別對(duì)BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與數(shù)據(jù)進(jìn)行雙重優(yōu)化,提出了基于遺傳算法
    發(fā)表于 11-10 11:23 ?5次下載
    BP<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>風(fēng)速預(yù)測(cè)<b class='flag-5'>方法</b>

    一種改進(jìn)的自適應(yīng)遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)計(jì)算模型的優(yōu)化,運(yùn)用到汽車加油量計(jì)算中,通過(guò)比較標(biāo)準(zhǔn)BP網(wǎng)絡(luò)、Srinivas提出的自適應(yīng)遺傳算法優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 11-16 10:39 ?13次下載
    一種<b class='flag-5'>改進(jìn)</b>的自適應(yīng)遺傳算法<b class='flag-5'>優(yōu)化</b>BP<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>

    改進(jìn)人工蜂群算法優(yōu)化RBF神經(jīng)網(wǎng)絡(luò)的短時(shí)交通流預(yù)測(cè)模型

    為了提高徑向基函數(shù)RBF神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型對(duì)短時(shí)交通流的預(yù)測(cè)準(zhǔn)確性,提出了一種基于改進(jìn)人工蜂群算法優(yōu)化RBF神經(jīng)網(wǎng)絡(luò)的短時(shí)交通流預(yù)測(cè)模型。利用改進(jìn)
    發(fā)表于 12-01 16:31 ?2次下載
    <b class='flag-5'>改進(jìn)</b>人工蜂群算法<b class='flag-5'>優(yōu)化</b>RBF<b class='flag-5'>神經(jīng)網(wǎng)絡(luò)</b>的短時(shí)交通流預(yù)測(cè)模型

    基于改進(jìn)郊狼優(yōu)化算法的淺層神經(jīng)網(wǎng)絡(luò)進(jìn)化

    基于改進(jìn)郊狼優(yōu)化算法的淺層神經(jīng)網(wǎng)絡(luò)進(jìn)化
    發(fā)表于 06-24 15:40 ?15次下載

    如何訓(xùn)練和優(yōu)化神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的重要分支,廣泛應(yīng)用于圖像識(shí)別、自然語(yǔ)言處理、語(yǔ)音識(shí)別等多個(gè)領(lǐng)域。然而,要使神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中取得良好效果,必須進(jìn)行有效的訓(xùn)練和優(yōu)化。本文將從神經(jīng)網(wǎng)絡(luò)的訓(xùn)練
    的頭像 發(fā)表于 07-01 14:14 ?455次閱讀
    主站蜘蛛池模板: 拔擦拔擦8X永久华人免费播放器| 国产人妻人伦精品9| 亚洲综合色五月久久婷婷| 欧美亚洲精品一区二三区8V| 九九久久久2| 国产69精品久久久久麻豆| 中文字幕欧美一区| 夜色伊甸园| 亚洲色欲啪啪久久WWW综合网| 色综合伊人色综合网站| 欧美 亚洲 另类 综合网| 久久亚洲伊人| 九九电影伦理片| 教室眠催白丝美女校花| 国产午夜电影在线观看不卡| 国产精品视频一区二区猎奇| 国产AV一区二区三区传媒| 纯肉合集(高H)| 大香伊人久久精品一区二区| 99精品国产免费久久久久久下载| 野花韩国中文版免费观看| 亚洲区 bt下载| 曰本真人00XX动太图| 怡春院院日本一区二区久久| 在线看片成人免费视频| 在线免费看a| 99精品国产AV一区二区麻豆| 6 10young俄罗斯| 99久久做夜夜爱天天做精品| 97精品国产亚洲AV高清| jizzhd中国| 国产成人片视频一区二区青青| 国产精品99re6热在线播放| 国产亚洲精品精华液| 精品无码久久久久久久动漫| 久久影院毛片一区二区| 欧美群交XXXCOM| 受被攻做到腿发颤高h文| 亚洲精品第一页中文字幕| 最近2019中文字幕免费版视频| freehd另类xxxx喷水|