色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

神經(jīng)網(wǎng)絡泛化問題

電子設(shè)計 ? 來源:電子設(shè)計 ? 作者:電子設(shè)計 ? 2020-12-14 21:02 ? 次閱讀

每當我們訓練自己的神經(jīng)網(wǎng)絡時,我們都需要注意稱為神經(jīng)網(wǎng)絡的泛化的問題。從本質(zhì)上講,這意味著我們的模型在從給定數(shù)據(jù)中學習以及將所學信息應用到其他方面有多出色。

在訓練神經(jīng)網(wǎng)絡時,將有一些數(shù)據(jù)在神經(jīng)網(wǎng)絡上進行訓練,并且還將保留一些數(shù)據(jù)以檢查神經(jīng)網(wǎng)絡的性能。如果神經(jīng)網(wǎng)絡在尚未訓練的數(shù)據(jù)上表現(xiàn)良好,那么可以說它在給定數(shù)據(jù)上的推理效果很好。讓我們通過一個例子來理解這一點。

假設(shè)我們正在訓練一個神經(jīng)網(wǎng)絡,該神經(jīng)網(wǎng)絡應該告訴我們給定圖像是否有狗。假設(shè)我們有幾只狗的圖片,每只狗屬于某個品種,并且這些圖片中總共有12個品種。我將保留10個品種的狗的所有圖像進行訓練,而這2個品種的其余圖像將暫時保留。

現(xiàn)在,在進入深度學習之前,讓我們從人類的角度來看待這一點。讓我們考慮一個一生中從未見過狗的人(僅舉一個例子)。現(xiàn)在,我們將向人類展示10種狗,并告訴他們這是狗。此后,如果我們向他們展示其他2個品種,他們是否能夠說出它們也是狗?希望他們能做到,十個品種應該足以理解和識別狗的獨特特征。從某些數(shù)據(jù)學習并將獲得的知識正確應用于其他數(shù)據(jù)的這種概念稱為generalization(泛化)。

回到深度學習,我們的目標是使神經(jīng)網(wǎng)絡從給定的數(shù)據(jù)中盡可能有效地學習。如果我們成功地使神經(jīng)網(wǎng)絡了解到,其他2個品種都還狗,那么我們已經(jīng)培養(yǎng)了非常general(一般的)神經(jīng)網(wǎng)絡,它會在現(xiàn)實世界中執(zhí)行得很好。

這實際上說起來容易做起來難,而訓練通用神經(jīng)網(wǎng)絡是深度學習從業(yè)人員最令人沮喪的任務之一。這是由于神經(jīng)網(wǎng)絡中的一種現(xiàn)象,即過度擬合。如果神經(jīng)網(wǎng)絡對10種犬進行訓練,并且拒絕將其他2種犬歸為狗,那么該神經(jīng)網(wǎng)絡就過度適合了訓練數(shù)據(jù)。這意味著神經(jīng)網(wǎng)絡已經(jīng)記住了那10種狗,并且只將它們視為狗。因此,它無法形成對狗長什么樣的普遍了解。在訓練神經(jīng)網(wǎng)絡的同時解決這個問題是我們在本文中要探討的。

現(xiàn)在,我們實際上沒有自由在像“繁殖”這樣的基礎(chǔ)上劃分所有數(shù)據(jù)。相反,我們將簡單地拆分所有數(shù)據(jù)。數(shù)據(jù)的一部分,通常是較大部分(大約80–90%)將用于訓練模型,其余部分將用于測試模型。我們的目標是確保測試數(shù)據(jù)的性能與訓練數(shù)據(jù)的性能大致相同。我們使用諸如損失和準確性之類的指標來衡量這一績效。

我們可以控制神經(jīng)網(wǎng)絡的某些方面,以防止過度擬合。讓我們一一介紹。首先是參數(shù)的數(shù)量。

參數(shù)數(shù)量

在神經(jīng)網(wǎng)絡中,參數(shù)的數(shù)量本質(zhì)上是指權(quán)重的數(shù)量。這將與層數(shù)和每一層中神經(jīng)元的數(shù)目成正比。參數(shù)和過度擬合的數(shù)量之間的關(guān)系如下:越多的參數(shù),越容易導致過擬合。

我們需要根據(jù)復雜性來定義問題。一個非常復雜的數(shù)據(jù)集將需要一個非常復雜的函數(shù)來成功理解和表示它。從數(shù)學上講,我們可以將復雜度與非線性相關(guān)聯(lián)。讓我們回想一下神經(jīng)網(wǎng)絡公式。

在此,W1,W2和W3是此神經(jīng)網(wǎng)絡的權(quán)重矩陣。現(xiàn)在,我們需要注意的是方程中的激活函數(shù),該函數(shù)適用于每一層。由于具有這些激活功能,因此每一層都與下一層非線性連接。

第一層的輸出為f(W/_1 * X)(設(shè)L1),第二層的輸出為f(W/_2 * L1)。如您所見,由于激活函數(shù)(f),第二層的輸出與第一層具有非線性關(guān)系。因此,在神經(jīng)網(wǎng)絡的末端,最終值Y相對于輸入X具有一定程度的非線性,具體取決于神經(jīng)網(wǎng)絡中的層數(shù)。

層的數(shù)量越多,越多的激活函數(shù)擾亂層之間的線性度,并且因此更加非線性。

由于這種關(guān)系,我們可以說,如果神經(jīng)網(wǎng)絡在每一層中具有更多的層和更多的節(jié)點,它將變得更加復雜。因此,我們需要根據(jù)數(shù)據(jù)的復雜性來調(diào)整參數(shù)。除了重復實驗和比較結(jié)果外,沒有確定的方法。

在給定的實驗中,如果測試指標遠低于訓練指標,則模型具有過擬合,這意味著神經(jīng)網(wǎng)絡對于給定的數(shù)據(jù)具有太多的參數(shù)。這基本上意味著神經(jīng)網(wǎng)絡對于給定的數(shù)據(jù)來說太復雜了,需要簡化。如果測試分數(shù)與訓練分數(shù)大致相同,則該模型已經(jīng)generalized,但這并不意味著我們已經(jīng)達到了神經(jīng)網(wǎng)絡的最大潛力。如果我們增加參數(shù),性能將會提高,但也可能會過擬合。因此,我們需要繼續(xù)嘗試通過平衡性能和泛化來優(yōu)化參數(shù)數(shù)量。

我們需要將神經(jīng)網(wǎng)絡的復雜度與數(shù)據(jù)復雜度相匹配。如果神經(jīng)網(wǎng)絡太復雜,它將開始記憶訓練數(shù)據(jù),而不是對數(shù)據(jù)有一般的了解,從而導致過擬合。

通常,深度學習從業(yè)人員如何做到這一點是首先訓練具有足夠大量參數(shù)的神經(jīng)網(wǎng)絡,以使模型過擬合。因此,最初,我們嘗試獲得一個非常適合訓練數(shù)據(jù)的模型。接下來,我們嘗試迭代地減少參數(shù)的數(shù)量,直到模型停止過度擬合為止,這可以視為一種最佳的神經(jīng)網(wǎng)絡。我們可以用來防止過度擬合的另一種技術(shù)是使用dropout神經(jīng)元。

dropout神經(jīng)元

在神經(jīng)網(wǎng)絡中,添加dropout神經(jīng)元是減少神經(jīng)網(wǎng)絡過度擬合的最流行,最有效的方法之一。基本上網(wǎng)絡中的每個神經(jīng)元都有一定的概率從網(wǎng)絡中完全退出。這意味著在特定時刻,某些神經(jīng)元將不會連接到網(wǎng)絡中的任何其他神經(jīng)元。這是一個視覺示例:

在訓練過程中的每一個瞬間,一組不同的神經(jīng)元將以隨機的方式掉落。因此,我們可以說在每個時刻,我們都在有效地訓練某個神經(jīng)網(wǎng)絡比原始神經(jīng)網(wǎng)絡少的某個子集神經(jīng)網(wǎng)絡。由于輟學神經(jīng)元的隨機性質(zhì),該子神經(jīng)網(wǎng)絡每次都會改變。

實際上,這里發(fā)生的是,當我們訓練帶有缺失神經(jīng)元的神經(jīng)網(wǎng)絡時,我們基本上是在訓練許多較小的子集神經(jīng)網(wǎng)絡,并且由于權(quán)重是原始神經(jīng)網(wǎng)絡的一部分,因此神經(jīng)網(wǎng)絡的最終權(quán)重可以視為所有相應子集神經(jīng)網(wǎng)絡權(quán)重的平均值。這是正在發(fā)生的事情的基本可視化:

這就是dropout神經(jīng)元在神經(jīng)網(wǎng)絡中的工作方式,但是為什么dropout會阻止過度擬合?這有兩個主要原因。

第一個原因是dropout的神經(jīng)元促進神經(jīng)元獨立。由于在特定瞬間可能存在或不存在圍繞特定神經(jīng)元的神經(jīng)元這一事實,因此該神經(jīng)元不能依賴于圍繞其的那些神經(jīng)元。因此,它會被迫成為更獨立,同時訓練。

第二個原因是由于dropout,我們實質(zhì)上是一次訓練多個較小的神經(jīng)網(wǎng)絡。通常,如果我們訓練多個模型并求平均權(quán)重,則由于每個神經(jīng)網(wǎng)絡的獨立學習的積累,性能通常會提高。但是,這是一個昂貴的過程,因為我們需要定義多個神經(jīng)網(wǎng)絡并分別進行訓練。但是,在輟學的情況下,這也做同樣的事情,而我們只需要一個神經(jīng)網(wǎng)絡,就可以從中訓練子神經(jīng)網(wǎng)絡的多種可能配置。

訓練多個神經(jīng)網(wǎng)絡并匯總其學習知識稱為“集合”,通常可以提高性能。使用dropout本質(zhì)上是在只有1個神經(jīng)網(wǎng)絡的情況下實現(xiàn)的。

減少過度擬合的下一種技術(shù)是權(quán)重正則化。

權(quán)重正則化

在訓練神經(jīng)網(wǎng)絡時,某些權(quán)重的值可能會變得非常大。發(fā)生這種情況是因為這些權(quán)重集中在訓練數(shù)據(jù)中的某些特征上,這導致它們在整個訓練過程中價值不斷增加。因此,網(wǎng)絡過度適合訓練數(shù)據(jù)。

我們不需要不斷增加權(quán)重來捕獲特定模式。相反,如果它們的值相對于其他權(quán)重較高,則很好。但是,在訓練過程中,當神經(jīng)網(wǎng)絡通過多次迭代對數(shù)據(jù)進行訓練時,權(quán)重值可能會不斷增加,直到權(quán)重變大為止,這是不必要的。

為什么權(quán)重過大對神經(jīng)網(wǎng)絡不利的其他原因之一是由于增加的輸入輸出差異。基本上,當出現(xiàn)網(wǎng)絡中的巨大權(quán)重,這是非常容易對小的變化的輸入,但神經(jīng)網(wǎng)絡應該基本輸出同樣的事情了類似的投入。當我們擁有巨大的權(quán)重時,即使我們保留兩個非常相似的單獨的數(shù)據(jù)輸入,它們的輸出也可能有很大的不同。這會導致在測試數(shù)據(jù)上發(fā)生許多錯誤的預測,從而降低了神經(jīng)網(wǎng)絡的通用性。

神經(jīng)網(wǎng)絡中權(quán)重的一般規(guī)則是,神經(jīng)網(wǎng)絡中的權(quán)重越高,神經(jīng)網(wǎng)絡越復雜。因此,具有較高權(quán)重的神經(jīng)網(wǎng)絡通常趨于過擬合。

因此,基本上,我們需要限制權(quán)重的增長,以使權(quán)重不會增長太多,但是我們到底該如何做呢?神經(jīng)網(wǎng)絡嘗試將訓練時的損失降到最低,因此我們可以嘗試在該損失函數(shù)中包括權(quán)重的一部分,以便在訓練時權(quán)重也被最小化,但是當然要優(yōu)先考慮減少損失。

有兩種執(zhí)行此操作的方法,稱為L1和L2正則化。在L1中,我們只占網(wǎng)絡中所有權(quán)重絕對值之和的一小部分。在L2中,我們在網(wǎng)絡中權(quán)重的所有平方值的總和中占一小部分。我們只是將此表達式添加到神經(jīng)網(wǎng)絡的整體損失函數(shù)中。公式如下:

在這里,lambda是一個允許我們改變權(quán)重變化程度的值。我們基本上只是將L1或L2項添加到神經(jīng)網(wǎng)絡的損失函數(shù)中,以便網(wǎng)絡也將嘗試最小化這些項。通過添加L1或L2正則化,網(wǎng)絡將限制其權(quán)重的增長,因為權(quán)重的大小是損失函數(shù)的一部分,并且網(wǎng)絡始終嘗試使損失函數(shù)最小化。讓我們重點介紹L1和L2之間的一些區(qū)別。

使用L1正則化時,雖然權(quán)重因正則化而減小,但L1嘗試將其完全降低到零。因此,對神經(jīng)網(wǎng)絡貢獻不大的不重要權(quán)重最終將變?yōu)榱恪5牵贚2的情況下,由于平方函數(shù)對于小于1的值成反比例,因此權(quán)重不會被推為零,而是被推為較小的值。因此,不重要的權(quán)重比其他權(quán)重要低得多。

這涵蓋了防止過度擬合的重要方法。在深度學習中,我們通常混合使用這些方法來改善神經(jīng)網(wǎng)絡的性能并改善模型的泛化性。

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 神經(jīng)網(wǎng)絡

    關(guān)注

    42

    文章

    4774

    瀏覽量

    100896
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8425

    瀏覽量

    132770
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5507

    瀏覽量

    121276
收藏 人收藏

    評論

    相關(guān)推薦

    卷積神經(jīng)網(wǎng)絡的應用場景及優(yōu)缺點

    1.1 卷積神經(jīng)網(wǎng)絡的定義 卷積神經(jīng)網(wǎng)絡是一種深度學習模型,它通過模擬人類視覺系統(tǒng)的工作方式,對輸入數(shù)據(jù)進行特征提取和分類。與傳統(tǒng)的神經(jīng)網(wǎng)絡相比,CNNs具有更好的特征學習能力和
    的頭像 發(fā)表于 07-11 14:45 ?763次閱讀

    神經(jīng)網(wǎng)絡辨識模型具有什么特點

    神經(jīng)網(wǎng)絡辨識模型是一種基于人工神經(jīng)網(wǎng)絡的系統(tǒng)辨識方法,它具有以下特點: 非線性映射能力 :神經(jīng)網(wǎng)絡能夠處理非線性問題,可以很好地擬合復雜的非線性系統(tǒng)。
    的頭像 發(fā)表于 07-11 11:12 ?483次閱讀

    怎么對神經(jīng)網(wǎng)絡重新訓練

    發(fā)生變化,導致神經(jīng)網(wǎng)絡能力下降。為了保持神經(jīng)網(wǎng)絡的性能,需要對其進行重新訓練。本文將詳細介紹重新訓練神經(jīng)網(wǎng)絡的步驟和方法。 數(shù)據(jù)預處理
    的頭像 發(fā)表于 07-11 10:25 ?474次閱讀

    BP神經(jīng)網(wǎng)絡和人工神經(jīng)網(wǎng)絡的區(qū)別

    BP神經(jīng)網(wǎng)絡和人工神經(jīng)網(wǎng)絡(Artificial Neural Networks,簡稱ANNs)之間的關(guān)系與區(qū)別,是神經(jīng)網(wǎng)絡領(lǐng)域中一個基礎(chǔ)且重要的話題。本文將從定義、結(jié)構(gòu)、算法、應用及未來發(fā)展等多個方面,詳細闡述BP
    的頭像 發(fā)表于 07-10 15:20 ?1174次閱讀

    rnn是遞歸神經(jīng)網(wǎng)絡還是循環(huán)神經(jīng)網(wǎng)絡

    RNN(Recurrent Neural Network)是循環(huán)神經(jīng)網(wǎng)絡,而非遞歸神經(jīng)網(wǎng)絡。循環(huán)神經(jīng)網(wǎng)絡是一種具有時間序列特性的神經(jīng)網(wǎng)絡,能夠處理序列數(shù)據(jù),具有記憶功能。以下是關(guān)于循環(huán)
    的頭像 發(fā)表于 07-05 09:52 ?595次閱讀

    人工神經(jīng)網(wǎng)絡模型包含哪些層次

    人工神經(jīng)網(wǎng)絡(Artificial Neural Network,ANN)是一種模擬人腦神經(jīng)網(wǎng)絡的計算模型,具有自適應、自學習、能力強等特點。本文將詳細介紹人工
    的頭像 發(fā)表于 07-05 09:17 ?628次閱讀

    遞歸神經(jīng)網(wǎng)絡是循環(huán)神經(jīng)網(wǎng)絡

    遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network,簡稱RNN)和循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,簡稱RNN)實際上是同一個概念,只是不同的翻譯方式
    的頭像 發(fā)表于 07-04 14:54 ?809次閱讀

    循環(huán)神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡的區(qū)別

    循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)和卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)是深度學習領(lǐng)域中兩種非常重要的神經(jīng)網(wǎng)絡
    的頭像 發(fā)表于 07-04 14:24 ?1350次閱讀

    反向傳播神經(jīng)網(wǎng)絡優(yōu)點和缺點有哪些

    、自然語言處理等。然而,BP神經(jīng)網(wǎng)絡也存在一些優(yōu)點和缺點。本文將介紹BP神經(jīng)網(wǎng)絡的優(yōu)點和缺點。 一、BP神經(jīng)網(wǎng)絡的優(yōu)點 自學習能力:BP神經(jīng)網(wǎng)絡具有自學習能力,能夠通過訓練數(shù)據(jù)自動調(diào)整
    的頭像 發(fā)表于 07-03 11:05 ?1016次閱讀

    反向傳播神經(jīng)網(wǎng)絡和bp神經(jīng)網(wǎng)絡的區(qū)別

    反向傳播神經(jīng)網(wǎng)絡(Backpropagation Neural Network,簡稱BP神經(jīng)網(wǎng)絡)是一種多層前饋神經(jīng)網(wǎng)絡,它通過反向傳播算法來調(diào)整網(wǎng)絡中的權(quán)重和偏置,以達到最小
    的頭像 發(fā)表于 07-03 11:00 ?830次閱讀

    神經(jīng)網(wǎng)絡擬合的誤差怎么分析

    像識別、自然語言處理和時間序列預測等。然而,神經(jīng)網(wǎng)絡的擬合誤差是一個關(guān)鍵問題,影響模型的性能和能力。本文將從多個角度分析神經(jīng)網(wǎng)絡擬合誤差的原因、影響因素和解決方案。
    的頭像 發(fā)表于 07-03 10:36 ?621次閱讀

    bp神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡區(qū)別是什么

    結(jié)構(gòu)、原理、應用場景等方面都存在一定的差異。以下是對這兩種神經(jīng)網(wǎng)絡的比較: 基本結(jié)構(gòu) BP神經(jīng)網(wǎng)絡是一種多層前饋神經(jīng)網(wǎng)絡,由輸入層、隱藏層和輸出層組成。每個神經(jīng)元之間通過權(quán)重連接,并通
    的頭像 發(fā)表于 07-03 10:12 ?1249次閱讀

    神經(jīng)網(wǎng)絡算法的優(yōu)缺點有哪些

    的優(yōu)點 自學習能力:神經(jīng)網(wǎng)絡算法具有強大的自學習能力,能夠從大量數(shù)據(jù)中自動提取特征,無需人工干預。這使得神經(jīng)網(wǎng)絡算法在處理復雜問題時具有很高的靈活性和適應性。 能力強:
    的頭像 發(fā)表于 07-03 09:47 ?1478次閱讀

    卷積神經(jīng)網(wǎng)絡和bp神經(jīng)網(wǎng)絡的區(qū)別

    不同的神經(jīng)網(wǎng)絡模型,它們在結(jié)構(gòu)、原理、應用等方面都存在一定的差異。本文將從多個方面對這兩種神經(jīng)網(wǎng)絡進行詳細的比較和分析。 引言 神經(jīng)網(wǎng)絡是一種模擬人腦神經(jīng)元連接和信息傳遞的計算模型,它
    的頭像 發(fā)表于 07-02 14:24 ?4364次閱讀

    神經(jīng)網(wǎng)絡模型的原理、類型及應用領(lǐng)域

    數(shù)學建模神經(jīng)網(wǎng)絡模型是一種基于人工神經(jīng)網(wǎng)絡的數(shù)學建模方法,它通過模擬人腦神經(jīng)元的工作機制,實現(xiàn)對復雜問題的建模和求解。神經(jīng)網(wǎng)絡模型具有自學習能力、
    的頭像 發(fā)表于 07-02 11:31 ?1188次閱讀
    主站蜘蛛池模板: 美女教师朝桐光在线播放| 99在线免费| 久 久 亚洲 少 妇 无 码| 99精品免费久久久久久久久日本| 四虎影5151毛片在线看| 毛片999| 国产欧美二区综合| 99re这里只有精品视频| 亚洲国产欧美在线人成aaaa20| 欧美特黄99久久毛片免费| 回复术士人生重启在线观看| 粉嫩自拍 偷拍 亚洲| 91在线一区二区| 亚洲综合中文| 小小水蜜桃3视频在线观看| 全身无赤裸裸美女网站| 榴莲黄版无限刷| 韩国精品韩国专区久久| 动漫美女被吸奶| 24小时日本在线电影| 亚洲日本va中文字幕久久| 私人玩物在线观看| 青柠在线观看视频在线高清| 老师我好爽再深一点老师好涨| 国产在线综合色视频| 国产精品黄色大片| 趁老师睡着吃她的奶水| 99久久精品互换人妻AV| 中文字幕一区二区三区在线不卡| 亚洲精品无码国产爽快A片| 叔叔 电影完整版免费观看韩国| 欧美乱码伦视频免费66网| 美女扒开尿孔| 老太婆风流特黄一级| 久久久91精品国产一区二区 | 国产成人高清在线观看播放| 9位美女厕所撒尿11分| 2021国产在线视频| 在线观看免费小视频| 一级做a爰片久久毛片潮喷动漫| 亚洲国产成人在线|