到目前為止,我們一直專注于如何通過訓(xùn)練具有多個輸出和 softmax 函數(shù)的(線性)神經(jīng)網(wǎng)絡(luò)來解決多類分類問題。將我們模型的輸出解釋為概率預(yù)測,我們激發(fā)并推導(dǎo)了交叉熵?fù)p失函數(shù),它計算我們的模型(對于一組固定參數(shù))分配給實際標(biāo)簽的負(fù)對數(shù)似然。最后,我們通過將我們的模型擬合到訓(xùn)練集來將這些工具付諸實踐。然而,一如既往,我們的目標(biāo)是學(xué)習(xí)一般模式,根據(jù)以前看不見的數(shù)據(jù)(測試集)進(jìn)行經(jīng)驗評估。訓(xùn)練集上的高精度毫無意義。每當(dāng)我們的每個輸入都是唯一的(對于大多數(shù)高維數(shù)據(jù)集而言確實如此)時,我們可以通過僅記住第一個訓(xùn)練時期的數(shù)據(jù)集并隨后在我們看到標(biāo)簽時查找標(biāo)簽來獲得訓(xùn)練集的完美準(zhǔn)確性一個新形象。然而,記住與確切訓(xùn)練示例相關(guān)聯(lián)的確切標(biāo)簽并不能告訴我們?nèi)绾螌π率纠M(jìn)行分類。如果沒有進(jìn)一步的指導(dǎo),每當(dāng)我們遇到新的例子時,我們可能不得不求助于隨機(jī)猜測。
許多緊迫的問題需要立即引起注意:
-
我們需要多少測試示例才能精確估計我們的分類器對基礎(chǔ)人群的準(zhǔn)確性?
-
如果我們在同一個測試中反復(fù)評估模型會發(fā)生什么?
-
為什么我們應(yīng)該期望將我們的線性模型擬合到訓(xùn)練集應(yīng)該比我們的樸素記憶方案更好?
雖然第 3.6 節(jié)介紹了線性回歸背景下過度擬合和泛化的基礎(chǔ)知識,但本章將更深入一些,介紹統(tǒng)計學(xué)習(xí)理論的一些基本思想。事實證明,我們通??梢?/font>先驗地保證泛化:對于許多模型,以及泛化差距的任何期望上限?,我們通??梢源_定一些所需的樣本數(shù)量n這樣如果我們的訓(xùn)練集至少包含n樣本,那么我們的經(jīng)驗誤差將位于?的真實錯誤,對于任何數(shù)據(jù)生成分布。不幸的是,事實證明,雖然這些類型的保證提供了一套深刻的知識構(gòu)建塊,但它們對深度學(xué)習(xí)從業(yè)者的實用性有限。簡而言之,這些保證表明,確保先驗深度神經(jīng)網(wǎng)絡(luò)的泛化需要數(shù)量荒謬的示例(可能數(shù)萬億或更多),即使我們發(fā)現(xiàn),在我們關(guān)心的任務(wù)上,深度神經(jīng)網(wǎng)絡(luò)通常可以很好地泛化遠(yuǎn)更少的例子(千)。因此,深度學(xué)習(xí)從業(yè)者通常完全放棄先驗保證,而是在過去對類似問題進(jìn)行了很好泛化的基礎(chǔ)上采用方法,并證明泛化事后 通過實證評估。當(dāng)我們到達(dá) 第 5 節(jié)時,我們將重新審視泛化,并簡要介紹大量科學(xué)文獻(xiàn),這些文獻(xiàn)如雨后春筍般涌現(xiàn),試圖解釋為什么深度神經(jīng)網(wǎng)絡(luò)在實踐中泛化。
4.6.1. 測試集
由于我們已經(jīng)開始依賴測試集作為評估泛化誤差的黃金標(biāo)準(zhǔn)方法,所以讓我們從討論此類誤差估計的屬性開始。讓我們關(guān)注一個固定的分類器f,而不用擔(dān)心它是如何獲得的。此外,假設(shè)我們擁有一個新的示例數(shù)據(jù)集 D=(x(i),y(i))i=1n未用于訓(xùn)練分類器的f. 我們分類器的經(jīng)驗誤差f在D只是預(yù)測所針對的實例的一部分f(x(i))不同意真正的標(biāo)簽y(i), 并由以下表達(dá)式給出:
相比之下,總體誤差是基礎(chǔ)總體(某些分布P(X,Y) 以概率密度函數(shù)為特征p(x,y))我們的分類器不同意真實標(biāo)簽:
盡管?(f)是我們真正關(guān)心的量,我們不能直接觀察到它,就像我們不能不測量每個人就不能直接觀察到大量人群的平均身高一樣。我們只能根據(jù)樣品估計這個數(shù)量。因為我們的測試集D是潛在人群的統(tǒng)計代表,我們可以查看?D(f)作為總體誤差的統(tǒng)計估計?(f). 此外,因為我們感興趣的數(shù)量?(f)是(隨機(jī)變量的期望1(f(X)≠Y)) 和相應(yīng)的估計量?D(f)是樣本平均值,估計總體誤差只是均值估計的經(jīng)典問題,您可能還記得 2.6 節(jié)。
概率論的一個重要經(jīng)典結(jié)果稱為 中心極限定理,保證無論何時我們擁有n 隨機(jī)樣本a1,...,an從具有均值的任何分布中抽取μ和標(biāo)準(zhǔn)差σ, 作為樣本數(shù)n接近無窮大,樣本平均值
評論
查看更多