近日,DeepMind在論文Population Based Training of Neural Networks中提出了一種超參數(shù)優(yōu)化方法,在沿用傳統(tǒng)隨機(jī)搜索的并行訓(xùn)練的同時(shí),從GA算法中獲得靈感引入了從其他個(gè)體復(fù)制參數(shù)更新迭代的做法,效果顯著。據(jù)官方稱,使用這種名為PBT的方法可大幅提高計(jì)算機(jī)資源利用效率,訓(xùn)練更穩(wěn)定,模型性能也更好。
從圍棋到雅達(dá)利游戲到圖像識(shí)別和語言翻譯,神經(jīng)網(wǎng)絡(luò)在各領(lǐng)域都取得了極大的成功。但經(jīng)常被忽視的一點(diǎn)是,神經(jīng)網(wǎng)絡(luò)在特定應(yīng)用中的成功往往取決于研究開始時(shí)做出的一系列選擇,包括使用何種類型的網(wǎng)絡(luò)、訓(xùn)練數(shù)據(jù)和訓(xùn)練方法。目前,這些選擇(超參數(shù))的選取主要基于經(jīng)驗(yàn)、隨機(jī)搜索和計(jì)算機(jī)密集搜索。
在DeepMind新近發(fā)表的一篇論文中,團(tuán)隊(duì)提出了一種訓(xùn)練神經(jīng)網(wǎng)絡(luò)的新方法——Population Based Training (PBT,暫譯為基于群體的訓(xùn)練),通過同時(shí)訓(xùn)練和優(yōu)化一系列網(wǎng)絡(luò),它能幫開發(fā)者迅速選擇最佳超參數(shù)和模型。
該方法其實(shí)是兩種最常用的超參數(shù)優(yōu)化方法的整合:隨機(jī)搜索(random search)和手動(dòng)調(diào)試(hand-tuning)。如果單純使用隨機(jī)搜索,神經(jīng)網(wǎng)絡(luò)群體并行訓(xùn)練,并在訓(xùn)練結(jié)束時(shí)選擇性能最好的模型。一般來說,這意味著只有一小部分群體能接受良好的超參數(shù)訓(xùn)練,而剩下的大部分訓(xùn)練質(zhì)量不佳,基本上只是在浪費(fèi)計(jì)算機(jī)資源。
隨機(jī)搜索選取超參數(shù),超參數(shù)并行訓(xùn)練而又各自獨(dú)立。一些超參數(shù)可能有助于建立更好的模型,但其他的不會(huì)
而如果使用的是手動(dòng)調(diào)試,研究人員必須首先推測(cè)哪種超參數(shù)最合適,然后把它應(yīng)用到模型中,再評(píng)估性能,如此循環(huán)往復(fù),直到他對(duì)模型的性能感到滿意為止。雖然這樣做可以實(shí)現(xiàn)更好的模型性能,但缺點(diǎn)同樣很突出,就是耗時(shí)太久,有時(shí)需要數(shù)周甚至數(shù)月才能完成優(yōu)化。
如果使用手動(dòng)調(diào)試或貝葉斯優(yōu)化等方法通過依次觀察訓(xùn)練效果選取超參數(shù),整體進(jìn)度會(huì)異常緩慢
PBT結(jié)合兩種方法的優(yōu)勢(shì)。和隨機(jī)搜索一樣,它首先會(huì)訓(xùn)練大量神經(jīng)網(wǎng)絡(luò)供隨機(jī)超參數(shù)實(shí)驗(yàn),但不同的是,這些網(wǎng)絡(luò)不是獨(dú)立訓(xùn)練的,它們會(huì)不斷整合其他超參數(shù)群體的信息來進(jìn)行自我完善,同時(shí)將計(jì)算資源集中給最有潛力的模型。這個(gè)靈感來自遺傳算法(GA),在GA中,每個(gè)個(gè)體(候選解)能通過利用其他個(gè)體的參數(shù)信息進(jìn)行迭代,如,一個(gè)個(gè)體能從另一個(gè)性能較優(yōu)的個(gè)體中復(fù)制參數(shù)模型。同理,PBT鼓勵(lì)每個(gè)超參數(shù)通過隨機(jī)更改當(dāng)前值來探索形成新的超參數(shù)。
隨著對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的不斷深入,這個(gè)開發(fā)和探索的過程是定期進(jìn)行的,以確保所有超參數(shù)都有一個(gè)良好的基礎(chǔ)性能,同時(shí),新超參數(shù)也在不斷形成。這意味著PBT可以迅速選取優(yōu)質(zhì)超參數(shù),并把更多的訓(xùn)練時(shí)間投入到最有潛力的模型中,最關(guān)鍵的是,它還允許在訓(xùn)練過程中調(diào)整超參數(shù)值,從而自動(dòng)學(xué)習(xí)最佳配置。
PBT的神經(jīng)網(wǎng)絡(luò)訓(xùn)練從隨機(jī)搜索開始,但允許個(gè)體利用其他個(gè)體的部分結(jié)果,并隨著訓(xùn)練的進(jìn)行探索形成新超參數(shù)
為了測(cè)試PBT的效果,DeepMind做了一些實(shí)驗(yàn)。如研究人員在DeepMind Lab、雅達(dá)利和星際2三個(gè)游戲平臺(tái)上用最先進(jìn)的方法測(cè)試了一套具有相當(dāng)挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)問題。實(shí)驗(yàn)證明,在所有情況下,PBT都訓(xùn)練穩(wěn)定,并且迅速找到了最佳超參數(shù),提供了超出最新基線的結(jié)果。
他們還發(fā)現(xiàn)PBT同樣適用于生成對(duì)抗網(wǎng)絡(luò)(GAN)。一般來說,GAN的超參數(shù)很難調(diào)試,但在一次實(shí)驗(yàn)中,DeepMind的PBT框架使模型的Inception Score(圖像保真度分?jǐn)?shù))達(dá)到了新高,從6.45躍升至6.89(如上圖最后一幅圖所示)。
PBT也在Google的機(jī)器翻譯神經(jīng)網(wǎng)絡(luò)上進(jìn)行了實(shí)驗(yàn)。作為谷歌最先進(jìn)的機(jī)翻工具,這些神經(jīng)網(wǎng)絡(luò)使用的超參數(shù)優(yōu)化方法是手動(dòng)調(diào)試,這意味著在投入使用前,它們需要按照研究人員精心設(shè)計(jì)的超參數(shù)時(shí)間表進(jìn)行長(zhǎng)達(dá)數(shù)月的訓(xùn)練。使用PBT,計(jì)算機(jī)自動(dòng)建立了時(shí)間表,該訓(xùn)練計(jì)劃所獲得的模型性能和現(xiàn)用方法差不多,甚至更好,而且只需進(jìn)行一次訓(xùn)練就可以獲得滿意的模型。
PBT在GAN和雅達(dá)利游戲“吃豆子女士”上的表現(xiàn):粉色點(diǎn)為初代,藍(lán)色點(diǎn)為末代,分支代表操作已執(zhí)行(參數(shù)已復(fù)制),路徑表示步驟的連續(xù)更新
DeepMind相信,這只是超參數(shù)優(yōu)化方法創(chuàng)新的一個(gè)開始。綜合論文可知,PBT對(duì)于訓(xùn)練引入新超參數(shù)的算法和神經(jīng)網(wǎng)絡(luò)結(jié)果特別有用,它為尋找和開發(fā)更復(fù)雜、更強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型提供了可能性。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4771瀏覽量
100715
原文標(biāo)題:DeepMind最新研究:基于群體的神經(jīng)網(wǎng)絡(luò)訓(xùn)練
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論