自20世紀(jì)80年代興起的神經(jīng)網(wǎng)絡(luò)熱潮已經(jīng)退去,神經(jīng)網(wǎng)絡(luò)再次成為常規(guī)科學(xué)。托馬斯·庫恩(Thomas Kuhn)曾將科學(xué)革命之間的時間間隔描述為,科學(xué)家在一個已經(jīng)確定的范式或解釋框架內(nèi)進(jìn)行理論推定、觀察和試驗(yàn)的常規(guī)工作階段。1987 年,杰弗里·辛頓去了多倫多大學(xué),并繼續(xù)著漸進(jìn)式改進(jìn),雖然這些改進(jìn)都沒有像曾經(jīng)的玻爾茲曼機(jī)那樣展現(xiàn)出魔力。辛頓在21 世紀(jì)頭十年成為加拿大高等研究院(Canadian Institute for Advanced Research,簡稱CIFAR)神經(jīng)計(jì)算和自適應(yīng)感知項(xiàng)目(Neural Computation andAdaptive Perception,簡稱 NCAP)的帶頭人。該項(xiàng)目由來自加拿大和其他國家的約25 位研究人員組成,專注于解決機(jī)器學(xué)習(xí)的難題。我是由楊立昆擔(dān)任主席的NCAP 顧問委員會的成員,會在每年 NIPS 會議召開之前參加該項(xiàng)目的年會。神經(jīng)網(wǎng)絡(luò)的先驅(qū)們在緩慢而穩(wěn)定的過程中探索了機(jī)器學(xué)習(xí)的許多新策略。雖然他們的網(wǎng)絡(luò)有許多有價值的應(yīng)用,但卻一直沒有滿足20 世紀(jì) 80 年代對該領(lǐng)域抱有的很高的期望。不過這并沒有動搖先驅(qū)者們的信念。回想起來,他們一直是在為飛躍性的突破奠定基礎(chǔ)。
機(jī)器學(xué)習(xí)的穩(wěn)步發(fā)展
NIPS 會議是 20 世紀(jì) 80 年代神經(jīng)網(wǎng)絡(luò)的孵化器,為其他可處理大型高維數(shù)據(jù)集的算法打開了大門。弗拉基米爾·瓦普尼克的支持向量機(jī)于1995 年引發(fā)了轟動,為 20 世紀(jì) 60 年代就被遺棄的感知器網(wǎng)絡(luò)開辟了一個新篇章。使支持向量機(jī)成為功能強(qiáng)大的分類器,并出現(xiàn)在每個神經(jīng)網(wǎng)絡(luò)工作者工具包中的,是“內(nèi)核技巧”(kernel trick),這是一種數(shù)學(xué)轉(zhuǎn)換,相當(dāng)于將數(shù)據(jù)從其采樣空間重新映射到使其更容易被分離的超空間。托馬索·波吉奧開發(fā)了一種名為“HMAX”的分級網(wǎng)絡(luò),可以對有限數(shù)量的對象進(jìn)行分類。這表明,網(wǎng)絡(luò)的性能會隨著其深度的增加而提高。
在21 世紀(jì)的頭幾年里,圖形模型被開發(fā)出來,并與被稱為“貝葉斯網(wǎng)絡(luò)”(Bayes networks)的豐富的概率模型相結(jié)合,后者是基于18 世紀(jì)英國數(shù)學(xué)家托馬斯·貝葉斯(Thomas Bayes)提出的一個定理,該定理允許使用新的證據(jù)來更新先前的信念。加州大學(xué)洛杉磯分校的朱迪亞·珀?duì)枺谠缧r候曾將基于貝葉斯分析的“信念網(wǎng)絡(luò)”(belief networks)引入人工智能,通過開發(fā)能夠利用數(shù)據(jù)在網(wǎng)絡(luò)中學(xué)習(xí)概率的方法,對貝葉斯分析進(jìn)行了加強(qiáng)和擴(kuò)展。這些網(wǎng)絡(luò)以及其他網(wǎng)絡(luò)的算法為機(jī)器學(xué)習(xí)研究人員打造出了強(qiáng)大的工具。
隨著計(jì)算機(jī)的處理能力繼續(xù)呈指數(shù)增長,訓(xùn)練更大規(guī)模的網(wǎng)絡(luò)成為可能。大家曾普遍認(rèn)為,具有更多隱藏單元、更寬的神經(jīng)網(wǎng)絡(luò),比具有更多層數(shù)、更深的網(wǎng)絡(luò)的效果更好,但是對于逐層訓(xùn)練的網(wǎng)絡(luò)來說并非如此,并且誤差梯度的消失問題(the vanishing error gradientproblem)被發(fā)現(xiàn)減慢了輸入層附近的學(xué)習(xí)速度。然而,當(dāng)這個問題最終被克服的時候,我們已經(jīng)可以對深度反向傳播網(wǎng)絡(luò)進(jìn)行訓(xùn)練了,而且該網(wǎng)絡(luò)在基準(zhǔn)測試中表現(xiàn)得更好。隨著深度反向傳播網(wǎng)絡(luò)開始在計(jì)算機(jī)視覺領(lǐng)域挑戰(zhàn)傳統(tǒng)方法,2012 年的NIPS 大會上出現(xiàn)了這樣一句話:“神經(jīng)信息處理系統(tǒng)”里的“神經(jīng)”又回來了。
在20 世紀(jì)的最后10 年以及21 世紀(jì)前10 年的計(jì)算機(jī)視覺領(lǐng)域,在識別圖像中的對象方面取得的穩(wěn)步進(jìn)展,使得基準(zhǔn)測試(用于比較不同方法)的性能每年能提高百分之零點(diǎn)幾。方法改進(jìn)的速度十分緩慢,這是因?yàn)槊總€新類別的對象,都需要有關(guān)專家對能夠?qū)⑺鼈兣c其他對象區(qū)分開來所需的與姿態(tài)無關(guān)的特征進(jìn)行甄別。隨后,在2012年,杰弗里·辛頓和他的兩名學(xué)生艾力克斯·克里澤夫斯基(AlexKrizhevsky)和伊利婭·蘇特斯科娃向 NIPS 會議提交了一篇論文,關(guān)于使用深度學(xué)習(xí)訓(xùn)練AlexNet 識別圖像中的對象,AlexNet 是本章要重點(diǎn)討論的深度卷積網(wǎng)絡(luò)。以擁有22 000 多個類別,超過1 500 萬個標(biāo)記過的高分辨率圖像的ImageNet 數(shù)據(jù)庫作為基準(zhǔn),AlexNet 史無前例地將識別錯誤率降低到了18%。這次性能上的飛躍在計(jì)算機(jī)視覺社區(qū)中掀起了一股沖擊波,加速推動了更大規(guī)模網(wǎng)絡(luò)的發(fā)展,現(xiàn)在這些網(wǎng)絡(luò)幾乎已經(jīng)達(dá)到了人類的水平。到2015 年,ImageNet 數(shù)據(jù)庫的錯誤率已降至3.6%。當(dāng)時還在微軟研究院的何愷明及其同事使用的低錯誤率深度學(xué)習(xí)網(wǎng)絡(luò),在許多方面都與視覺皮層十分相似;這類網(wǎng)絡(luò)由楊立昆最早提出,并最初把它命名為“Le Net”。
20 世紀(jì) 80 年代,杰弗里·辛頓和我第一次見到這個法國學(xué)生楊立昆(見圖9–1,右)。他9 歲時,就深受1968 年史詩級的科幻電影《2001 太空漫游》(2001: A Space Odyssey)中的任務(wù)計(jì)算機(jī) HAL 9000的啟發(fā),想要開發(fā)人工智能。他曾獨(dú)立發(fā)明了反向傳播誤差算法的一種版本,并記錄在他1987 年的博士論文中,10 之后他就搬到多倫多,加入了杰弗里的團(tuán)隊(duì)。后來,他轉(zhuǎn)去了美國電話電報公司(AT&T)在新澤西州霍姆德爾(Holmdel)的貝爾實(shí)驗(yàn)室,在那里他創(chuàng)造了一個可以讀取信件上的手寫郵政編碼的網(wǎng)絡(luò),采用修訂的美國國家標(biāo)準(zhǔn)與技術(shù)研究院(Modified National Institute of Standards and Technology,簡稱MNIST)數(shù)據(jù)庫作為一種標(biāo)記數(shù)據(jù)基準(zhǔn)。每天有數(shù)百萬封信件需要遞送到信箱里;而今天,這個過程是完全自動化的。同樣的技術(shù)也可以用來自動讀取ATM 機(jī)上銀行支票的金額。有趣的是,最難的部分其實(shí)是查找支票上數(shù)字的位置,因?yàn)槊繌堉倍加胁煌母袷健T缭?0 世紀(jì) 80 年代,楊立昆就顯露出了證明原理(學(xué)者們擅長的事情)并將之應(yīng)用在現(xiàn)實(shí)世界中的非凡天賦。后者要求實(shí)際產(chǎn)品必須經(jīng)過嚴(yán)格的測試,且表現(xiàn)穩(wěn)健。
卷積網(wǎng)絡(luò)的漸進(jìn)式改進(jìn)
楊立昆在2003 年去了紐約大學(xué)后,仍繼續(xù)開發(fā)他的視覺網(wǎng)絡(luò),現(xiàn)在被稱為卷積網(wǎng)絡(luò)(ConvNet)(見圖9–2)。這個網(wǎng)絡(luò)的基本結(jié)構(gòu)是基于卷積的,卷積可以被想象成一個小的滑動濾波器,在滑過整張圖像的過程中創(chuàng)建一個特征層。例如,過濾器可以是一個定向邊緣檢測器,就像第5 章中介紹的那樣,只有當(dāng)窗口對準(zhǔn)圖像中具有正確方向或紋理的對象的邊緣時,才會產(chǎn)生大數(shù)值輸出。盡管第一層上的窗口只是圖像中的一小塊區(qū)域,但由于可以有多個濾波器,因此在每個圖塊中都能得到許多特征信息。第一層中與圖像卷積的濾波器,與大衛(wèi)·休伯爾和托斯坦·威澤爾在初級視覺皮層中發(fā)現(xiàn)的“簡單細(xì)胞”類似(見圖9–3)。更高層次的濾波器則對更復(fù)雜的特征做出響應(yīng)。在卷積網(wǎng)絡(luò)的早期版本中,每個濾波器的輸出都要通過一個非線性的Sigmoid 函數(shù)(輸出從 0 平穩(wěn)地增加到 1),這樣可以抑制弱激活單元的輸出(見方框7.2 中的Sigmoid 函數(shù))。第二層接收來自第一層的輸入,第二層的窗口覆蓋了更大的視野區(qū)域,這樣經(jīng)過多層之后,就會存在一些能接收整個圖像輸入的單元。這個最頂層就類似于視覺層級的頂層,在靈長類動物中被稱為“下顳葉皮層”,并且具有覆蓋大部分視野的感受野。接著,頂層的單元被送入分類層,與其中的所有分類單元連接,再采用反向傳播誤差的方式訓(xùn)練整個網(wǎng)絡(luò),對圖像中的對象進(jìn)行分類。
(上圖)(a,b)視覺皮層中的層級結(jié)構(gòu),從視網(wǎng)膜輸入到初級視覺皮層(V 1),經(jīng)過丘腦(RGC, LGN)到下顳葉皮層(PIT,CIT,AIT),展示了視覺皮層區(qū)域和卷積網(wǎng)絡(luò)中層次的對應(yīng)關(guān)系。(下圖)(c)左側(cè)圖像作為輸入映射到第一個卷積層,后者由幾個特征平面組成,每個特征平面代表一個濾波器,類似在視覺皮層中發(fā)現(xiàn)的定向簡單單元。這些濾波器的輸出經(jīng)過閾值處理并匯集到第一層,再進(jìn)行歸一化處理,以便在小塊區(qū)域中產(chǎn)生不變的響應(yīng),類似于視覺皮層中的復(fù)雜細(xì)胞(圖中方框:線性—非線性層中的操作)。以上操作在網(wǎng)絡(luò)的每個卷積層上重復(fù)。輸出層與來自上一個卷積層的全部輸入具有全面的連接(每個輸出單元都有上一層全部單元的輸入)。
每個濾波器都作用于視野中的一小塊圖像區(qū)域。頂部三排中濾波器的優(yōu)選刺激像視覺皮層中的簡單細(xì)胞一樣具有定向性。底部三排顯示的優(yōu)選刺激經(jīng)過了擴(kuò)展,并具有復(fù)雜的形狀。
卷積網(wǎng)絡(luò)多年來一直在經(jīng)歷許多漸進(jìn)式改進(jìn)。一個重要的補(bǔ)充,是將一個區(qū)域上的每個特征聚合起來,叫作“池化”(pooling)。這種操作提供了一種平移不變性(translation invariance)的量度,類似于由休伯爾和威澤爾在初級視覺皮層中發(fā)現(xiàn)的復(fù)雜細(xì)胞,能夠通過一個圖塊對整個視野中相同方向的線做出響應(yīng)。另一個有用的操作是增益歸一化(gain normalization),就是調(diào)整輸入的放大倍數(shù),使每個單元都在其操作范圍內(nèi)工作,在皮層中是通過反饋抑制(feedbackinhibition)實(shí)現(xiàn)的。Sigmoid 輸出函數(shù)也被線性整流函數(shù)(rectifiedlinear units,簡稱ReLUs)取代。在輸入達(dá)到一個閾值之前這些單元的輸出都為零,超過閾值之后則輸出和輸入呈線性增長。該操作的優(yōu)點(diǎn)在于:低于閾值的單元被有效地排除在網(wǎng)絡(luò)外,這更接近真實(shí)神經(jīng)元中閾值的作用。
卷積網(wǎng)絡(luò)的每一個性能的改進(jìn),其背后都有一個工程師可以理解的計(jì)算理由。但有了這些變化,它越來越接近20 世紀(jì) 60 年代我們所了解的視覺皮層的體系結(jié)構(gòu),盡管當(dāng)時我們只能去猜測簡單和復(fù)雜單元的功能是什么,或者層級結(jié)構(gòu)頂部的分布式表征的存在意味著什么。這說明了生物學(xué)與深度學(xué)習(xí)之間存在相得益彰的共生關(guān)系的潛力。
當(dāng)深度學(xué)習(xí)遇到視覺層級結(jié)構(gòu)
加州大學(xué)圣迭戈分校的帕特里夏·丘奇蘭德不僅是心靈哲學(xué)家,同時也研究神經(jīng)哲學(xué)。知識最終取決于大腦如何表達(dá)知識的說法,顯然沒有人阻止哲學(xué)家認(rèn)為知識是獨(dú)立于世界而存在的一種東西,用伊曼努爾·康德(Immanuel Kant)的話來說,就是“Ding an sich”(物自身)。但同樣清楚的是,如果我們(和其他動物一樣)要在現(xiàn)實(shí)世界中生存,背景知識就是必不可少的。經(jīng)過訓(xùn)練的多層神經(jīng)網(wǎng)絡(luò)的隱藏單元之間的活動模式,與被逐次記錄下的大量生物神經(jīng)之間的活動模式存在顯著的相似性。受到這種相似性的驅(qū)動,帕特里夏和我在1992 年編寫了《計(jì)算腦》(The Computational Brain)一書,為基于大量神經(jīng)元的神經(jīng)科學(xué)研究開發(fā)了一個概念框架。(該書現(xiàn)在已經(jīng)出到第二版了,如果你想更多地了解大腦式的運(yùn)算,這會是一本很好的入門參考。)麻省理工學(xué)院的詹姆斯·狄卡羅(James DiCarlo)最近比較了猴子視覺皮層層級結(jié)構(gòu)中不同神經(jīng)元和深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中的單元,訓(xùn)練它們識別相同圖片中的對象,分別觀察它們的響應(yīng)。他得出結(jié)論:深度學(xué)習(xí)網(wǎng)絡(luò)中每層神經(jīng)元的統(tǒng)計(jì)特性,與皮層層級結(jié)構(gòu)中神經(jīng)元的統(tǒng)計(jì)特性非常接近。
深度學(xué)習(xí)網(wǎng)絡(luò)中的單元與猴子視覺皮層中神經(jīng)元性能存在相似性,但其原因仍然有待研究,尤其是考慮到猴子的大腦不太可能使用反向傳播方式來進(jìn)行學(xué)習(xí)。反向傳播需要將詳細(xì)的錯誤信號反饋給神經(jīng)網(wǎng)絡(luò)每層中的每個神經(jīng)元,其精度比生物神經(jīng)網(wǎng)絡(luò)中已知反饋連接的精度要高得多。但其他學(xué)習(xí)算法在生物學(xué)上似乎更合理,例如玻爾茲曼機(jī)學(xué)習(xí)算法,該算法使用了已經(jīng)在皮層中被發(fā)現(xiàn)的赫布突觸可塑性。這引出了一個有趣的問題,是否存在一種深度學(xué)習(xí)的數(shù)學(xué)理論,能夠適用于一大類學(xué)習(xí)算法(包括皮層中的那些)呢?在第7 章中,我提到了對視覺層級結(jié)構(gòu)的上層分類表面的分析,其決策表面比更低層級的表面更平坦。對決策表面的幾何分析可能會引出對深度學(xué)習(xí)網(wǎng)絡(luò)和大腦更深入的數(shù)學(xué)理解。
深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的一個優(yōu)點(diǎn)是,我們可以從網(wǎng)絡(luò)中的每個單元提取“記錄”,并追蹤信息流從一層到另一層的轉(zhuǎn)變。然后可以將分析這種網(wǎng)絡(luò)的策略用于分析大腦中的神經(jīng)元。關(guān)于技術(shù)的一個奇妙之處在于,技術(shù)背后通常都有一個很好的解釋,并且有強(qiáng)烈的動機(jī)來得到這種解釋。第一臺蒸汽發(fā)動機(jī)是由工程師根據(jù)他們的直覺建造的;解釋發(fā)動機(jī)如何工作的熱力學(xué)理論隨后出現(xiàn),并且?guī)椭嵘税l(fā)動機(jī)的效率。物理學(xué)家和數(shù)學(xué)家對深度學(xué)習(xí)網(wǎng)絡(luò)的分析也正在順利進(jìn)行著。
有工作記憶的神經(jīng)網(wǎng)絡(luò)
自20 世紀(jì) 60 年代以來,神經(jīng)科學(xué)已經(jīng)走過了漫長的道路,從我們目前對大腦的了解中可以獲得很多東西。1990 年,帕特里夏·高德曼–拉奇克(Patricia Goldman-Rakic)訓(xùn)練了一只猴子來記住一個地點(diǎn),作為提示,該地點(diǎn)會短暫地被一盞燈照亮;她還訓(xùn)練這只猴子在一段時間的延遲之后,把眼睛移動到被記住的地點(diǎn)。在記錄了猴子前額葉皮層的活動后,她在報告中提到,一些最初對提示做出回應(yīng)的神經(jīng)元在延遲期間仍然保持活躍狀態(tài)。心理學(xué)家把人類的這種活動稱為“工作記憶”,也正因?yàn)橛辛斯ぷ饔洃洠覀冊趫?zhí)行任務(wù)(比如撥打電話號碼)時,能夠記住7±2 項(xiàng)內(nèi)容。
傳統(tǒng)的前饋網(wǎng)絡(luò)將輸入傳到網(wǎng)絡(luò)中,一次傳播一層網(wǎng)絡(luò)。結(jié)合工作記憶,可以使后續(xù)的輸入與之前的輸入在網(wǎng)絡(luò)中留下的痕跡進(jìn)行交互。例如,把法語句子翻譯成英文時,網(wǎng)絡(luò)中的第一個法語單詞會影響后續(xù)英語單詞的順序。在網(wǎng)絡(luò)中實(shí)現(xiàn)工作記憶的最簡單方法,是添加人類皮層中常見的循環(huán)連接。神經(jīng)網(wǎng)絡(luò)中某一層內(nèi)的循環(huán)連接和之前那些層的反饋連接,使得輸入的時間序列可以在時間上整合起來。
這種網(wǎng)絡(luò)在20 世紀(jì) 80 年代被探索并廣泛應(yīng)用于語音識別。在實(shí)踐中,它在具有短程依賴性的輸入方面效果很好,但當(dāng)輸入之間的時間間隔很長,輸入的影響會隨著時間的推移發(fā)生衰減,網(wǎng)絡(luò)性能就會變差。1997 年,賽普·霍克萊特(Sepp Hochreiter)和尤爾根·施密德胡博(Jürgen Schmidhuber)找到了一種方法來克服衰變問題,他們稱之為“長短期記憶”(long short-term memory,簡稱 LSTM)。默認(rèn)情況下,長短期記憶會傳遞原始信息,而不會發(fā)生衰減(這就是猴子前額葉皮層的延遲期中發(fā)生的事情),并且它也有一個復(fù)雜的方案來決定如何將新的輸入信息與舊信息整合。于是,遠(yuǎn)程依賴關(guān)系可以被選擇性地保留。神經(jīng)網(wǎng)絡(luò)中這種工作記憶版本沉寂了長達(dá)20 年之久,直到它在深度學(xué)習(xí)網(wǎng)絡(luò)中再次被喚醒和實(shí)現(xiàn)。長短期記憶和深度學(xué)習(xí)的結(jié)合在許多依賴輸入輸出序列的領(lǐng)域都取得了令人矚目的成功,例如電影、音樂、動作和語言。
施密德胡博是位于瑞士南部提契諾州(Ticino)曼諾小鎮(zhèn)的 Dalle Molle 人工智能研究所的聯(lián)合主任。該小鎮(zhèn)靠近阿爾卑斯山,周圍有一些絕佳的徒步地點(diǎn)。神經(jīng)網(wǎng)絡(luò)領(lǐng)域的這位頗具創(chuàng)造性、特立獨(dú)行的“羅德尼·丹澤菲爾德”相信他的創(chuàng)造力并沒有得到足夠的贊譽(yù)。
因此,在蒙特利爾舉辦的2015 年NIPS 會議的一次小組討論會上,他再次向與會人員介紹了自己,“我,施密德胡博,又回來了”。而在巴塞羅那舉行的2016 年 NIPS 大會上,他因培訓(xùn)宣講人沒有對自己的想法給予足夠的關(guān)注,而打亂對方的演講長達(dá)5 分鐘。
2015 年,Kelvin Xu 及其同事在用一個深度學(xué)習(xí)網(wǎng)絡(luò)識別圖像中對象的同時,還連接了一個長短期記憶循環(huán)網(wǎng)絡(luò)來標(biāo)注圖片。使用來自深度學(xué)習(xí)網(wǎng)絡(luò)第一遍識別的場景中所有對象作為輸入,他們訓(xùn)練長短期記憶循環(huán)網(wǎng)絡(luò)輸出一串英文單詞,能夠形容一個標(biāo)注中的場景。他們還訓(xùn)練了長短期記憶網(wǎng)絡(luò)來識別圖像中的位置,使其對應(yīng)于標(biāo)注中的每個單詞。該應(yīng)用令人印象深刻的地方在于,長短期記憶網(wǎng)絡(luò)從未被訓(xùn)練來理解標(biāo)注中句子的含義,只是根據(jù)圖像中的對象及其位置輸出一個語法正確的單詞串。通過分析長短期記憶網(wǎng)絡(luò)也許會引出一種新的語言理論,它將闡明網(wǎng)絡(luò)的工作原理和自然語言的性質(zhì)。
深度學(xué)習(xí)為圖片做標(biāo)注。頂部的一組圖片說明了分析照片的步驟。ConvNet( CNN)在第一步中標(biāo)記了照片中的對象,并將其傳遞給循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。RNN 被訓(xùn)練輸出適當(dāng)?shù)挠⑽膯卧~串。底部的四組圖片則闡明了進(jìn)一步細(xì)化的過程,即使用注意力(白色云)來表示照片中單詞的指示對象。
生成式對抗網(wǎng)絡(luò)
在第7章中,玻爾茲曼機(jī)被當(dāng)作一個生成模型進(jìn)行了介紹,當(dāng)輸出被鉗制到一個它已訓(xùn)練識別的類型中,并且其活動模式向下滲透到輸入層時,就可以產(chǎn)生新的輸入樣本。伊恩·古德費(fèi)洛(Ian Goodfellow)、約書亞·本吉奧(Yoshua Bengio)和他們在蒙特利爾大學(xué)的同事們表示,可以訓(xùn)練前饋網(wǎng)絡(luò),在對抗的背景(adversarialcontext)下生成更好的樣本。一個生成卷積網(wǎng)絡(luò)可以通過嘗試欺騙另一個卷積神經(jīng)網(wǎng)絡(luò)來訓(xùn)練生成優(yōu)質(zhì)的圖像樣本,后者必須決定一個輸入的圖像是真實(shí)的還是虛假的。生成網(wǎng)絡(luò)的輸出被用來作為一個經(jīng)過訓(xùn)練的判別卷積網(wǎng)絡(luò)(discriminative convolutional network)的輸入,后者只給出一個單一的輸出:如果輸入是真實(shí)圖像,就返回1,否則返回0。這兩個網(wǎng)絡(luò)會相互競爭。生成網(wǎng)絡(luò)試圖增加判別網(wǎng)絡(luò)的錯誤率,而判別網(wǎng)絡(luò)則試圖降低自身的錯誤率。由這兩個目標(biāo)之間的緊張關(guān)系產(chǎn)生的圖像,擁有令人難以置信的照片級的真實(shí)感。
生成式對抗網(wǎng)絡(luò)(GAN)。頂部的示意圖展示了一個卷積網(wǎng)絡(luò),用于生成一組樣本圖像,經(jīng)過訓(xùn)練后可以欺騙判別卷積網(wǎng)絡(luò)。左邊的輸入是100 維的隨機(jī)選取的連續(xù)值向量,用來生成不同的圖像;輸入的向量隨后激活空間尺度逐層變大的濾波器層。下方的圖顯示了通過訓(xùn)練來自單個類別照片的生成式對抗網(wǎng)絡(luò)產(chǎn)生的樣本圖像。
別忘了,這些生成的圖像是合成的,它們中的對象并不存在。它們是訓(xùn)練集中未標(biāo)記圖像的泛化版本。請注意,生成式對抗網(wǎng)絡(luò)是無監(jiān)督的,這使得它們可以使用無限的數(shù)據(jù)。這些網(wǎng)絡(luò)還有許多其他應(yīng)用,包括清除具有超高分辨率的星系天文圖片中的噪聲,以及學(xué)習(xí)表達(dá)富有情感的言語。
用面部圖片訓(xùn)練的生成式網(wǎng)絡(luò)的輸入混合后,產(chǎn)生了輸出(左圖),然后通過添加或減去選定的輸入向量進(jìn)行輸出,就創(chuàng)建出了混合后的圖像(右圖)。因?yàn)榛旌鲜窃谧罡叩谋碚鲗油瓿傻模圆课缓妥藙菔菬o縫接合的,并不會經(jīng)過變形過程中那樣的平均處理。
通過慢慢地改變生成式網(wǎng)絡(luò)的輸入向量,有可能逐漸改變圖像,使得部件或零碎物品(如窗戶)逐漸顯現(xiàn)或變成其他物體(如櫥柜)。更值得關(guān)注的是,有可能通過添加和減去表示網(wǎng)絡(luò)狀態(tài)的向量以獲得圖像中對象的混合效果,如圖9–6 所示。這些實(shí)驗(yàn)的意義在于,生成網(wǎng)絡(luò)對圖像中空間的表征,正如我們?nèi)绾蚊枋鰣鼍暗母鱾€組成部分。這項(xiàng)技術(shù)正在迅速發(fā)展,其下一個前沿領(lǐng)域是生成逼真的電影。通過訓(xùn)練一個反復(fù)演繹的生成式對抗網(wǎng)絡(luò),與類似瑪麗蓮·夢露這樣的演員參演的電影進(jìn)行對比,應(yīng)該有可能創(chuàng)造出已過世的演員出演的新作品。
這是米蘭的時裝周,衣著光鮮的模特們帶著超凡脫俗的表情在T臺上走秀。時尚界正在經(jīng)歷暗潮涌動:“‘很多工作正在消失,’西爾維婭·文圖里尼·芬迪(Silvia Venturini Fendi)在她的時裝秀開場前說道,‘機(jī)器人會承擔(dān)舊的工作,但它們唯一無法取代的就是我們的創(chuàng)造力和思維。’”現(xiàn)在想象一下經(jīng)過訓(xùn)練的新一代對抗網(wǎng)絡(luò),它們可以生產(chǎn)新款式和高級時裝,式樣幾乎無窮無盡。時尚界可能正處于一個新時代的邊緣,而許多其他依賴創(chuàng)意的行業(yè)也面臨著相同的處境。
應(yīng)對現(xiàn)實(shí)社會的復(fù)雜性
當(dāng)前的大多數(shù)學(xué)習(xí)算法是在25 年前開發(fā)的,為什么它們需要那么長的時間才能對現(xiàn)實(shí)世界產(chǎn)生影響呢?20 世紀(jì) 80 年代的研究人員使用的計(jì)算機(jī)和標(biāo)記數(shù)據(jù),只能證明玩具問題的原理。盡管取得了一些似乎頗有前景的成果,但我們并不知道網(wǎng)絡(luò)學(xué)習(xí)及其性能如何隨著單元和連接數(shù)量的增加而增強(qiáng),以適應(yīng)現(xiàn)實(shí)世界問題的復(fù)雜性。人工智能中的大多數(shù)算法縮放性很差,從未跳出解決玩具級別問題的范疇。我們現(xiàn)在知道,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的縮放性很好,隨著網(wǎng)絡(luò)規(guī)模和層數(shù)的不斷增加,其性能也在不斷增強(qiáng)。特別是反向傳播技術(shù),它的縮放性非常好。
我們應(yīng)該對此感到驚訝嗎?大腦皮層是哺乳動物的一項(xiàng)發(fā)明,在靈長類動物,尤其是人類中得到了高度發(fā)展。隨著它的擴(kuò)展,更多的功能慢慢出現(xiàn),并且更多層次被添加到了關(guān)聯(lián)區(qū)域,以實(shí)現(xiàn)更高階的表征。很少有復(fù)雜系統(tǒng)可以實(shí)現(xiàn)如此高級的縮放。互聯(lián)網(wǎng)是為數(shù)不多的已經(jīng)被擴(kuò)大了100 萬倍的工程系統(tǒng)之一。一旦通信數(shù)據(jù)包協(xié)議建立起來,互聯(lián)網(wǎng)就會開始進(jìn)化,正如DNA 中的遺傳密碼使細(xì)胞演化成為可能一樣。
使用相同的一組數(shù)據(jù)訓(xùn)練許多深度學(xué)習(xí)網(wǎng)絡(luò),會導(dǎo)致生成大量不同的網(wǎng)絡(luò),它們都具有大致相同的平均性能水平。我們想知道的是,所有這些同等優(yōu)秀的網(wǎng)絡(luò)有哪些共同之處,而對單個網(wǎng)絡(luò)進(jìn)行分析并不能揭示這一點(diǎn)。理解深度學(xué)習(xí)原理的另一種方法是進(jìn)一步探索學(xué)習(xí)算法的空間;我們只在所有學(xué)習(xí)算法的空間中對幾個位置進(jìn)行了抽樣嘗試。從更廣泛的探索中可能會出現(xiàn)一種學(xué)習(xí)計(jì)算理論,該理論與其他科學(xué)領(lǐng)域的理論一樣深奧,可能為從自然界中發(fā)現(xiàn)的學(xué)習(xí)算法提供更多的解釋。
蒙特利爾大學(xué)的約書亞·本吉奧,和楊立昆一起,接替杰弗里·辛頓,成為CIFAR 神經(jīng)計(jì)算和NCAP 項(xiàng)目的主任,該項(xiàng)目在通過十年評估后更名為“機(jī)器學(xué)習(xí)和大腦學(xué)習(xí)”項(xiàng)目(Learning in Machines and Brains)。約書亞率領(lǐng)蒙特利爾大學(xué)的一個團(tuán)隊(duì),致力于應(yīng)用深度學(xué)習(xí)來處理自然語言,這將成為“機(jī)器學(xué)習(xí)和大腦學(xué)習(xí)”項(xiàng)目新的研究重點(diǎn)。在十多年的會議中,這個由20 多名教師和研究員組成的小組開啟了深度學(xué)習(xí)的研究。過去5 年來,深度學(xué)習(xí)在過去難以解決的許多問題上取得了實(shí)質(zhì)性進(jìn)展,這些進(jìn)展歸功于小組成員的努力,他們當(dāng)然只是一個更龐大社區(qū)中的一小部分人。
約書亞·本吉奧是 CIFAR“機(jī)器學(xué)習(xí)和大腦學(xué)習(xí)”項(xiàng)目的聯(lián)合主任。這位在法國出生的加拿大籍計(jì)算機(jī)科學(xué)家,一直是應(yīng)用深度學(xué)習(xí)處理自然語言問題這個領(lǐng)域的領(lǐng)導(dǎo)者。杰弗里·辛頓、楊立昆和約書亞·本吉奧所取得的進(jìn)展,為深度學(xué)習(xí)的成功奠定了基礎(chǔ)。圖片來源:約書亞·本吉奧。
盡管深度學(xué)習(xí)網(wǎng)絡(luò)的能力已經(jīng)在許多應(yīng)用中得到了證明,但如果單靠自身,它們在現(xiàn)實(shí)世界中永遠(yuǎn)都無法存活下來。29 它們受到了研究者的青睞,后者為其提供數(shù)據(jù),調(diào)整超參數(shù),例如學(xué)習(xí)速度、層數(shù)和每層中的單元數(shù)量,以改善收斂效果,還為其提供了大量計(jì)算資源。另一方面,如果沒有大腦和身體的其他部分提供支持和自主權(quán),大腦皮層也無法在現(xiàn)實(shí)世界中存活。在一個不確定的世界中,這種支持和自主權(quán)是一個比模式識別更難解決的問題。
-
機(jī)器視覺
+關(guān)注
關(guān)注
162文章
4402瀏覽量
120544 -
圖像識別
+關(guān)注
關(guān)注
9文章
521瀏覽量
38323 -
卷積
+關(guān)注
關(guān)注
0文章
95瀏覽量
18530
原文標(biāo)題:卷積學(xué)習(xí)與圖像識別的技術(shù)發(fā)展
文章出處:【微信號:vision263com,微信公眾號:新機(jī)器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論