【導(dǎo)讀】看起來,繼Gary Marcus之后,LeCun的「一生之?dāng)场箍赡苡忠嗌弦粋€了!
最近,LSTM之父Jürgen Schmidhuber一言不合又跟LeCun干上了! 其實之前稍微熟悉這位暴脾氣大爺?shù)耐瑢W(xué)都知道,特立獨行的Jürgen Schmidhuber和機器學(xué)習(xí)社區(qū)的幾位大佬級人物之間都有過不愉快。 尤其是當(dāng)「那三個人」一起拿了個圖靈獎,而Schmidhuber卻沒有之后,這位老爺子就更氣了……
說到底Schmidhuber一直認(rèn)為,現(xiàn)在這幾個ML領(lǐng)軍人物,什么Bengio、Hinton、LeCun,包括「GAN」之父Goodfellow等人,他們的很多所謂「開創(chuàng)性成果」都是自己先提出來的,而這些人在論文中根本就沒提過他。
為此,Schmidhuber曾經(jīng)專門撰文把Bengio、Hinton、LeCun于2015年發(fā)在Nature上的綜述性文章「Deep Learning」一文拿出來批判過一番。
主要是說這篇文章里的成果,哪些東西是他先提的,哪些東西是別的前輩先提的,反正不是這仨作者先提的。 怎么又吵起來了?
回到這次事件起因,實際上是LeCun在9月份發(fā)的一條推文。 內(nèi)容是對David Chalmers教授提問的回答:「在過去十年中,AI最重要的智力突破(新想法)是什么?」
10月4日,Schmidhuber在他的博客上撰文怒斥:這5個「best idea」大部分都來自于我的實驗室,而且提出的時間要遠(yuǎn)遠(yuǎn)早于「10年」這個時間節(jié)點。 文中Schmidhuber詳細(xì)列舉了六大證據(jù)來支撐自己的論述。
但估計是因為看到的人太少,Schmidhuber又在11月22日發(fā)推,重新把這個「冷飯」炒了一遍。 然而,相比于上一次還算激烈的爭辯,這回LeCun連理都沒理……
LSTM之父擺出「六大證據(jù)」
1. 通過神經(jīng)網(wǎng)絡(luò)(NN)自動生成標(biāo)注的「自監(jiān)督學(xué)習(xí)」:至少可以追溯到我1990-91年的工作。 (I) 通過預(yù)測編碼在一個循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中進(jìn)行自監(jiān)督的目標(biāo)生成,來學(xué)習(xí)在多個時間尺度和抽象層次上壓縮數(shù)據(jù)序列。
在這里,一個「自動機」RNN學(xué)會了「預(yù)測下一個輸入」的前置任務(wù),并將傳入數(shù)據(jù)流中的意外觀察作為目標(biāo)發(fā)送給「分塊機」RNN,后者學(xué)習(xí)更高層次的規(guī)律性,隨后通過適當(dāng)?shù)挠?xùn)練目標(biāo)將其獲得的預(yù)測知識提煉回自動機中。 這大大促進(jìn)了以前無法解決的序列分類的下游深度學(xué)習(xí)任務(wù)。
(II) 通過GAN類型的內(nèi)在動機進(jìn)行自監(jiān)督的標(biāo)注生成,其中一個世界模型NN學(xué)習(xí)預(yù)測對抗性的、標(biāo)注生成的、實驗發(fā)明的控制器NN的行為后果。
此外,我于1990年發(fā)表的論文標(biāo)題中,就已經(jīng)出現(xiàn)了「自監(jiān)督」的說法。
但是吧,在更早期(1978年)的論文中,也用到了這個詞……
2. 「ResNets」:實際上就是我早期提出的Highway Nets。但LeCun卻認(rèn)為ResNets的智力「不深」,這讓我非常傷心。 在我提出Highway Nets之前,前饋網(wǎng)絡(luò)最多只有幾十層(20-30層),而Highway Nets是第一個真正的深度前饋神經(jīng)網(wǎng)絡(luò),有數(shù)百層。
在1990年代,我的LSTM給有監(jiān)督的遞歸NN帶來了基本無限的深度。在2000年代,LSTM啟發(fā)的Highway Nets給前饋NN帶來了深度。 由此帶來的是,LSTM已經(jīng)成為20世紀(jì)被引用最多的NN,而Highway Nets(ResNet)是21世紀(jì)被引用最多的NN。 可以說,它們代表了深度學(xué)習(xí)的精髓,而深度學(xué)習(xí)就是關(guān)于NN的深度。
3. 「門控-》注意力-》動態(tài)連通圖」:至少可以追溯到我的Fast Weight Programmers和1991-93年的Key-Value Memory Networks(其中的「Key-Value」被稱為「FROM-TO」)。 1993年,我引入了現(xiàn)在使用的術(shù)語「注意力」。
不過值得注意的是,NN中的第一個乘法門可以追溯到1965年Ivakhnenko & Lapa的深度學(xué)習(xí)機。 4. 「Differentiable memory」:同樣可以追溯到我的Fast Weight Programmers或1991年的Key-Value Memory Networks。 像傳統(tǒng)計算機中那樣分離存儲和控制,但以端到端差分、自適應(yīng)、完全神經(jīng)的方式(而不是以混合方式)。
5. 「置換等變模塊,例如多頭自注意力-》Transformer」:我在1991年發(fā)表了帶有線性化自注意的Transformer。相應(yīng)的「注意力」術(shù)語(internal spotlights of attention)可以追溯到1993年。
6. 「GAN是過去10年中最好的機器學(xué)習(xí)理念」 你提到的這個GAN(2014年)的原理,實際上是我在1990年以人工智能好奇心的名義提出的。
上一次,還是在幾個月之前
其實這已經(jīng)不是Schmidhuber和LeCun之間今年第一次發(fā)生爭執(zhí)了。 在六七月間,兩人就關(guān)于LeCun發(fā)表的一篇「自主機器智能未來方向」的展望報告有來有回地吵了一番。 6月27日,Yann LeCun發(fā)表了自己積蓄幾年的論文「A Path Towards Autonomous Machine Intelligence」,并稱其為「指明AI未來發(fā)展方向之作」。
這篇論文系統(tǒng)講述了關(guān)于「機器如何能像動物和人類一樣學(xué)習(xí)」的問題,長達(dá)60多頁。 LeCun表示,此文不僅是自己關(guān)于未來5-10年內(nèi)關(guān)于AI發(fā)展大方向的思考,也是自己未來幾年打算研究的內(nèi)容,并希望能夠啟發(fā)AI界的更多人來一起研究。
而Schmidhuber大概提前十幾天就得知這個消息,并拿到了這篇論文,當(dāng)即就寫了一篇文章反駁。 按照Schmidhuber自己在博客上文章的說法,當(dāng)時事情是這樣的: 2022年6月14日,一家科學(xué)媒體發(fā)布消息,說LeCun在6月27日要發(fā)布一篇報告,給我發(fā)了一份報告的草稿(當(dāng)時還在保密期),并要求我發(fā)表評論。 我寫了一篇評論,告訴他們這基本上是我們以前工作的翻版,而LeCun的文章中并沒有提到。 然而,我的意見被置若罔聞。
實際上,早在他這篇東西發(fā)表以前,我們就提出了LeCun在這篇文中所謂的「主要原創(chuàng)貢獻(xiàn)」的大部分內(nèi)容,主要有: (1) 「認(rèn)知架構(gòu),其中所有模塊都是可分的,而且許多模塊是可訓(xùn)練的」(我們在1990年提出)。 (2) 「預(yù)測世界模型的分層結(jié)構(gòu),在多個抽象層次和多個時間尺度上學(xué)習(xí)表征」 (我們在1991年提出)。 (3) 「自我監(jiān)督的學(xué)習(xí)范式,產(chǎn)生同時具有信息性和可預(yù)測性的表征」(我們的模型自1997年起就用于強化學(xué)習(xí)和世界建模了) (4) 「用于不確定性下的分層規(guī)劃」的預(yù)測模型,包括基于梯度的神經(jīng)子目標(biāo)生成器(1990年)、抽象概念空間的推理(1997年)、「主要通過觀察學(xué)習(xí)行動」的神經(jīng)網(wǎng)絡(luò)(2015年),以及學(xué)習(xí)思考(2015年),都是我們先提出的。 7月14日,Yann LeCun回應(yīng),說討論要有建設(shè)性,他是這么說的:
我不想陷入一場關(guān)于「某個概念是誰發(fā)明的」這種無謂爭論中,也不想在你的回應(yīng)文章中列出的160個參考文獻(xiàn)中深究。我認(rèn)為更有建設(shè)性的做法是,指出你認(rèn)為可能包含我列出的4項貢獻(xiàn)中的觀點和方法的4篇出版物。 正如我在論文的開頭所說,有許多概念已經(jīng)存在了很長時間,你和我都不是這些概念的發(fā)明人:比如,可微調(diào)世界模型的概念,可以追溯到早期的優(yōu)化控制工作。 訓(xùn)練世界模型利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)世界模型的系統(tǒng)識別,這個想法可以追溯到80年代末,由Michael Jordan, Bernie Widrow, Robinson & Fallside, Kumpathi Narendra, Paul Werbos進(jìn)行的工作,都比你的工作早。
在我看來,這個稻草人式的回答似乎是LeCun在轉(zhuǎn)移話題,對他的所謂「主要原創(chuàng)貢獻(xiàn)」中貪他人之功的問題避而不談。 我在7月14日回復(fù): 關(guān)于你說的「你我都沒有發(fā)明的東西」:你的論文聲稱,用神經(jīng)網(wǎng)絡(luò)進(jìn)行系統(tǒng)識別可以追溯到20世紀(jì)90年代初。然而,在你的之前的回應(yīng)中,你似乎同意我的觀點:這方面的第一篇論文出現(xiàn)在1980年代。 至于你的「主要原創(chuàng)貢獻(xiàn)」,實際上都用了我早年間的工作成果。 (一) 關(guān)于你提出的「認(rèn)知架構(gòu),其中所有模塊都是可分化的,且許多模塊都是可訓(xùn)練的」,「通過內(nèi)在動機驅(qū)動行為」: 我在1990年就提出了用于在線學(xué)習(xí)和規(guī)劃的可分化架構(gòu),這是第一個具有 「內(nèi)在動機」的控制器,用以改善世界模型,它既是生成性的,也是對抗性的;你文中引用的2014年的GAN是這個模型的一個衍生版本。 (二)關(guān)于你提出的 「在多個抽象層次和時間尺度上學(xué)習(xí)表征的預(yù)測性世界模型的分層結(jié)構(gòu)」: 這是由我1991年的神經(jīng)歷史壓縮機實現(xiàn)的。它使用預(yù)測編碼,以自監(jiān)督的方式學(xué)習(xí)長序列數(shù)據(jù)的分層內(nèi)部表征,大大促進(jìn)了下游的學(xué)習(xí)。使用我1991年的神經(jīng)網(wǎng)絡(luò)提煉程序,這些表征可以被折疊成一個單一的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。 (三)關(guān)于你在控制方面的「自監(jiān)督學(xué)習(xí)范式,產(chǎn)生同時具有信息性和可預(yù)測性的表征」: 這一點我在1997年提出構(gòu)建的系統(tǒng)中已經(jīng)提出。它不是預(yù)測未來輸入的所有細(xì)節(jié),而是可以提出任意的抽象問題,并在你所說的「表征空間」中給出可計算的答案。在這個系統(tǒng)中,兩個名為「左腦」和「右腦」的學(xué)習(xí)模型,選擇獎勵最大化的對手進(jìn)行零和博弈,偶爾還會在這種計算實驗的結(jié)果上打賭。 (四)關(guān)于你的可用于不確定情況下的分層規(guī)劃預(yù)測性可微分模型,你的文章里是這么寫的: 「一個尚未回答的問題是,配置器如何學(xué)習(xí)將一個復(fù)雜的任務(wù)分解為一連串可以由智能體單獨完成的子目標(biāo)。我將把這個問題留給未來的調(diào)查。」 就別說什么未來了,實際上我在30多年前就發(fā)表過這樣的文章: 一個控制器神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)獲得額外的命令輸入,其形式為(開始,目標(biāo))。一個評估器神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)學(xué)習(xí)預(yù)測從開始到目標(biāo)的預(yù)期成本。一個基于可微調(diào)循環(huán)神經(jīng)網(wǎng)絡(luò)的子目標(biāo)生成器看到了這個(開始,目標(biāo))的輸入,并使用評估器神經(jīng)網(wǎng)絡(luò),通過梯度下降學(xué)習(xí)一系列成本最小的中間子目標(biāo)。 (五)你還強調(diào)了 「主要通過觀察來學(xué)習(xí)行為」的神經(jīng)網(wǎng)絡(luò)。實際上我們很早就解決了這個問題,比2015年這篇文章,討論了部分可觀察環(huán)境中強化學(xué)習(xí)(RL)的一般問題。
世界模型M可能擅長預(yù)測一些事情,但對其他事情不確定。控制器C通過學(xué)習(xí)通過自我發(fā)明的問題序列(激活模式)來查詢并解釋答案(更多的激活模式)來最大化其目標(biāo)函數(shù)。 C可以從學(xué)習(xí)從M中提取任何類型的算法信息中獲益,比如用于分層規(guī)劃和推理,利用M中編碼的被動觀察等等。
審核編輯 :李倩
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4774瀏覽量
100890 -
LSTM
+關(guān)注
關(guān)注
0文章
59瀏覽量
3767
原文標(biāo)題:LSTM之父再次炮轟LeCun:你那5點"創(chuàng)新"都是抄我的!卻慘遭「已讀不回」...
文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論