去年 11 月,“深度學習之父”、計算機科學家、認知心理學家杰弗里?辛頓(Geoffrey Hinton)進行了一次預測。經過了半個世紀的嘗試之后 —— 其中一些取得了巨大的成功,辛頓對大腦的工作原理以及將其復制到電腦中的方法有了更加深刻的認識。
新冠大流行期間,辛頓一直在多倫多的家庭辦公室中隔離。他說道,“這是我目前能夠想到的最好的想法。” 如果這個想法能夠實現,那么它可能會給下一代的人工神經網絡帶來啟發(fā)。
這種數學計算系統的設計靈感來自于大腦的神經元和突觸,而它也是當今人工智能的核心技術。正如辛頓所說的那樣,他的 “根本動機” 源自好奇心。然而,實際動機 —— 最理想的結果,卻是設計出更加可靠、更加值得信賴的人工智能系統。
作為谷歌研究員與向量人工智能研究所聯合創(chuàng)始人的辛頓,斷斷續(xù)續(xù)寫下了自己的想法,并于 2 月末在推特上宣布,他在 arXiv 預印本服務器上發(fā)表了一篇 44 頁的論文。
辛頓在免責聲明中寫道:“這篇論文所介紹的并不是實際工作中的系統,而是一種構想中的系統。” 他稱之為 “GLOM”,“GLOM” 源于單詞 “聚集” 以及短語 “聚在一起”。
辛頓認為,GLOM 可以在機器中還原人類的感知系統,它為在神經網絡中處理和呈現視覺信息提供了新的途徑。從技術層面來說,該系統是一個相似向量的集合體。
向量是神經網絡的基礎,一個向量就是一組包含著信息的數字陣列。最簡單的例子就是一個點的 xyz 坐標,三個數字就可以表示出一個點在三維空間中的位置。
六維向量包含另外三個信息,也許它們代表著這個點的顏色的紅綠藍值。在神經網絡中,成千上萬個維度中的向量代表著整個圖像或文本。辛頓認為,在處理更高維度的問題時,我們的大腦活動會涉及到 “與神經活動有關的大型向量”。
通過類比,辛頓將相似向量的聚集比作了回聲室效應 —— 一種將相似觀點放大的效應。辛頓表示,“對于政治和社會來說,回聲室效應完全是一場災難。但對于神經網絡而言,它卻是一個好東西。”
他將映射了回聲室效應概念的神經網絡稱為 “相同向量的島嶼”,或者更加通俗易懂的 “共識島嶼”—— 當向量在本質信息上達成一致時,它們就會指向相同的方向。
從本質上看,GLOM 同時還在追求實現模擬直覺這一難以達到的目標。辛頓認為,直覺對于感知活動至關重要。他將直覺定義為人類可以輕易進行類比的能力。從小到大,我們通過類比推理以及將相似的物體、觀點或概念映射到另一個對象的方法來感知世界,或者就像辛頓所說的那樣,從一個大型向量到另一個大型向量。
他還表示:“大型向量的相似性解釋了神經網絡進行直覺性類比推理的方式。” 從更廣泛的層面來看,直覺捕捉到了人腦產生想法的難以形容的方式。辛頓的工作遵循著直覺和科學,一切都是在直覺和類比方法的指導下進行的。他的關于大腦運作方式的理論全都與直覺有關。辛頓表示,“我一直都堅定不移。”
辛頓希望,在人工智能能夠真正靈活解決問題之前 —— 可以像人類那樣思考,同時還能夠理解從未見到過的事物,從以前的經驗中尋找相似性,琢磨想法,并且進行概括、推斷以及理解 ——GLOM 可以成為諸多技術突破之一。
辛頓說道,“如果神經網絡更像人類,那么至少它們就可以像我們一樣犯錯誤,因此我們就能夠了解到底是什么讓它們感到困惑。”
然而,GLOM 暫時只是一種想法。辛頓說道,“它是一個霧件。” 他承認 GLOM 這個縮寫與 “杰弗里最后的原創(chuàng)模型” 完美契合。至少,這是辛頓最新的研究成果。
創(chuàng)造性思維
辛頓對人工神經網絡(誕生于二十世紀中期)的熱情可以追溯到上個世紀七十年代早期。到 1986 年,他已經在該領域取得了極大的進展:盡管最初的網絡僅由幾層負責輸入與輸出的神經元層構成,但辛頓和同事們還是提出了更高級的多層網絡技術。然而,計算能力和數據容量趕上并利用好深度架構卻花費了 26 年的時間。
2012 年,辛頓因在深度學習領域取得突破而名利雙收,他與兩名學生一起開發(fā)了一種多層神經網絡,該神經網絡可被訓練識別大型圖像數據集中的物體。
神經網絡學會了去反復提升分類以及識別各種物體的方法 —— 例如,螨蟲、蘑菇、小型摩托車以及馬達加斯加貓。該系統表現出了出乎意料的精準度。
深度學習引發(fā)了最新的人工智能革命,并改變了整個計算機視覺領域。辛頓認為,深度學習幾乎可以完全復制人類的智能。
盡管該領域取得了較快的發(fā)展,但重大挑戰(zhàn)依然存在。在面對陌生的數據集或環(huán)境時,神經網絡會顯得相對脆弱和不夠靈活。
自動駕駛汽車和文本語言生成器讓人印象深刻,但它們也會出錯。人工智能視覺系統也會犯糊涂:系統可以從側方視角識別出咖啡杯,但如果沒有經過訓練,就無法從俯視視角認出它;再加上一些像素的變換,熊貓可能會被錯認成鴕鳥,甚至是校車。
GLOM 解決了視覺感知系統領域的兩個重大難題:從物體以及它們的自然部分角度認識整個場景,以及從新的視角認識事物(GLOM 側重于視覺,但辛頓希望它還能夠應用于語言領域)。
拿辛頓的臉作為例子,疲憊但充滿活力的雙眼、嘴、耳朵以及顯眼的鼻子,都籠罩在較為干凈的灰色中。從顯眼的鼻子可以看出,即使第一次見到辛頓的照片,也可以輕易地認出他。
在辛頓看來,這兩個因素 —— 部分與整體的關系以及視角 —— 對人類的視覺系統至關重要。他說:“如果 GLOM 能夠運行的話,那么它將比現在的神經網絡更像人類那樣去感知事物。”
然而,對于計算機來說,將部分融入整體是一個難題,因為有時候部分的概念是模棱兩可的。一個圓圈可能是一只眼睛、一個甜甜圈或者一個車輪。
正如辛頓所解釋的那樣,第一代人工智能視覺系統主要通過部分與整體的幾何關系 —— 部分之間與部分與整體之間的空間方向 —— 來識別物體。
而第二代系統則依靠深度學習 —— 使用神經網絡訓練大量的數據,辛頓在 GLOM 中將兩個方法各自的優(yōu)勢結合在了一起。
Robust.AI 創(chuàng)始人兼首席執(zhí)行官、對強烈依賴深度學習行為的知名批評家加里?馬庫斯表示,“這種謙遜讓我喜歡。”
馬庫斯對辛頓挑戰(zhàn)自我從而再次成名的意愿表示稱贊,并承認這種方法并不太奏效。他說道,“這是一個勇敢的想法。而‘我正在嘗試使用創(chuàng)造性思維’的說法是一次非常好的糾正行為。”
GLOM 的架構
辛頓在構建 GLOM 時嘗試模擬一些人類在感知世界時所使用的心理捷徑,例如直覺策略或者啟發(fā)法。尼克?弗羅斯特是一名多倫多語言初創(chuàng)公司的計算機科學家,同時也與辛頓在谷歌大腦共事。
弗羅斯特表示,“GLOM 以及杰弗里的大部分工作都在研究人類所擁有的啟發(fā)法,并構建可以學習啟發(fā)法的神經網絡,之后再證明神經網絡更加適合視覺分析。”
通過視覺感知,一種策略是分析一個物體的各個部分 —— 例如不同的面部特征,進而了解整體。如果你看到一個特定的鼻子,那么你也許會認出它出自辛頓的臉,這是一個部分到整體的層次結構。
為了構建一個更好的視覺系統,辛頓表示,“我有很強的直覺,我們需要用到部分到整體的層次結構。” 人類的大腦通過構建 “解析樹” 來理解部分到整體的構成。
解析樹是一種分支圖,表明了整體、部分以及次級部分之間的層次關系。臉位于解析樹的最頂端,而眼睛、鼻子、耳朵以及嘴則位于下面的分支中。
辛頓利用 GLOM 實現的主要目標之一是在神經網絡中再現解析樹,這一特征將使 GLOM 與以往的神經網絡區(qū)別開來。從技術層面來看,構建該系統的難度較大。
弗羅斯特表示,“難以實現的原因在于,每個人都會以獨特的解析樹來解析每個圖像,而我們希望神經網絡也做到這一點。對于系統看到的每一個新圖像,我們很難去使用神經網絡 —— 新結構 —— 解析樹這樣的靜態(tài)結構。”
辛頓進行了各種各樣的嘗試,GLOM 是他在 2017 年所進行的嘗試的修正版本,同時還結合了該領域內其它的相關先進技術。
構想 GLOM 架構的方法一般是這樣的:感興趣的圖片(比方說,辛頓面部的照片)會被網格分割開來。網格上的區(qū)域代表著圖像上的 “位置”—— 這個位置可能包括了虹膜,而另一個位置可能包含了鼻尖。
網絡中的每個位置大約有五層,或者說五級。系統會逐層進行預測,并利用向量代表內容或者信息。在靠近低層的地方,向量代表著預測的鼻尖的位置:“我是鼻子的一部分!” 在接下來的層級中,通過構建更加合乎邏輯的視覺表現,向量可能會預測:“我是側臉圖像中的一部分!”
然而,接下來問題出現了:同一層級中相鄰的向量會認同嗎?當達成一致時,向量會指向同一個方向:“是的,我們都屬于同一個鼻子。” 或者是指向之后的解析樹。“是的,我們都屬于同一張臉。”
在尋求物體本質共識的過程中 —— 有關物體最終的精確定義,GLOM 的向量會反復地、逐一地點并逐層地與旁邊相鄰的向量,以及上層或下層的已經做出預測的向量進行平均分配。
然而,辛頓表示,網絡并不會與附近的向量 “隨意均分”。這是有選擇性的平均分配,相鄰的預測顯示出了相似性。
他還說道,“它在美國非常有名,通常被稱為回聲室效應。你只會接受和你達成一致的人的觀點。這樣,一個回聲室就形成了,里面所有人都持有著相同的觀點。事實上,GLOM 積極地使用了這種現象。” 辛頓系統中類似的現象就是那些 “共識島嶼”。
弗羅斯特表示,“設想一群人在一個房間中大聲討論著有些許不同的相似觀點。” 或者把他們想成大致指向同一個方向的向量。“一段時間之后,所有的想法都會匯聚成為一個想法。他們會覺得這個想法的影響力越來越強大,因為該想法已經得到了身邊人的證實。” 這就是 GLOM 向量加強和放大針對一個圖像的協同預測的方法。
GLOM 利用這些共識向量島嶼來達成神經網絡中解析樹的工作方式,盡管最近一些神經網絡使用向量間的共識來進行激活,但 GLOM 使用共識的目的卻是為了呈現結果 —— 在網絡中構建出事物的表現形式。
例如,當多個向量都認同它們是鼻子的一部分時,小規(guī)模的認同向量會共同表示網絡中面部解析樹的鼻子。另一個較小的認同向量集合可能代表著解析樹中的嘴,而位于解析樹頂端的大型集合則可能代表著一個新的結果 —— 整體圖像是辛頓的臉。
辛頓解釋說,“解析樹在這里的呈現方式是:物體層級表現為大型島嶼,而物體的各個部分是體積較小的島嶼,次級部分則為更小的島嶼,如此向下。”
蒙特利爾大學計算機科學家約書亞?本吉奧是辛頓的老友和同事,本吉奧表示,如果 GLOM 能夠解決在神經網絡中表現解析樹的工程學挑戰(zhàn),那么這將成為一個偉大的成就,它對于讓神經網絡正常工作至關重要。
他還說道,“杰弗里在他的生涯中做出過許多次意義非凡的預測,其中很多都得到了驗證。因此,我會對這些預測保持關注,尤其是在杰弗里胸有成竹的時候,就像他現在對 GLOM 的感覺。”
辛頓堅定的態(tài)度不僅僅來自于對回聲室效應的類比,同時還來自于對數學以及生物學的類比,這些都給 GLOM 新的工程學設計決策過程帶來了啟發(fā)和證明。
麥克馬斯特大學計算認知神經學家蘇?貝克是辛頓的學生,貝克說道,“杰弗里是一個極不尋常的思想家,他能夠利用復雜的數學概念,并將生物學理論融入其中,從而發(fā)展自己的理論。僅僅局限于數學理論或者神經生物學理論研究的研究人員,很難解開人機學習與思考方式原理這一極具挑戰(zhàn)性的難題。”
將哲學融入工程學
到目前為止,特別是在那些世界著名的回聲室中,辛頓的新觀點被廣泛接受。他說道,“在推特上,我得到了很多贊。”YouTube 上的教程還聲稱保留 “MeGLOMania” 一次的所有權。
辛頓是第一個承認目前的 GLOM 略帶有一點哲學沉思的人,在轉到實驗心理學專業(yè)之前,他讀過一年哲學本科課程。
其表示:“如果一個想法在哲學上聽起來不錯,那么它確實是不錯。聽起來像是垃圾的哲學觀點,怎么會變?yōu)楝F實呢?以哲學觀點來衡量,它是無法通過這一標準的。”
他還表示,相比之下,“很多科學上的東西聽起來完全就是垃圾”,但它們卻表現得很好 —— 例如,神經網絡。
GLOM 的設計聽起來在哲學上很合理。但它會成功嗎?
克里斯?威廉姆斯是一名來自愛丁堡大學信息科學學院的機器學習教授,威廉姆斯希望 GLOM 會帶來一系列偉大的創(chuàng)新。
然而,他表示,“能夠將人工智能與哲學區(qū)分開來的東西是,我們可以使用計算機來驗證這些理論。” 通過這些實驗,找出想法中的缺陷或是將它們修復是不可能的。他還說:“盡管我相信這一研究很有希望,但在目前看來,我并不認為我們有足夠多的證據來評估一個想法的真實重要性。”
在多倫多的谷歌研究機構,辛頓一些同事針對 GLOM 的實驗正處于早期階段,使用了新型神經網絡架構的軟件工程師勞拉?卡普,正在利用計算機模擬技術來測試 GLOM 是否可以在理解物體部分與整體的概念時,產生辛頓所說的共識島嶼,哪怕是在輸入的部分充滿歧義的情況下。
在實驗中,這些部分是 10 個大小不同的橢圓形,它們既可以形成一張臉又能夠形成一只羊。
卡普說道,隨機輸入一個或另一個橢圓,模型就可以做出預測,“對橢圓是否屬于人臉或羊、是否是羊腿或者羊頭進行處理。” 即使遇到任何干擾,模型也可以進行自我修正。
下一步就是要建立一個基準,用于指示標準的深度學習神經網絡是否會被這種任務所迷惑。到目前為止,GLOM 受到了嚴格的監(jiān)督 —— 卡普生成了一些數據并將它們打上標記,從而促使模型在長時間內進行修正以達到正確的預測結果。辛頓表示,未經監(jiān)督的版本叫做 GLUM——“它就是一個笑話。”
在這種初始狀態(tài)下,下任何重要結論都為時尚早。卡普正在等待更多數據的出現。不過,辛頓已經給業(yè)界留下了深刻的印象。
他說:“GLOM 的簡便版本可以觀察 10 個橢圓,并且還可以根據橢圓之間的空間關系識別出一張臉和一只羊。這是一個具有迷惑性的問題,因為從單個橢圓中看不出它屬于哪個物體,也看不出它屬于物體的哪個部分。”
總的來說,辛頓對反饋結果感到高興。他說道,“我只是想把它上傳到社區(qū)里,這樣每個感興趣的人都可以進行嘗試,或者將這些想法進行一些次級組合。之后,哲學才會轉化為科學。”
原文標題:“深度學習之父”Geoffrey Hinton:深度學習幾乎可以完全復制人類的智能
文章出處:【微信公眾號:DeepTech深科技】歡迎添加關注!文章轉載請注明出處。
責任編輯:haq
-
人工智能
+關注
關注
1795文章
47642瀏覽量
239703 -
深度學習
+關注
關注
73文章
5512瀏覽量
121421
原文標題:“深度學習之父”Geoffrey Hinton:深度學習幾乎可以完全復制人類的智能
文章出處:【微信號:deeptechchina,微信公眾號:deeptechchina】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
評論