人工智能(ArtificialIntelligence,簡稱 AI)在 60 多年的發展歷史中,一直存在兩個相互競爭的范式,即符號主義與連接主義(或稱亞符號主義)。符號主義(即第一代人工智能)到上個世紀八十年代之前一直主導著 AI 的發展,而連接主義(即第二代人工智能)從上個世紀九十年代逐步發展,到本世紀初進入高潮,大有替代符號主義之勢。但是今天看來,這兩種范式只是從不同的側面模擬人類的心智 (或大腦),具有各自的片面性,不可能觸及人類真正的智能。 清華大學人工智能研究院院長、中國科學院院士張鈸教授在「紀念《中國科學》創刊 70 周年??股习l表署名文章,首次全面闡述第三代人工智能的理念,提出第三代人工智能的發展路徑是融合第一代的知識驅動和第二代的數據驅動的人工智能, 同時利用知識、數據、算法和算力等 4 個要素, 建立新的可解釋和魯棒的 AI 理論與方法,發展安全、可信、可靠和可擴展的 AI 技術,這是發展 AI 的必經之路。 自 2018 年成立以來,清華大學人工智能研究院本著「一個核心、兩個融合」的發展戰略,大力推動人工智能的基礎理論和基本方法的源頭性和顛覆性創新,在人工智能基礎理論、關鍵技術和產學研合作等諸方面取得了創新成果。人工智能的序幕剛剛拉開,正劇正在上演。基礎研究是科技創新的源頭,尤其在當前復雜多變的國際環境下,更需要提升我國的原始創新能力,久久為功,努力實現人工智能領域更多「從 0 到 1」的突破。 以下全文刊載張鈸院士的文章《邁向第三代人工智能》。
1.第一代人工智能
人類的智能行為是怎么產生的, 紐威爾 (A.Newell)、西蒙 (H.A.Simon) 等 提出以下模擬人類大腦的符號模型, 即物理符號系統假設。這種系統包括: (1) 一組任意的符號集, 一組操作符號的規則集; (2) 這些操作是純語法(syntax)的,即只涉及符號的形式不涉及語義,操作的內容包括符號的組合和重組; (3)這些語法具有系統性的語義解釋,即它所指向的對象和所描述的事態。 1955 年麥卡錫 (J.McCarthy) 和明斯基 (M.L.Minsky) 等學者,在達特茅斯人工智能夏季研究項目 (the Dartmouth Summer Research Projecton ArtificialIntelligence) 的建議中, 明確提出符號 AI(artificialintelligence) 的基本思路:「人類思維的很大一部分是按照推理和猜想規則對‘詞’(words)進行操作所組成的」。根據這一思路,他們提出了基于知識與經驗的推理模型,因此我們又把符號 AI 稱為知識驅動方法。 符號 AI 的開創者最初把注意力放在研究推理(搜索)的通用方法上,如「手段–目的分析」(meanendanalysis)、「分而治之」(divideandconquer)、「試錯」(trialanderror)法等,試圖通過通用的方法解決范圍廣泛的現實問題。由于通用方法是一種弱方法,實際上只能解決「玩具世界」中的簡單問題,如機器人擺放積木,下簡單的井字棋(tic-tac-toe)等,與解決復雜現實問題相差很遠。尋求通用 AI 的努力遭到了失敗,符號 AI 于 20 世紀 70 年代初跌入低谷。
幸運的是,斯坦福大學教授費根堡姆(E. A. Feigenbaum)等及時改變了思路,認為知識,特別是特定領域的知識才是人類智能的基礎,提出知識工程(knowledgeengineering)與專家系統(expertsystems)等一系列強 AI 方法,給符號 AI 帶來了希望。他們開發了專家系統 DENDRAL(有機化學結構分析系統,1965~1975),隨后其他學者相繼開發了 MYCIN(血液傳染病診斷和抗菌素處方,1971~1977),XCON(計算機硬件組合系統)等。不過早期的專家系統規模都較小,難以實用。 直到 1997 年 5 月 IBM 的深藍(deepblue)國際象棋程序打敗世界冠軍卡斯帕諾夫(Kasparov),符號 AI 才真正解決大規模復雜系統的開發問題。費根堡姆和雷蒂(R. Raddy)作為設計與構造大型人工智能系統的先驅,共同獲得 1994 年 ACM 圖靈獎。 符號 AI 同樣可以應用于機器學習,把「機器學習」看成是基于知識的(歸納)推理。下面以歸納邏輯編程(inductivelogicprogramming,ILP)為例說明符號 AI 的學習機制。在 ILP 中正負樣本(具體示例)、背景知識和學習結果(假設)都以一階邏輯子句(程序)形式表示。學習過程是在假設空間中尋找一個假設,這個假設應盡可能多地包含正例,盡量不包含負例,而且要與背景知識一致。一般情況下假設空間很大,學習十分困難,不過有了背景知識之后,就可以極大地限制假設空間,使學習變成可行。顯然,背景知識越多,學習速度越快,效果也越好。 為解決不確定問題,近年來,發展了概率歸納邏輯編程方法(probabilisticinductivelogicprogramming,PILP)。基于知識的學習,由于有背景知識,可以實現小樣本學習,而且也很容易推廣到不同的領域,學習的魯棒性也很強。以遷移學習(transferlearning)為例,可以將學習得到的模型從一種場景更新或者遷移到另一場景,實現跨領域和跨任務的推廣。 具體做法如下,首先,從學習訓練的環境(包括訓練數據與方法)出發,發現哪些(即具有某種通用性)知識可以跨域或者跨任務進行遷移,哪些只是針對單個域或單個任務的特定知識,并利用通用知識幫助提升目標域或目標任務的性能。這些通用知識主要通過以下 4 種渠道遷移到目標域中去,即源域中可利用的實例,源域和目標域中可共享的特征,源域模型可利用的部分,源域中實體之間的特定規則??梢姡R在遷移學習中起關鍵的作用,因此,符號 AI 易于跨領域和跨任務推廣。 在創建符號 AI 中做出重大貢獻的學者中,除費根堡姆和雷蒂(1994)之外,還有明斯基(1969),麥卡錫(1971),紐威爾和西蒙(1975)共 6 位先后獲得圖靈獎(括號中的數字表示獲獎的年份)??傊?,第一代 AI 的成功來自于以下 3 個基本要素。以深藍程序為例,第 1 是知識與經驗,「深藍」從象棋大師已經下過的 70 萬盤棋局和大量 5~6 個棋子的殘局中,總結出下棋的規則。另外,在象棋大師與深藍對弈的過程中,通過調試「評價函數」中的 6000 個參數,把大師的經驗引進程序。第 2 是算法,深藍采用α?β剪枝算法,有效提高搜索效率。第 3 是算力(計算能力),為了達到實時的要求,深藍使用 IBM RS/6000 SP2, 11.38 G FLOPS(浮點運算 / 秒),每秒可檢查 2 億步,或 3 分鐘運行 5 千萬盤棋局(positions)。 符號 AI 有堅實的認知心理學基礎,把符號系統作為人類高級心智活動的模型,其優勢是,由于符號具有可組合性(compositionality),可從簡單的原子符號組合成復雜的符號串。每個符號都對應著一定的語義,客觀上反映了語義對象的可組合性,比如,由簡單部件組合成整體等,可組合性是推理的基礎,因此符號 AI 與人類理性智能一樣具有可解釋性和容易理解。符號 AI 也存在明顯的局限性,目前已有的方法只能解決完全信息和結構化環境下的確定性問題,其中最具代表性的成果是 IBM「深藍」國際象棋程序,它只是在完全信息博弈(決策)中戰勝人類,這是博弈中最簡單的情況。而人類的認知行為(cognitivebehavior),如決策等都是在信息不完全和非結構化環境下完成的,符號 AI 距離解決這類問題還很遠。 以自然語言形式表示(離散符號)的人類知識,計算機難以處理,必須尋找計算機易于處理的表示形式,這就是知識表示問題。我們已有的知識表示方法,如產生式規則(productionrules),邏輯程序(logicprogram)等,雖然計算機易于處理(如推理等),但都較簡單,表現能力有限,難以刻畫復雜和不確定的知識,推理也只限于邏輯推理等確定性的推理方法。更加復雜的知識表示與推理形式都在探討之中,如知識圖譜(knowledgegraph)、概率推理等。符號 AI 缺乏數學基礎,除數理邏輯之外,其他數學工具很難使用,這也是符號 AI 難以在計算機上高效執行的重要原因。 基于知識驅動的強 AI 只能就事論事地解決特定問題,有沒有廣泛適用的弱方法,即通用 AI,目前還是一個值得探討的問題。此外,從原始數據(包括文本、圖像、語音和視頻)中獲取知識目前主要靠人工,效率很低,需要探索有效的自動獲取方法。此外,真正的智能系統需要常識,常識如何獲取、表達和推理還是一個有待解決的問題。常識的數量巨大,構造一個實用的常識庫,無異于一項 AI 的「曼哈頓工程」,費時費力。
2.第二代人工智能
感官信息(視覺、聽覺和觸覺等)是如何存儲在記憶中并影響人類行為的? 有兩種基本觀點,一種觀點是,這些信息以某種編碼的方式表示在(記憶)神經網絡中,符號 AI 屬于這一學派。另一種觀點是,感官的刺激并不存儲在記憶中,而是在神經網絡中建立起「刺激–響應」的連接(通道),通過這個「連接」保證智能行為的產生,這是連接主義的主張,連接主義 AI 就是建立在這個主張之上。
1958 年羅森布拉特(Rosenblatt)按照連接主義的思路,建立一個人工神經網絡(artificialneuralnetwork,ANN)的雛形——感知機(perceptron)。感知機的靈感來自于兩個方面,一是 1943 年麥卡洛克(McCulloch)和皮特(Pitts)提出的神經元數學模型——「閾值邏輯」線路,它將神經元的輸入轉換成離散值,通常稱為 M-P 模型。二是來自于 1949 年赫布(D. O. Hebb)提出的 Hebb 學習率,即「同時發放的神經元連接在一起」。感知機如圖 1 所示。
其中 b 為閾值,w 為權值。
AI 的創建者從一開始就關注連接主義的思路。1955 年麥卡錫等在達特茅斯(Dartmouth)AI 研究建議中寫道「如何安排一組(假想的)神經元使之形成概念 ······ 已經獲得部分的結果,但問題是需要更多的理論工作」,并把它列為會議的研討內容之一。由感知機組成的 ANN 只有一個隱蔽層,過于簡單。明斯基等 于 1969 年出版的書《感知機》中指出,感知機只能解決線性可分問題,而且即使增加隱層的數量,由于沒有有效的學習算法,感知機也很難實用。明斯基對感知機的批評是致命的,使剛剛起步的連接主義 AI 跌入低谷達 10 多年之久。在困難的時期里,在許多學者的共同努力下,30 多年來無論在神經網絡模型還是學習算法上均取得重大進步,逐步形成了深度學習的成熟理論與技術。
其中重要的進展有,第 1,梯度下降法(gradientdescent),這本來是一個古老的算法,法國數學家柯西(Cauchy)早在 1847 年就已經提出; 到 1983 年俄國數學家尤里 · 涅斯捷諾夫(YuriiNesterov)做了改進,提出了加強版,使它更加好用。第 2,反向傳播(backpropagation,BP)算法,這是為 ANN 量身定制的,1970 年由芬蘭學生 SeppoLinnainmaa 在他的碩士論文中首先提出; 1986 年魯梅哈特(D.E.Rumelhart)和辛頓(G.Hinton)等做了系統的分析與肯定 ?!柑荻认陆怠购汀窧P」兩個算法為 ANN 的學習訓練注入新的動力,它們和「閾值邏輯」、「Hebb 學習率」一起構成 ANN 的 4 大支柱。
除 4 大支柱之外,還有一系列重要工作,其中包括更好的損失函數,如交叉熵損失函數(cross-entropycostfunction); 算法的改進,如防止過擬合的正則化方法(regularization); 新的網絡形式,如 1980 年日本福島邦彥(Fukushima)的卷積神經網絡(convolutionneuralnetworks,CNN),遞歸神經網絡(recurrentneuralnetworks,RNN),長短程記憶神經網絡(longshort-termmemoryneuralnetworks,LSTM),辛頓的深度信念網絡(deepbeliefnets,DBN)等。這些工作共同開啟了以深度學習(deeplearning)為基礎的第二代 AI 的新紀元。
第二代 AI 的學習理論有堅實的數學基礎,為了說明這個基礎,下面舉一個簡單的有監督學習的例子,有監督學習可以形式化為以下的函數回歸問題: 從數據庫 D 中提取樣本
,對樣本所反映的輸入–輸出關系 f:X→Y 做出估計,即從備選函數族(假設空間)F={fθ:X?→Y;θ∈A}中選出一個函數 f^?使它平均逼近于真實 f。在深度學習中這個備選函數族由深度神經網絡表示:
參數學習中有 3 項基本假設。(1)獨立性假設: 損失函數和備選函數族 F(或者神經網絡結構)的選擇與數據無關。(2)大容量假設: 樣本(x_i,y_i)數量巨大(n→∞)。(3)完備性假設: 訓練樣本完備且無噪聲。
如果上述假設均能滿足,f^?將隨樣本數的增加最后收斂于真實函數 f。由此可見,如果擁有一定質量的大數據,由于深度神經網絡的通用性(universality),它可以逼近任意的函數,因此利用深度學習找到數據背后的函數具有理論的保證。這個論斷在許多實際應用中得到了印證,比如,在標準圖像庫 ImageNet(2 萬類別,1 千 4 百萬張圖片)上的機器識別性能,2011 年誤識率高達 50%,到 2015 年微軟公司利用深度學習方法,誤識率大幅度地降到 3.57%,比人類的誤識率 5.1% 還要低。低噪聲背景下的語音識別率,2001 年之前基本上停留在 80% 左右,到了 2017 年識別率達到 95% 以上,滿足商品化的要求。
2016 年 3 月谷歌圍棋程序 AlphaGo 打敗世界冠軍李世石,是第二代 AI 巔峰之作,因為在 2015 年之前計算機圍棋程序最高只達到業余五段!更加令人驚奇的是,這些超越人類性能成果的取得,并不需要領域知識的幫助,只需輸入圖像原始像素、語音原始波形和圍棋棋盤的布局(圖像)!
深度學習的成功來自于以下 3 個要素:一是數據,以 AlphaGo 為例,其中 AlphaGo-Zero 通過強化學習自學了億級的棋局,而人類在千年的圍棋史中,下過的有效棋局只不過 3000 萬盤。二是算法,包括蒙特卡洛樹搜索(Monte-Carlotreesearch)、深度學習和強化學習(reinforcementlearning) 等。三是算力,運行 AlphaGo 的機器是由 1920 個 CPU 和 280 個 GPU 組成的分布系統。因此第二代 AI 又稱數據驅動方法。
在創建第二代 AI 中做出重大貢獻的學者中,有以下 5 位獲得圖靈獎。他們是菲麗恩特(L. G. Valiant,2010)、珀爾(J. Pearl,2011)、本杰奧(Y. Bengio,2018)、辛頓(G. Hinton,2018)、楊立昆(Y. LeCun,2018)等。
早在 2014 年,深度學習的諸多缺陷不斷地被發現,預示著這條道路遇到了瓶頸。下面僅以基于深度學習的圖像識別的一個例子說明這個問題(材料引自本團隊的工作)。文獻 表示利用基于動量的迭代快速梯度符號法(momentumiterativefastgradientsignmethod,MI-FGSM)對 Inceptionv3 深度網絡模型實施攻擊的結果。無噪聲的原始圖像——阿爾卑斯山(Alps),模型以 94.39% 的置信度得到正確的分類。利用 MI-FGSM 方法經 10 次迭代之后生成攻擊噪聲,將此攻擊噪聲加進原圖像后得到攻擊樣本。由于加入的噪聲很小,生成的攻擊樣本與原始圖幾乎沒有差異,人類無法察覺,但 Inceptionv3 模型卻以 99.99% 的置信度識別為「狗」。
深度學習為何如此脆弱,這樣容易受攻擊,被欺騙和不安全,原因只能從機器學習理論本身去尋找。機器學習的成功與否與 3 項假設密切相關,由于觀察與測量數據的不確定性,所獲取的數據一定不完備和含有噪聲,這種情況下,神經網絡結構(備選函數族)的選擇極為重要,如果網絡過于簡單,則存在欠擬合(under-fitting)風險,如果網絡結構過于復雜,則出現過擬合(overfitting)現象。雖然通過各種正則化的手段,一定程度上可以降低過擬合的風險,但是如果數據的質量差,則必然會導致推廣能力的嚴重下降。
此外,深度學習的「黑箱」性質是造成深度學習推廣能力差的另一個原因,以圖像識別為例,通過深度學習只能發現重復出現的局部片段(模式),很難發現具有語義的部件。文獻描述了利用深度網絡模型 VGG-16 對「鳥」原始圖像進行分類,從該模型 pool5 層 147 號神經元的響應可以看出,該神經元最強烈的響應是「鳥」頭部的某個局部特征,機器正利用這個局部特征作為區分「鳥」的主要依據,顯然它不是「鳥」的不變語義特征。因此對于語義完全不同的對抗樣本(人物、啤酒瓶和馬等),由于具有與「鳥」頭部相似的片段,VGG-16 模型 pool5 層 147 號神經元同樣產生強烈的響應,于是機器就把這些對抗樣本錯誤地判斷為「鳥」。
3.第三代人工智能
第一代知識驅動的 AI,利用知識、算法和算力 3 個要素構造 AI,第二代數據驅動的 AI,利用數據、算法與算力 3 個要素構造 AI。由于第一、二代 AI 只是從一個側面模擬人類的智能行為,因此存在各自的局限性。為了建立一個全面反映人類智能的 AI,需要建立魯棒與可解釋的 AI 理論與方法,發展安全、可信、可靠與可擴展的 AI 技術,即第三代 AI。其發展的思路是,把第一代的知識驅動和第二代的數據驅動結合起來,通過同時利用知識、數據、算法和算力等 4 個要素,構造更強大的 AI。目前存在雙空間模型與單一空間模型兩個方案。
3.1 雙空間模型
雙空間模型如圖 2 所示,它是一種類腦模型,符號空間模擬大腦的認知行為,亞符號(向量)空間模擬大腦的感知行為。這兩層處理在大腦中是無縫融合的,如果能在計算機上實現這種融合,AI 就有可能達到與人類相似的智能,從根本上解決目前 AI 存在的不可解釋和魯棒性差的問題。為了實現這種目標,需要解決以下 3 個問題。
3.1.1 知識與推理
知識 (包括常識) 與推理是理性智能的基礎, 在第一代 AI 中, 以物理符號系統模擬人類的理性 智能, 取得顯著的進展, 但無論在知識表示還是推理方法上都有大量的問題需要進一步探討。下面以 IBMDeepQA 項目為例說明最近的進展, 之所以選擇這個例子是因為基于 DeepQA 構成的 Watson 對話系統, 在 2011 年 2 月美國電視 「危險邊緣」 智力競賽節目中, 以壓倒優勢戰勝全美冠軍 K. 詹寧斯 (KenJennings) 和 B. 拉特 (BradRutter), 表明 Watson 是一個成功的 AI 系統。Watson 關于知識 表示和推理方法的以下經驗值得借鑒: (1) 從大量非結構化的文本自動生成結構化知識表示的方法, (2) 基于知識質量的評分表示知識不確定性的方法, (3) 基于多種推理的融合實現不確定性推理的方法。
Watson 系統將 「問答」(question-answer) 看成是基于知識的從 「問題」 到 「答案」 的推理, 為了達 到人類的答題水平, 計算機需要擁有與人類冠軍一樣甚至更多的知識。其中包括百科全書、主題詞表、 詞典、專線新聞報道、文學作品等互聯網上數量巨大 (相當于 2 億頁的紙質材料) 的文本, 這些文本是 非結構化的, 而且質量參差不齊, 需要把這些非結構化的文本自動轉換為結構化且易于處理的表達形 式。Watson 系統使用的表達形式為 「擴展語料庫」(expendedcorpus) , 它的生成步驟如下。首先給出 基線語料庫 (baselinecorpus) 判別種子文件 (seeddocuments) , 根據種子文件從網上收集相關文件 并 并 從中挖掘 「文本核 」(textnuggets) , 對文本核做評分 按 按照評分結果集成為最后的 「擴展語料庫」。
除自動生成的擴展語料庫之外, Watson 的知識庫中還包括已有的語料庫, 如 dbPedia, WordNet, Yago 等, 以及人工編制的部分庫。Watson 采用多種推理機制 (多達百種) 將 「問題」 轉換為 「答案」(見圖 3)。先對 「問題」 做分析、分類和分解, 根據分解的結果從答案源 (語料庫) 中搜索假設與候選答 案, 經初步過濾之后, 篩選出 100 個左右候選答案。再從證據源中收集證據, 對候選答案進行評分, 評 估過程同時考慮數據源的可靠性, 依據評分結果合成出幾種候選答案, 按照置信度大小進行排序, 最后輸出排序后的答案。
此外,Watson 還通過 155 場與人類現場對決和 8000 次的實驗,學習對「問題」(自然語言)的理解。
3.1.2 感知
符號主義用符號系統作為人類心智的模型, 以實現與人類相似的推理能力。但從認知的角度看, 二者卻有本質上的不同, 即存在 「符號基礎問題」(symbolgroundingproblem)。在物理符號系統中, 客觀世界的 「對象」 和 「關系」 等用符號表示, 但符號本身并無語義, 我們只好人為地給它們規定語義, 也就是說是外部強加的 「寄生語義」(parasiticsemantics) , 機器本身并不知道。這與人類大腦中存在的 「內在語義 」(intrinsicsemantics) 完全不同, 人類大腦中的 「內在語義」, 特別是 「原子概念」 和 「常識」, 除極少數先天之外, 主要是通過感官 (視聽等) 或者感官與動作的結合自我習得的, 即將感官圖符式 (iconic) 表示或反映語義不變性的分類 (categorical) 表示轉化為符號表示。這本來是深度學習要完成的任務, 但很可惜, 目前深度學習的模型并不能完成這項使命。
因為深度學習所處理的空間是特征空間, 與語義空間差別很大, 它只能學到沒有明確語義的 「局部片段」, 這些片段不具備可組合性, 因此不 能用來作為 「物體」 的 「內在語義」 表示。換句話講, 目前的深度學習只能做到 「感覺」(sensation) , 達不到感知 為 為達到感知的水平 , 機器必須通過自我學習獲取 「物體」 的語義部件 (semanticparts) , 如 「狗」 的腿、頭、尾等,才有可能通過這些部件的組合形成 「狗」 的不變 「內在語義」。解決這個問題的基本思路是利用知識為引導,將感覺的信息從向量特征空間提升到符號語義空間,如圖 2 所示。這方面已經有不少的研究工作 ,下面以本團隊的工作闡述這方面工作的初步進展。
文獻 [40] 描述如何利用一個三元生成對抗網絡 (triplegenerativeadversarialnetworks , Triple-GAN) 提高圖像分類性能的方法。三元生成對抗網絡由 3 部分組成: 分類器、生成器和鑒別器,分別用于條件化圖像生成和半監督學習中的分類。生成器在給定真實標簽的情況下生成偽數據,分類器在給定真實數據的情況下生成偽標簽,鑒別器的作用是區分數據標簽對是否來自真實標記的數據集。如果設計好合適的效用函數,利用三元生成對抗網絡,可以通過無監督(或弱監督)學習,讓生成器(網絡)學到樣本中「物體」的表示(即先驗知識),同時利用這個先驗知識改善分類器的性能。
此項研究表明,通過 ANN 的無監督學習可以學到「物體」的先驗知識,這就是「物體」(符號)的「內在語義」。利用這個具有「內在語義」的先驗知識提高分類器的識別率,從根本上解決計算機視覺中存在的「檢測」(where)與「識別」(what)之間的矛盾,實現小樣本學習,提高魯棒性和推廣能力。
還可以從另外的角度思考,先回到深度學習所使用的人工神經網絡(圖 4),以視覺為例,它與人類的視覺神經網絡相比過于簡單了,既沒有反饋連接,同層之間的橫向連接和抑制連接,也沒有稀疏放電、記憶和注意等機制。如果我們能夠將這些機制引進 ANN,將會逐步提高計算機視覺的感知能力。由于我們對大腦視神經網絡的工作原理了解得很少,目前只能沿著「腦啟發計算」(brianinspiredcomputing)的道路一步一步地往前探索。
目前有一些試探性的工作,有些效果但都不夠顯著。下面介紹本團隊的一項研究。如文獻 所述,將稀疏放電的原理運用到 ANN 各層的計算中。網絡共 6 層,包括 Gabor 濾波和 Max 池化等,在各層的優化計算中加上「稀疏」正則約束項,稀疏性的要求迫使 ANN 選擇最具代表性的特征。如果用背景簡單的「人類」「小汽車」「大象」和「鳥」等圖像作為訓練樣本訓練網絡,那么神經網絡的輸出層就會出現代表這些「類別」的神經元,分別對人臉、小汽車、大象和鳥的輪廓做出響應,即提取了「整個物體」的語義信息,形成部分的「內在語義」。
這種方法也只能提取部分的語義信息,還不能做到提取不同層面上的語義信息,如「整體」、「部件」和「子部件」等,達到符號化的水平,因此仍有許多工作有待研究。
3.1.3 強化學習
上面說過通過感官信息有可能學到一些基本知識(概念),不過僅僅依靠感官信息還不夠,比如「常識概念」,如「吃飯」「睡覺」等僅依靠感官難以獲取,只有通過與環境的交互,即親身經驗之后才能獲得,這是人類最基本的學習行為,也是通往真正 AI 的重要道路。強化學習(reinforcementlearning)就是用來模擬人類的這種學習行為,它通過「交互–試錯」機制,與環境不斷進行交互進而學習到有效的策略,很大程度上反映了人腦做出決定的反饋系統運行機理,成為當前人工智能突破的重要方法,在視頻游戲、棋牌游戲、機器人導航與控制、人機交互等領域取得了諸多成果,并在一些任務上接近甚至超越了人類的水平。
強化學習通??闯墒请x散時間的隨機控制過程,即智能體與環境的交互過程。智能體從起始狀態出發,取得起始觀察值,在 t 時刻,智能體根據其內部的推理機制采取行動之后,獲得回報,并轉移到下一個狀態,得到新的觀察。強化學習的目標是,選擇策略π(s,a)使累計回報預期 V^π(s):S→R 最優。如果我們考慮簡單的馬爾可夫(Markov)決策過程,即后一個狀態僅取決于前一個狀態,并且環境完全可觀察,即觀察值 o 等于狀態值 s,即 O=S; 并假設策略穩定不變。如圖 5 所示。以 AlphaZero 為例,智能體不依賴人類的標注數據,僅僅通過自我博弈式的環境交互積累數據,實現自身策略的不斷改進,最終在圍棋任務上達到了超越人類頂級大師的水平,代表強化學習算法的一個巨大進步。
?
?
強化學習算法在選擇行為策略的過程中,需要考慮環境模型的不確定性和目標的長遠性。具體的,通過值函數也就是未來累積獎勵的期望衡量不同策略的性能,即
其中γ∈[0,1]是折扣因子。值函數可以寫成貝爾曼方程(Bellmanequation)的形式。該方程表示了相鄰狀態之間的關系,可以利用其將決策過程劃分成多個不同的階段,其中某一階段的最優決策問題可以利用貝爾曼方程轉化為下一階段最優決策的子問題。
強化學習的核心目標就是選擇最優的策略,使得預期的累計獎勵最大,即值函數取得最優值
需要指出的是,盡管強化學習在圍棋、視頻游戲等任務上獲得了極大的成功,但是這些任務從本質上是相對「簡單」的,其任務的環境是完全可觀察的、反饋是確定的、狀態主要是離散的、規則是明確的,同時可以相對比較廉價地得到大量的數據,這些都是目前人工智能算法所擅長的。但是在不確定性、不完全信息、數據或者知識匱乏的場景下,目前強化學習算法的性能往往會出現大幅度的下降,這也是目前強化學習所面臨的重要挑戰。其中的典型問題如下所述。
(1)部分觀測馬氏決策過程中強化學習: 在真實的問題中,系統往往無法感知環境狀態的全部信息,因此不僅需要考慮動作的不確定性,同時也需要考慮狀態的不確定性。這就導致了部分感知的強化學習往往不滿足馬爾可夫環境假設。盡管相關的研究者近年來進行了大量的探索,但是部分觀測馬氏決策(partiallyobservableMarkovdecisionprocess,POMDP)仍然是強化學習中比較有挑戰的問題。
(2)領域知識在強化學習中的融合機制: 如何實現領域知識的融合在強化學習中同樣是重要科學問題。對提高收斂速度、降低采樣復雜度、改善模型遷移性和算法魯棒性等具有重要意義。本團隊針對這一問題,在領域知識指導的動作空間抽象壓縮、結構設計等方面進行了初步探索,但是如何實現領域知識和強化學習框架的高效融合仍然是亟待解決的問題。
(3)強化學習和博弈論的結合: 博弈論和強化學習的結合是近年來領域內研究的熱點問題。二者的結合可以讓多智能體之間的競爭和合作關系的建模變得更加直觀和清晰,這其中包含了多智能體之間的零和 / 非零和、完全信息 / 非完全信息等多種不同的任務類型,尤其是在對抗性的任務中更具有研究和應用價值。本團隊前期在這方面也進行了探索性的研究,將智能體對環境的探索建模成智能體和環境之間的博弈過程,也是目前第一個在擴展型博弈、參數未知的場景下能夠從理論上保證收斂的算法。
除此之外,強化學習所面臨的難題還包括仿真環境和真實環境的差異、探索和利用的矛盾、基于模型的強化學習算法等諸多難點的問題,相比于監督學習所獲得的成功而言,強化學習的研究還處于相對較為初級的階段。
3.2 單一空間模型
單一空間模型是以深度學習為基礎,將所有的處理都放在亞符號(向量)空間,這顯然是為了利用計算機的計算能力,提高處理速度。問題在于深度學習與大腦的學習機制不同,在許多方面表現不佳,如可解釋性和魯棒性等。關鍵是要克服深度學習所帶來的缺陷,如圖 6 所示。下面討論幾個關鍵問題。
3.2.1 符號表示的向量化
知識通常以自然語言的離散符號形式表示,為了實現單一空間模型,首先要將符號表示的詞、短語、句子和篇章等轉換為向量,或者將知識圖譜轉換為向量表示。關鍵是「詞」的變換,即詞嵌入(wordembedding)。目前「詞嵌入」已有各種方法,如 Word2Vec[53]和 GloVe等。
下面介紹 Word2Vec 中采用的 Skip-gram[55]策略,用來說明詞是如何由符號轉換為向量的。
其中 w 是給定的目標詞,c 是從其上下文中任選的一個詞,p(c|w;θ)是給定詞 w 下,詞 c 出現的概率。D 是從語料庫中提取的所有 w?c 對,θ是模型參數,式(5)進一步參數化后,得到
其中
是詞 c 和詞 w 的向量表示,C 是所有可用文本。參數,i=1,2,...d,共 | C|×|W|×d 個。調整這些參數使式(5)最大化,最后得到所有詞 w∈W 的向量表示
。
這些詞向量具有以下良好的性質,即「語義相似的詞,其詞向量也很相似」(見圖 7)。變換后的詞向量之所以具有上述良好的性質,出自嵌入過程的以下假設,兩個詞在上下文中同現的頻率越高,這兩個詞的語義越可能接近,或者越可能存在語義上的某種關聯。嵌入詞向量的這些特性,表明它帶有語義信息,因此稱嵌入空間為準語義空間。式(5)是難計算的,可以采用深度神經網絡等做近似計算。利用類似的嵌入法也可以把「短語」「句子」和「篇章」或者知識圖譜等轉換到具有準語義的向量空間中去。
向量形式的知識表示具有上述良好的性質,且可以與數據一樣,使用大量的數學工具,包括深度學習方法,因此被大量應用于文本處理,如機器翻譯等,取得明顯的效果。下面以神經機器翻譯(neuralmachinetranslation)為例予以說明。
神經機器翻譯的基本思路是,給定源句子(比如中文),尋找目標句(比如英文)。神經翻譯的任務是,計算詞一級翻譯概率的乘積,
?
?
其中θ是一組模型參數,
是部分翻譯結果。詞一級的翻譯概率可用 softmax 函數 f(·)定義:
?
其中是目標句中第 j 個詞的向量表示,v_x 是源句子的向量表示,是部分翻譯句的向量表示,y=y_j,j=1,2...,J 是要找的目標句。
?
神經翻譯模型的構造: 給定訓練樣本為一組「源句–目標句」對
,模型訓練的目標是最大化 log 似然:
即選擇一組模型參數θ,使目標函數最大化。利用這個模型,通過式(7)計算(翻譯)目標句子。這種翻譯方法盡管可以得到比傳統方法錯誤率還低的翻譯結果,但它具有深度學習方法的共性缺陷,如不可解釋、會發生重大錯誤、魯棒性差等。為克服這些缺陷,需要加入知識,通過先驗知識或后驗正則化等方式引入語言知識等。
3.2.2 深度學習方法的改進
基于深度學習的 AI 具有不可解釋和魯棒性差等缺陷,目前有許多改進工作。下面介紹本團隊的一些工作。
(1)可解釋性問題??山忉屓斯ぶ悄芩惴ǖ难芯拷陙硪鸨姸嘌芯咳藛T的關注。而人類理解機器決策過程的核心難點是跨越數據特征空間和人類語義空間之間的鴻溝。無論是早期的以手工特征為基礎的算法,還是當前以特征學習為代表的深度學習,其核心思想都是將觀測樣本映射到特征空間中,進而在特征空間進行分析,發現樣本在特征空間不同區域內的規律,從而達到算法要實現的任務目標(如分類、回歸等)。與之不同的是,人類的分析和決策是利用自身的背景知識,在語義空間當中完成。但是數據特征空間和人類的語義空間在結構和內涵上存在顯著的區別,而可解釋人工智能的最終就是要在二者之間架起一座橋梁,進而跨越二者之間的鴻溝。
總體而言,相關的研究主要分為(i)模型的后解釋技術(post-hocexplanation),也就是給定了人工智能的模型,通過可視化、交互技術等方式,分析給定模型的工作機理,為其決策結果尋找解釋途徑;(ii)可解釋模型,即通過發展新的網絡架構、損失函數、訓練方式等,發展具有內在可解釋性的新型人工智能模型。從整體來說,兩類方法目前都在發展過程中,在可解釋性的研究中具有重要作用。
可視分析是人工智能算法可解釋的一種直觀的思路。既然深度學習是「黑箱」學習法,內部的工作機理是不透明的,「不可解釋」,如果利用可視化,打開「黑箱」,一切不就清楚了嗎? 為了幫助機器學習專家更加理解卷積神經網絡的工作機理,我們開發了 CNNVis 這一可視分析工具。CNNVis 旨在幫助專家更好地理解與診斷深度卷積神經網絡,作為一種混合可視化方法,綜合應用了基于雙聚類技術的邊綁定方法,以及矩形布局算法、矩陣重排算法和有向無環圖布局算法等。作為可視化領域的首批深度學習可視分析工作,該工作在工業界和學術界都引起了廣泛關注。在此基礎上,為了分析復雜神經網絡的訓練過程,我們以深度生成模型(對抗生成網絡(generativeadversarialnetworks,GAN)和變分自編碼器(variationalauto-encoder,VAE))為例,研究了如何幫助機器學習專家診斷訓練過程中出現的常見問題。
解釋模型的另外一個思路是利用部分統計分析的技巧,針對神經網絡決策過程中的參數冗余性,對神經網絡內部最后決策起到關鍵作用的子成分進行分析,得到復雜模型內部對決策起到最關鍵作用的核心部分。為了更高效發掘子網絡,我們借鑒了網絡剪枝(networkpruning)思路,提出一種普適的提取子網絡的方法,而無需對模型從頭進行訓練。具體來說,我們對網絡中每一層都附加一組控制門(controlgate)變量,在知識蒸餾(knowledgedistillation)準則下優化該組變量控制各層輸出通道,用以確定關鍵子網絡。具體來說,令 p(y | x;θ)為具有權重參數θ的原始模型對于單個樣本 X 所做出的預測概率。而我們想要提取參數為θ_s 的關鍵子網絡,其預測輸出應為 q(y | x;θ_s),應該與原模型輸出結果在 Kullback-Leibler 散度度量下接近。因此總體最小化目標函數為
其中?(θ_s)為稀疏正則項,即鼓勵模型通過盡量少的激活神經元達到和原網絡相似的性能。通過對關鍵子網絡可視化分析,我們觀察到對于樣本特定子網絡,各層控制門值表征形式隨著層級增高而展現出類別區分特性。實驗結果表明,對于類別特定子網絡,其整體表征形式與類別語義之間有著密切聯系。
以上方法更多的關注是模型的后解釋,也就是給定一個深度學習模型「強行」尋求對其決策過程的解釋,而這種解釋是否符合神經網絡的內在機理仍然是需要討論的問題。由于深度學習模型的不可解釋性是由于機器推理的特征空間和人類可理解的空間存在著本質的區別,因此深度學習要想實現可解釋性就需要把機器特征空間和人類的語義空間聯系起來。本團隊也在此方面進行了探索性研究,主要針對如何將人類的先驗知識融入到深度學習模型的訓練中,使特征具有更加明確的語義內涵,從而能夠做到決策的追溯。具體的,在圖文的聯合分析中,我們利用文本信息中抽取出來的人類可理解的主題信息指導神經網絡的訓練過程,并對文本和圖像 / 視頻數據進行協同訓練,引導神經網絡訓練得到人類可以理解的語義特征。具體的,我們通過在神經網絡的目標函數中引入可解釋的正則約束:
其中第 1 項是相關任務的損失函數,第 2 項是可解釋正則約束。通過這種方法,可以在文本數據引導下,通過不同模態數據之間的信息互補性,利用可解釋正則約束,提升深度學習模型的可解釋性。
(2)魯棒性問題。由于對抗攻擊給深度學習模型帶來的潛在的惡意風險,其攻擊不但精準且帶有很強的傳遞性,給深度學習模型的實際應用帶來了嚴重的安全隱患,迫切需要增強深度學習模型自身的安全性,發展相應的深度學習防御算法,降低惡意攻擊帶來的潛在威脅。具體來說,目前的深度學習防御算法主要有兩類思路。
第 1 是基于樣本 / 模型輸入控制的對抗防御。這類方法的核心是在模型的訓練或者使用階段,通過對訓練樣本的去噪、增廣、對抗檢測等方法,降低對抗攻擊造成的危害。其中去噪器由于不改變模型自身的結構和性質,具有「即插即用」的性質,引起了廣泛的關注。但是由于對抗噪聲的特殊屬性,其形成的干擾效應往往可以隨著神經網絡的加深逐步放大,因此在普通的高斯噪聲(Gaussiannoise)上具有良好濾除效果的自編碼器往往不能很好地濾除對抗噪聲。
針對這一問題,本團隊提出了基于高層表示引導的去噪器(HGD),通過高層特征的約束使得對抗樣本與正常樣本引起目標模型的上層神經元響應盡可能一致。將傳統像素級去噪網絡 DAE(denoisingautoencoder)與 U-net 網絡結構進行結合,到負噪聲輸出,用對抗樣本加上負噪聲可以得到去噪圖片,即。研究表明該方法不僅去掉了一部分對抗擾動,還增加了一部分「反對抗擾動」,取得了非常好的防御效果,獲得「NIPS2017 對抗性攻防競賽」中對抗防御任務冠軍,以及 2018 年在拉斯維加斯(LasVegas)舉辦的 CAADCTF 對抗樣本邀請賽冠軍。
?
第 2 是基于模型增強的對抗防御。這類方法的核心是通過修改網絡的結構、模型的激活函數、損失函數等,訓練更加魯棒的深度學習模型,從而提高對對抗攻擊的防御能力。其中集成模型(ensemble)是近年來出現的一類典型的防御方法。針對經典集成防御由于各個子模型的相似性導致防御性能下降的問題,本團隊提出自適應多樣性增強訓練方法(adaptivediversitypromotingtraining,ADP)。相比于經典集成模型,ADP 方法在訓練函數中額外引入了多樣性正則項,鼓勵每個子模型在正確類別上決策一致,而在其他類別上預測不一致。由于其他類別包括所有潛在的對抗樣本的目標類別,所以這種不一致性可以使得各個子模型難以被同時欺騙,從而增強集成模型的魯棒性。具體來講,在 ADP 方法中,為了保證每個子模型的最大預測都對應于正確的類別,這種多樣性定義在每個子模型輸出的非最大預測上,當不同子模型的非最大預測向量相互正交時,這種多樣性取得最大值。具體的,其訓練的目標函數為
?
?
其中,
;為每個子模型 k 的交叉熵(cross-entropy)損失函數。ADP_α,β(x,y)=α·H(F)+β·log(ED)是模型集成多樣性的度量,鼓勵不同的子模型形成盡量差異化的決策邊界。實驗結果表明,通過鼓勵不同子模型的差異化決策性質,有效地提升了模型的對抗魯棒性。但是,總體而言,目前多數的對抗防御方法是基于經驗主義的,研究表明很多防御對抗樣本的方法在很短的時間就會被后來的攻擊算法攻破。其重要原因之一是深度學習只是在做簡單的函數擬合,缺乏像人一樣對問題的理解能力。因此通過理解機器學習模型的內部工作機理,發展數據驅動和知識驅動融合的第三代人工智能理論框架,將成為提高人工智能算法魯棒性的重要途徑。
?
但是,總體而言,目前多數的對抗防御方法是基于經驗主義的,研究表明很多防御對抗樣本的方法在很短的時間就會被后來的攻擊算法攻破。其重要原因之一是深度學習只是在做簡單的函數擬合,缺乏像人一樣對問題的理解能力。因此通過理解機器學習模型的內部工作機理,發展數據驅動和知識驅動融合的第三代人工智能理論框架,將成為提高人工智能算法魯棒性的重要途徑。
?
3.2.3 貝葉斯深度學習
?
如圖 6 所示,圖像和語音等信息是在特征空間中處理的,這些特征語義信息很少,需要提取含有更多語義的特征,其中的一種解決辦法是將知識引入深度學習。下面以貝葉斯深度學習為例,說明這一思路。
?
我們前面說過深度神經網絡沒有考慮數據觀測的不確定性,這種不確定性的存在,以及對于數據背后物理背景的無知,使我們對深度學習結果的正確性難以判斷。同時,在數據量有限但模型逐漸變大(如包括十億甚至千億參數)的過程中,模型的不確定性也變得更嚴重——存在很多模型在訓練集上表現都很好,但在測試集上的表現差別很大。貝葉斯學習充分考慮了先驗知識以及模型和數據的不確定性,而且還能從不斷提供的數據(證據)中,加深對數據的了解,即根據新的證據實現增量式的學習,充分發揮知識在學習中的作用。不僅可以對學習結果的可信度做出判斷,也因此提高了學習的效率和準確度。
?
貝葉斯學習(Bayesianlearning)定義: 給定觀測數據 d∈D,按貝葉斯規則計算每個假設的概率,
?
?
其中 D 是所有數據。給定 d
是對未知量 X 的預測,即通過觀測數據確定各個假設的概率,再從各個假設確定未知量 X 的分布。其中的關鍵是假設先驗 p(h_i)和給定假設 h_i 下數據 d 的似然 p(d|h_i)。貝葉斯預測(式(13))不管樣本量大小,均可達到最優,但當假設空間很大時,式(13)的加法計算量太大(在連續情況下為積分),難以實際應用。通常需要采用近似算法,主要有兩類近似方法——變分推斷和蒙特卡洛采樣[69]。另外,還有一些常見的簡化有,(1)對 X 的預測不是利用所有的假設,而只利用其中讓 p(h_i|d)最大化的一個 h_i,稱為最大化后驗(maximumaposteriori,MAP)假設。(2)假定 p(h_i)是均勻分布,問題就簡化為,選擇一個讓 p(d|h_i)最大化的 hi,稱為最大化似然(maximumlikelihood,ML)假設。(3)如果不是所有數據都可以觀測,即存在隱變量,通常采用 EM(expectationmaximization)算法[70]。該算法分為兩步(式(14)),E 步: 利用觀測的數據 x 和θ^(i),計算 p(Z=z|x;θ^(i));M 步: 利用計算出來的 z 和 x,計算模型參數θ^(i+1)。兩個步驟交替進行,找到最終的模型參數θ:
貝葉斯準則 (式 (12)) 是一個從先驗分布和似然函數推斷后驗分布的過程, 為了更靈活地考慮知識, 我 們團隊提出了正則化貝葉斯 (regularized Bayesian inference, RegBayes) , 它基于貝葉斯定理的信息 論描述 , 通過引入后驗正則化, 在變分優化的框架下可以靈活地考慮領域知識 (如基于邏輯表達式 的知識 ) 或者學習任務優化的目標 (如最大間隔損失 ) 等。
更進一步的, 貝葉斯深度學習是將貝葉斯學習的基本原理與深度神經網絡的表示學習有機融合的 一類方法, 融合主要體現在兩個方面, (1) 用貝葉斯方法更好地學習深度神經網絡 (如貝葉斯神經網絡、 高斯過程等), 包括計算預測的不確定性、避免過擬合等; (2) 用深度神經網絡作為非線性函數變換定 義更加豐富靈活的貝葉斯模型, 如圖 8 所示, 包括深度生成模型 (如 GAN, VAE, 基于可逆變換的流模 型等). 其中第 1 種融合早在 20 世紀 90 年代就被霍普菲爾德 (J. Hopfield) 和辛頓指導博士生系統研究過 , 當時的算力和數據都很有限, 稍微大一點的神經網絡都面臨著嚴重的過擬合, 因此, 那時 候就開始研究用貝葉斯方法保護神經網絡, 并且選擇合適的網絡結構. 隨著神經網絡的加深, 貝葉斯 方法又引起了很多研究興趣, 主要進展包括對深度貝葉斯神經網絡進行高效的 (近似) 計算, 需要克服 的主要困難是深度網絡過參數化 (over-parametrization) 帶來的維數災難. 在這方面, 我們團隊進行了 深入研究, 先后提出了隱式變分推斷 (implicit variational inference) 算法 , 在泛函空間進行粒子 優化的推斷算法 (functional variational inference) 等。
對于第 2 種融合, 我們知道一個簡單分布的隨機變量 z 經過函數 f 變化之后, 得到的變量 x = f(z), 具有更復雜的分布, 當 f 是一個雙射變換時, 我們可以得到 x 分布的解析形式
但是, 在處理復雜數據時, f 是未知的, 因此, 我們希望從數據中進行學習. 利用深度神經網絡的強大擬合能 力, 我們將 f 定義成一個深度神經網絡, 通過一定的準則學習最優的 f_θ. 如圖 8 所示, 這種想法被證明是非常有效的, 已經發展了包括 VAE, GAN 以及基于流的模型 (flow-based models), 即使在完全無 監督訓練下, 這些模型都可以產生高質量的自然圖片或人臉等。
具體的, 這幾種模型的區別在于定義 x 的變化函數, 在 VAE 中,
?
其中 ? 是一個噪聲變量 (如白噪聲對應的標準高斯分布); 在 GAN 和基于流的模型中, 沒有顯式的噪聲變量。這種區別帶來了參數估計上的不同, VAE 和基于流的模型采用最大似然估計, 而 GAN 定義了對抗學習的目標——「最大最小博弈」。同樣的, 這些模型雖然功能強大, 但是給推斷和學習也帶來了很多挑戰。例如, GAN 網絡的訓練過程經常是不穩定的, 會遇到梯度消失或梯度爆炸等問題, 我們團隊最新的成果利用控制論對這一問題進行了分析研究, 提出了有效的反饋機制, 能夠讓 GAN 的訓練更平穩。此外, 基于可逆變換的流模型往往受限于維數的約束, 為此, 我們提出了自適應數據增廣的流模型, 顯著提升這類模型的表達能力。
?
基于上述介紹, 能夠看出貝葉斯深度學習提供了一種強大的建模語言, 將不確定性建模和推斷與深度表示學習有機融合, 其關鍵挑戰在于推斷和學習算法。幸運的是, 近年來, 在算法方面取得了很多突破進展 (如上所述)。同時, 也發展了性能良好的概率編程庫, 支持貝葉斯深度學習模型的開發和部 署。例如, 我們團隊研制的「珠算」1) , 是最早的系統支持貝葉斯深度學習的開源庫之一。在應用方面, 貝葉斯深度學習的方法已經在時間序列預測、半監督學習、無監督學習、小樣本學習、持續學習 等復雜場景下, 取得良好的效果。
?
3.2.4 單一空間中的計算
?
如圖 6 所示, 我們要在單一的向量空間中, 對來自文本的嵌入向量和來自視聽覺的特征向量進行 計算, 存在一定的難度. 因為文本中以符號表示的詞, 經嵌入之后變成向量時損失了大量語義, 從視聽覺中提取的特征, 雖然我們盡量獲取更多的語義, 但一般情況多屬底層特征, 語義含量很少。
?
我們將以視覺問答為例介紹這方面的初步嘗試. 在視覺問答中既有圖像又有文本, 需要在單一的向量空間中同時處理, 涉及單一空間模型的使用。以本團隊關于 「篇章級圖文問答」 研究工作為例予以說明 。如圖 9 所示, 根據給定的圖片, 回答以下問題, 「在大陸地殼下面有多少層 (類型)?」, 除問題以文本形式表示之外, 還有一個與圖片相關的篇章「板塊運動」。
?
?
首先通過詞嵌入 (采用 Word2Vec 中的 Skip-gram 策略), 將 「問題」 與 「篇章」 中的以離散符號表示的詞轉換為向量. 圖片經 ResNet 網絡處理后, 取 res5c 層的特征作為輸出 , 它是一組高維空間的特征向量。然后將「問題」和「篇章」中的詞向量與「圖片」輸出的特征向量做融合, 以預測「答案」。為了更好地融合, 通過注意機制, 先找出「問題」 和 「篇章」中的「關鍵詞」, 這些關鍵詞能夠更好地反映「問題」的主題 (語義)。再依據關鍵詞通過「空間注意機制」找出圖片中關鍵區域的特征, 因為這些特征更符合關鍵詞向量所表達的主題, 因此融合效果會更好。這里采用的融合方法是雙線性池化 (multi modal bilinear pooling) 方法。「圖文問答」是選擇題, 備選方案有 「1」, 「2」, 「3」三種, 將融合后的向量與備選方案的向量相比較, 取最接近的一個向量作為輸出, 這里是 「2」 (向量)。
圖文問答目前達到的水平與人類相比相差很遠, 以「選擇題」為例, 目前達到的水平只比隨機猜測略好。
4.總結
為了實現第三代 AI 的目標, 我們采用三空間融合的模型,即融合雙空間與單空間兩種模型,如圖 10 所示。雙空間模型采用類腦的工作機制,如果實現的話,機器就會像人類大腦的行為一樣,具有可解釋性與魯棒性。此外,當把感覺(視覺、聽覺等)信號提升為感知(符號)時, 機器就具備一定的理解能力,因此也解決了可解釋和魯棒的問題。當機器中的基本概念(符號)可由感知產生時,符號就有了基礎 (根基),符號與符號推理就有了內在的語義,從根本上解決了機器行為的可解釋與魯棒性的問題。單空間模型以深度學習為基礎,存在不可解釋與不魯棒的缺陷,如果經過改進提高了其可解釋性與魯棒性,就從另外一個方向邁向第三代 AI。
雙空間模型模仿了大腦的工作機制,但由于我們對大腦的工作機制了解得很少,這條道路存在某些不確定性,比如,機器通過與環境的交互學習 (強化學習) 所建立的「內在語義」, 與人類通過感知所獲取的「內在語義」是否一樣,機器是否也能具有意識? 等,目前還不能肯定。盡管存在這些困難,但我們相信機器只要朝這個方向邁出一步,就會更接近于真正的 AI。單一空間模型是以深度學習為基礎,優點是充分利用計算機的算力,在一些方面會表現出比人類優越的性能。但深度學習存在一些根本性的缺點,通過算法的改進究竟能得到多大程度的進步,也存在不確定性,需要進一步探索。但是,我們也相信對于深度學習的每一步改進,都將推動 AI 向前發展。
考慮以上這些不確定性,為了實現第三代 AI 的目標,最好的策略是同時沿著這兩條路線前進,即三空間的融合,如圖 10 所示。這種策略的好處是,既最大限度地借鑒大腦的工作機制,又充分利用計算機的算力,二者的結合,有望建造更加強大的 AI。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
神經網絡
+關注
關注
42文章
4772瀏覽量
100803 -
人工智能
+關注
關注
1791文章
47314瀏覽量
238625 -
機器學習
+關注
關注
66文章
8420瀏覽量
132681
原文標題:張鈸院士: 邁向第三代人工智能
文章出處:【微信號:AI智勝未來,微信公眾號:AI智勝未來】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
廣汽集團發布第三代人形機器人GoMate,預計2026年量產
近日,廣汽集團震撼發布了其第三代具身智能人形機器人新品——GoMate。這款機器人不僅在技術上實現了重大突破,更預示著廣汽集團在智能機器人領域的深遠布局。 GoMate采用了行業首創的可變輪足移動
第三代半導體對防震基座需求前景?
隨著科技的發展,第三代半導體產業正處于快速擴張階段。在全球范圍內,各國都在加大對第三代半導體的投入,建設了眾多新的晶圓廠和生產線。如中國,多地都有相關大型項目規劃與建設,像蘇州的國家第三代半導體
第三代半導體產業高速發展
當前,第三代半導體碳化硅(SiC)和氮化鎵(GaN)功率器件產業高速發展。其中,新能源汽車市場的快速發展是第三代半導體技術推進的重要動力之一,新能源汽車需要高效、高密度的功率器件來實現更長的續航里程和更優的能量管理。
第三代寬禁帶半導體:碳化硅和氮化鎵介紹
? 第三代寬禁帶功率半導體在高溫、高頻、高耐壓等方面的優勢,且它們在電力電子系統和電動汽車等領域中有著重要應用。本文對其進行簡單介紹。 以碳化硅(SiC)和氮化鎵(GaN)為代表的寬禁帶化合物半導體
MagicLab開發第三代人形機器人,洽談字節豆包大模型合作
人形機器人創業公司MagicLab近日宣布,正在積極開發第三代人形機器人產品,并聚焦于其實地應用與落地。據悉,這款機器人已在某家電工廠的流水線上進行測試,旨在驗證其在工業生產環境中的作業能力。
晶科能源第三代Tiger Neo系列產品的問題解答
近期發布了采用N型TOPCon技術的第三代Tiger Neo系列產品后, 關于這款極具競爭力的產品,小編挑選了大家最為關心的10個問題進行解答。
芯科科技第三代無線開發平臺助力物聯網設備升級
和首席技術官DanielCooley探討了人工智能(AI)如何推動物聯網(IoT)領域的變革,同時詳細介紹了芯科科技不斷發展的第二代無線開發平臺所取得的持續成功以及即將推出的第三代無線開發平臺。
高通第三代驍龍8移動平臺解鎖沉浸式游戲體驗
隨著手游市場不斷攀升,玩家需求不斷增加,也讓智能手機支持的游戲功能越來越豐富和多樣化。作為眾多游戲手機、性能旗艦的首選平臺,第三代驍龍8移動平臺利用CPU、GPU、NPU的異構計算能力,以卓越能效
為什么說第三代驍龍8s恰逢其時?
日前,高通舉辦新品發布會,推出了驍龍8旗艦移動平臺誕生以來的第一款新生代旗艦平臺:第三代驍龍8s,這是高通對驍龍旗艦移動平臺的一次層級擴展,同時意味著廣大消費者未來在旗艦手機市場也將會有更多豐富
小米14 Ultra發布,搭載第三代驍龍8移動平臺
今日,小米召開主題為“新層次”的新品發布會,正式推出了小米14 Ultra手機。新機搭載第三代驍龍8移動平臺,集小米領先技術于一身,帶來全方位跨越的新一代專業影像旗艦,讓真實有層次。
中國第三代自主超導量子計算機“本源悟空”上線運行
1月6日上午9時,中國第三代自主超導量子計算機“本源悟空”,在本源量子計算科技(合肥)股份有限公司(簡稱本源量子)正式上線運行。圖為中國第三代自主超導量子計算機“本源悟空”該量子計算機搭載72位自主
第三代半導體龍頭涌現,全鏈布局從國產化發展到加速出海
第三代半導體以此特有的性能優勢,在半導體照明、新能源汽車、新一代移動通信、新能源并網、高速軌道交通等領域具有廣闊的應用前景。2020年9月,第三代半導體被寫入“十四五”規劃,在技術、市場與政策的
評論