作者:郭平
這篇文章是郭平教授的一篇文章,本文采用“四問”的表述方式,解釋了人工智能的第一性原理。提出了在基于物理的人工智能基礎研究領域,運用第一性原理思維解決人工智能缺乏基礎自然科學常識的一種思路;并建議將最小作用量原理作為人工智能的第一性原理。
實現通用人工智能(Artificial General Intelligence,AGI)是一個長遠目標。我們需要探索通往人工智能(AI)的道路,要以基礎研究作為出發點。“基礎研究是整個科學體系的源頭,是所有技術問題的總機關。”這也說明了AI基礎理論研究的意義和重要性。要加強AI的數學物理基礎研究,可以將“第一性原理”(first principle)作為出發點,發展新一代AI基礎理論。
人工智能領域存在第一性原理嗎?
古希臘哲學家亞里士多德將第一性原理(或首要原則)表述為:“在每一個系統的探索中,存在第一性原理,這是一個最基本的命題或假設,不能被省略或刪除,也不能被違反。” 在20世紀以前,第一性原理主要用于哲學、數學和理論物理。在數學中,第一性原理是一個或幾個公理,且不能從系統內的任何其他公理中推導出來。在理論物理中,第一性原理是指一個計算直接從物理定律建立,不做經驗模型和擬合參數等假設。生物學的第一性原理是達爾文提出的“物競天擇、適者生存”理論。在近代社會,第一性原理已經擴展到許多學科,包括生命科學、化學、經濟、社會科學等。
隨著人類認知的發展,第一性原理已經從最初的哲學術語分化為專業性更強的表述,有些已不再使用“第一性原理”這個術語,而采用其同義詞表述。在哲學中采用了“先驗原理”(priori-principle),數學中統一使用了規范術語“公理”(axioms),而物理學則沿用了“第一性原理”。
AI領域是否存在第一性原理,是個有爭議的話題。有人認為AI不存在第一性原理,理由是第一性原理是在哲學、數學或物理規則定義的域內定義了問題空間的邊界,而AI領域的第一性原理需要在明確定義了什么是“智能”之后才有意義。目前對“智能”還沒有明確定義,因此對AI還沒有一個精確的、人們普遍可以接受的定義。在學界有兩個定義可參考:一是斯坦福大學人工智能研究中心尼爾斯·約翰·尼爾遜(Nils J. Nilsson)教授提出的“AI是關于知識的學科——怎樣表示知識、怎樣獲得知識并使用知識的科學。” 二是麻省理工學院的帕特里克·溫斯頓(Patrick Winston)教授提出的 “AI就是研究如何使計算機去做過去只有人類能做的智能工作”。
有人認為AI沒有第一性原理,依據是尼爾遜教授撰寫的《人工智能原理》(Principles of Artificial Intelligence)一書[1]。在該書的第2頁,有一段話給我們明確呈現出這樣的概念:“AI目前沒有通用理論,因此接下來向您展示一些應用程序。”也就是說,目前AI不存在第一性原理,現在應把注意力放在與工程目標相關的原理上,這些原理是衍生出來的原理。衍生的原理實際上告訴我們復雜系統的一些簡單結果,無論是自然還是AI,其本質可能也是如此。智能是許多過程并行發生和相互作用的結果,而這些過程無法輕易地追溯到一個基本的物理原理。
我們認為這是把AI看作是一種技術,從技術的角度看問題,也就是說,把AI看作類似于建立在實驗基礎上的學科。
物理學家張首晟在一次演講時提到了第一性原理的思維方式:在20世紀以前,第一性原理的概念屬于人腦的歸納、演繹產生的邏輯自洽學科,包括數學、哲學和理論物理,其理論體系的基石都可稱之為第一性原理。它們可以明顯區別于諸如化學、生物等建立在實驗基礎上的學科。
在21世紀的今天,人們的認知水平與科學技術發生了很大的變化。在以實驗為基礎的學科上,均有基于第一性原理的成果。例如在生物科學方面,第一性原理也被重新發掘出來。最近,美國圣塔菲研究所(Santa Fe Institute)現任所長戴維·克拉考爾(David Krakauer)在《理論生物科學》(Theory Bioscience)期刊發表了一篇題為“個體信息理論”的文章,基于第一性原理的數學形式化理論,通過捕捉從過去到未來的信息流,能夠嚴格定義許多不同形式的個體。但也有人提出了質疑:“作者試圖給出‘從頭計算’生命的一般框架,野心是很大的。但其給出一個調節參數γ,就不能不讓人懷疑其‘科學立場’了。”
對一種觀點有不同的看法是很正常的。目前大家公認的看法是,以深度學習為主導的AI沒有理論。但實現AI是以計算機技術為基礎的,計算機也是先有技術,后發展科學理論的。ACM圖靈獎獲得者雅恩·樂昆(Yann LeCun)認為理論往往是在發明之后構建起來的,例如蒸汽機的發明在熱力學之前,可編程計算機在計算機科學之前,等等。有了理論基礎,即使只是概念上的基礎,也將大大加快該領域的研究進展。
尼爾遜教授的《人工智能原理》一書已經出版了40余年,如今AI理論仍在發展,我們的思維認知水平也提高了,因此現在應該重新考慮AI是否存在第一性原理這個問題了。李國杰院士認為,AI與計算機科學在本質上是一門學科。AI系統就是用計算機技術對信息加工和處理的系統。既然是一個系統,那么依據定義,每一個系統中都應該存在第一性原理。
我們知道,機器學習是AI的一個子集,AI基礎研究是建立在數學和物理基礎之上的。北京交通大學教授于劍出版了一本書《機器學習:從公理到算法》。這是一本基于公理研究學習算法的書,實際上就是把數學的第一性原理應用于機器學習,只是沒有顯式地表述出來而已。于劍教授的這本書可謂將第一性原理應用于機器學習的范例。
由于物理是基礎科學,許多學科是以物理為基礎的,物理的第一性原理就可以應用到這些學科。物理的第一性原理也被稱為“從頭計算”(ab initio),即只使用最基本的物理學定律,不使用經驗參數,僅用電子質量、光速、質子、中子質量等少數實驗數據去做量子計算。我們研究基于物理的AI,AI的第一性原理可以借用物理的第一性原理,將“從頭計算”應用到AI,可以視為AI的第一性原理。但是“從頭計算”是狹義的第一性原理,廣義的第一性原理是“最小作用量原理”(the least action principle)。
為什么是基于物理的人工智能?
數學、物理不但是其他學科的基礎,更是AI的基礎。為什么要基于物理學研究AI基礎理論?這是因為物理學是研究物質運動最一般規律和物質基本結構的學科,是自然科學的帶頭學科,其他各自然科學學科的研究基礎都建立在物理學科之上,而且哲學與物理的關系也非常緊密。著名物理學家斯蒂芬·霍金(Stephen Hawking)在他的論著《大設計》(The Grand Design)第一頁上就語出驚人地宣稱“哲學已死”,因為“哲學跟不上科學,特別是物理學現代發展的步伐。在我們探索知識的旅程中,科學家已成為火炬手。” 雖然這是一個被人批評為極為傲慢的“宣言”,但也從中說明物理學促進了哲學的發展。
雅恩·樂昆在IJCAI 2018(國際人工智能聯合會議)的演講中指出了目前AI系統的幾個缺點:缺乏獨立于任務的背景知識,缺乏常識,缺乏預測行為后果的能力,缺乏長期規劃和推理的能力。簡言之就是沒有世界模型,沒有關于世界運行的通用背景知識,我們需要學習一個具備常識推理與預測能力的世界模型。因此,未來關于AI的研究需要形成一種新型的理論,該理論的目標是構建可以實現的世界模型。也有學者認為,為了更好地描述神經網絡和神經系統,我們需要一套新的數學語言和框架,但這個新的框架究竟在哪里,目前學術界還沒有統一的思路和共識。我們認為基于物理的AI可能是最有希望實現的一個新框架。
對于AI缺乏常識的問題,基于物理的AI框架可能會提供一種解決思路。要想將常識賦予AI,首先需要搞清楚什么是常識。通俗地講,常識就是大部分人都知道的普通知識。按照網絡百科的描述,普通知識就是一個生活在社會中的心智健全的人所應該具備的基本知識,包括生存技能(生活自理能力)、基本勞作技能、基礎的自然科學以及人文社會科學知識等。關于常識的一種較為專業的釋義是:一般指從事各項工作以及進行學術研究所需具備的相關領域內的基礎知識。而這些基礎知識來源于對自然規律、自然現象或者人類社會活動的歸納總結。
如何讓人工智能具有常識?
雅恩·樂昆解釋過AI為什么沒有常識:“我們沒有能力讓機器去學習龐大的背景知識,而嬰兒在出生以后的最初幾個月里就可獲得關于這個世界的龐大的背景知識。”這就是說,AI要掌握常識,需要搞清楚物理世界的運作方式并做出合理決定,它們必須能夠獲取大量的背景知識、了解世界的運行規律,進而做出準確的預測和計劃。不難看出,本質上這是歸納性的思維方式。而我們的常識,大多數是運用歸納法獲得的。
為什么讓AI具有常識這么難?數十年來,該研究一直進展甚微,可能的原因之一是沒有按照第一性原理思考。一提到AI沒有常識,從大多數學者舉的例子來看,他們潛意識地認為AI的常識包括了所有領域的基礎知識。其實,常識是領域相關的,有生活常識、基本勞作技能,還有基礎的自然科學常識等。如果上來就想賦予AI具有所有的、沒有分類的常識,不考慮常識的領域相關性,這顯然是按AGI要求的。但是主流AI學界目前的努力從來就不是朝著AGI方向的,現有技術的發展也不會自動地使AGI成為可能。目前可以實現的都是在考慮某種特定類型的智能行為,也就是所謂的“弱人工智能”。實際上,我們完全有理由認為,采用類比思維,即使能精確地觀察和仿制出神經細胞的行為,也無法還原產生出智能行為。因此,依據第一性原理思維,在復雜的現象中找到最根本的原理,才能解決根本的問題。按照第一性原理思維,需要從頭計算,即先訓練AI,學習基礎的自然科學常識。這也就是新加坡國立大學教授顏水成所提出的嬰兒學習(baby learning)方法,即模擬嬰兒自學習逐步獲取知識的方法。
為了讓AI擁有常識,我們需要化繁為簡,把常識限定到特定的領域,例如將掌握物理科學常識作為現階段的首要目標。用第一性原理的思維方式,把基于物理的科學常識灌輸給AI。因此,我們需要轉變一下思維方式,從純數據處理邏輯邁向某種形式的“常識”,即從基本物理原理出發,讓AI先掌握科學常識,從而學習推理。
為什么先讓AI學習基礎的自然科學常識,而不是生活常識或其他領域的常識呢?基礎的自然科學常識背后的物理原理是有明確定義的,且可以由數學公式描述的。第一性原理是通過少數的幾個公理演繹出事物目前的狀態,而物理的定律往往是用偏微分方程來描述的。牛頓的一部《自然哲學的數學原理》為經典力學定義了一套基本概念,提出了力學的三大定律和萬有引力定律,從而使經典力學成為一個完整的理論體系。從物理定律出發,用牛頓力學的公式演繹出各種運動現象,至少能使AI具有用經典力學可以解釋的自然現象的科學常識。
實際上在這方面已經有了先例。AAAI 2017的最佳論文《基于物理和領域知識的神經網絡無標簽監督》,就是基于萬有引力定律推算出枕頭的運動軌跡,利用網絡的輸出必須滿足物理定律的約束來訓練神經網絡,從而實現了神經網絡的無標簽監督學習。這里面的常識就是:一個物體如果沒有其他外力作用,例如桌面的支撐力,則在萬有引力作用下做自由落體運動。而我們的IJCNN 2017論文,本質上也是基于惠更斯-菲涅爾成像原理,實現了對光譜圖像校正的神經網絡無標簽監督學習。
基于第一性原理思維需要花費更多的精力,而基于第一性原理構建世界模型要比模仿計算可能需要更大的計算量。一方面,目前我們還沒有足夠的算力讓機器去學習龐大的背景知識,但只限定于基礎的自然科學的背景知識還是有可能的。最近有文獻表明GPT-3(OpenAI于2020年5月發布的Generative Pre-training Transformer語言模型第3版)具有1750億個參數,所使用的數據集容量達到了45TB,說明目前的算力已經有了很大的提高。另一方面是運用物理思維做合理的近似,簡化問題復雜度,把不可計算的問題約減為可計算的問題。例如基于平均場理論,把多體問題近似為兩體問題。數學家總是想精確求解問題,而物理學家會在無法精確求解的情況下采用近似方法。因此有人戲稱數學家總愛把簡單的問題復雜化,而物理學家則盡力把復雜的問題簡單化。如果說為什么要研究基于物理的AI,這也算得上是一條理由吧。
追求和諧、統一與完美是物理學家的最高境界,這也是AI科學家以及所有科學家追求的境界。AI的第一性原理也應該是對完美追求的典范。物理學中的最小作用量原理就是一個非常簡單而優雅的原理,可看作是整個物理學的第一性原理。該原理是現代物理學和數學的核心,在熱力學、流體力學、相對論、量子力學、粒子物理學和弦理論都有廣泛的應用。對最小作用量原理更詳細的介紹請參考文獻,物理學家理查德·費曼(Richard Feynman)對此有非常精彩的講解,本文不再贅述。在具體實現上,從具有可操作性的角度考慮,我們認為應該將最小作用量原理作為AI的第一性原理,期望能在最小作用量原理這塊基石上,建立基于物理的AI宏偉大廈。
為什么要用和如何應用第一性原理?
近幾百年來,哥白尼、牛頓、愛因斯坦、達爾文等科學巨匠對科學革命做出了巨大的貢獻。而科學革命帶來的技術進步,促進了社會生產力快速發展和社會文化進步,對人類文明產生了巨大影響。他們共同的思維方式,都是簡潔而優美的第一性原理。愛因斯坦說過:“適用于科學幼年時代的以歸納為主的方法,正在讓位于探索性的演繹法”,應該“由經驗材料作為引導,研究者寧愿提出一種思想體系,它一般是在邏輯上從少數幾個所謂公理的基本假定建立起來的”。這段話不但告訴我們其科研方法是第一性原理思維,還告訴我們要使用演繹法。第一性原理的本質是邏輯學中的演繹性思維。
我們知道,深度學習是機器學習的一個子集,而機器學習是人工智能的一個子集,其局限之一在于無法解釋因果關系。因果關系是一個事件和另一個事件之間的作用關系,其中前一個事件是原因,后一事件被認為是前一事件的結果。一般來說,一個事件可能是很多發生在較早時間點的原因綜合產生的結果,而該事件又可以成為發生在之后時間點的其他事件的原因。因果關系亦稱“因果律”,哲學上有一種對第一性原理的說法:“第一性原理是超越因果律的第一因,且是唯一因,同時第一性原理一定是抽象的。” 第一性原理思維顯然與因果關系緊密相連,這或許為我們解決AI無法解釋因果關系的問題提供了一種新的思路。
由于思維邏輯和觀察視角直接影響對問題的理解,基于第一性原理思維無疑會有助于深刻理解問題。第一性原理應用在企業獲得成功的典范人物是“鋼鐵俠”埃隆·馬斯克(Elon Musk)。在一次TED采訪中,他告訴大家他成功的秘密是運用了第一性原理思維。我們可以理解為第一性原理的思維方式是用物理學的角度看待世界,一層層撥開事物表象,看到里面的本質,再從本質一層層往上走。馬斯克的第一性原理思維方式在企業界引起了轟動,帶動了企業家依據第一性原理思考問題去進行顛覆式創新。
在AI基礎研究領域,基于第一性原理構建世界模型是一個科學問題。而在自然語言處理(NLP)領域,能在50多種任務上取得驚艷效果的GPT-3模型,只是證明了現有技術的可擴展性,不可能走向AGI。從文獻和報道來看,GPT-3的基礎架構并沒有太大變化,仍然是基于大數據(使用45TB數據進行訓練)、大模型(擁有 1750 億個參數)、大算力(擁有超過 285000 個 CPU 內核、10000 個 GPU 的超級計算機和 400Gbps 的網絡連接)這三種要素的神經網絡AI。在關于GPT-3的論文中也說明了數據越大,參數量越大,模型的性能表現越好的觀點得到了驗證。論文中也暗示了AI中僅僅增加算力的局限性,算法設計方面沒有突破。
盡管 GPT-3表現出了巨大的潛力,但基于深度學習的AI仍然存在問題,包括存在偏見、依賴于預訓練數據、不具有常識、沒有基于因果關系的推理能力、缺乏可解釋性等。GPT-3不可能理解人們賦予它的任務,也無法判斷命題是否有意義。凱文·拉克的博客展示了對GPT-3的圖靈測試。測試中有個問題是:“我的腳有多少只眼睛?” GPT-3答:“你的腳有兩只眼睛。”當一個句子中涉及的物體超過兩個時,GPT-3體現出短時記憶有限的缺陷,不會舉一反三,推理出現困難。
第一性原理思維是一種演繹性思維方式,是要堅持不懈地追求問題的本質,然后用追本溯源得到的這些基礎知識來解決問題。我們基于第一性原理思維,從宏觀、介觀到微觀三個層次全方位來分析一下GPT-3系統。一個AI系統從宏觀上看是由軟件和硬件組成的系統,軟件是AI系統的靈魂,硬件是物理實體。從硬件角度來看,GPT-3所用的計算機仍然是馮·諾伊曼體系結構:計算機的數制采用二進制,計算機按照人的指令編寫好的程序順序執行。之所以采用二進制,是因為在用半導體材料制成的元器件中,用高電平表示1,低電平表示0。從基本的元器件構成運算器、存儲器,再到集成電路,直至現代的超級計算機,均是人設計并制造出來的。計算機指令采用二進制編碼,有確定性的機器指令集。目前計算機所產生的隨機數也是偽隨機數,不可能像高等智慧生物那樣自主產生意識。現有的AI芯片,也只是把人們設計的算法硬件化,AI的核心算法并沒有得到突破,硬件化后只是對現有的算法加速了,并沒有開發出真正的智能芯片。從軟件的角度來看,軟件是計算機程序+文檔及數據,程序包含了算法。在AI算法上,GPT-3采用了與GPT-2同樣的Transformer架構,不同之處是它融合了一種稀疏自注意力機制。利用自注意力機制有效提高了訓練速度,改善了循環神經網絡(RNN)學習速度慢的缺點。因此,在馮·諾伊曼體系結構與目前深度學習算法下,依據“無限猴子定理”,需要無限長時間才有可能完成一部《紅樓夢》,在有限時間內能讓GPT-3產生一部類似《紅樓夢》的著作的概率也是無限小。即使產生了一部人們可以讀懂的著作,但GPT-3也完全不可理解其內容是什么含義。所以在當前的架構下,GPT-3不會邁向AGI,不會像有些人說的是“硅基文明的崛起”。這就是基于第一性原理思維得出的結論。
在《MIT技術評論》(Technology Review)雜志中的一篇文章1評論到,OpenAI的新語言生成器GPT-3是“令人震驚的好”和“完全沒有頭腦”。至于未來GPT-3是否會邁向AGI,技術新聞網站The Verge的報道2給出了這樣一段話:“這種按規模改進的概念非常重要,它正好是關于AI未來的一場大辯論的核心:我們究竟是使用當前的工具來構建AGI,還是需要進行新的基礎發現?AI從業者對此尚未達成共識,仍存在大量爭論。這些主要可劃分成兩大陣營。一個陣營爭辯說,我們缺少創造人工智慧的關鍵組成部分,即計算機必須先了解因果關系等事物,然后才能接近人類的智能。另一個陣營則說,如果該領域的歷史能夠表明了什么的話,那么實際上AI的問題基本是可以通過向它們投入更多的數據和提高計算機的處理能力來解決的。”
OpenAI公司屬于后一陣營,他們一直認為巨大的計算力配合強化學習,是通往AGI必經之路。但是大多數AI學者,包括ACM圖靈獎獲得者約書亞·本吉奧(Yoshua Bengio)和雅恩·樂昆,基本上是屬于前一陣營的,認為AGI是不可能創造出來的。從第一性原理出發,我們得到的結論是不可能實現AGI。對此,我們應有非常清醒的認知:受物理規律的制約,深度學習框架的天花板很快就會來臨。如果在基礎理論方面沒有突破,基于深度學習的框架就不可能發展成為硅基文明的AGI。所謂的硅基文明是科學幻想,不是科學事實。GPT-3沒有產生技術革命,只是在應用上取得了重大突破。未來我們仍有很多問題有待解決,還需要從第一性原理出發,重新構建AI基礎理論框架,才能賦予AI常識,發展具有可解釋性的AI。
結束語
正如清華大學張鈸院士所說,在探索通往AGI的道路上,“現在走得并不遠,在出發點附近”。***主席說過,“路線是個綱,綱舉目張”,“人多,槍多,代替不了正確的路線”。即使AI從業人員多,算力也很強大,但如果路線不正確,我們就有可能走很多彎路,甚至會陷入局部極值的坑里出不來。在AI基礎研究領域,正確的路線之一也許是摒棄類比思維,采用第一性原理的思維方式。
期望我們能以第一性原理為出發點,能在不遠的將來實現一個小目標,即先讓AI具有基于物理規律的科學常識,讓人工智能不再是“人工智障”。本文也希望拋磚引玉,在演繹性思維模式下創新,在AI基礎理論上有顛覆性突破。
編輯:黃飛
評論
查看更多