OpenAI通過一系列在AI技術和產品上的突破,引爆了通用人工智能(AGI)的發展,被微軟CEO 薩提亞?·?納德拉稱為“堪比工業革命的技術浪潮”。OpenAI趟出來的以大語言模型為主的AGI技術路線,也基本上宣告了其他AI技術路線的終結,這樣以一己之力改變整個領域航道的,在技術史上也是空前絕后。一個區區兩三百人(在去年底推出ChatGPT時,OpenAI團隊大約270人)的創業公司,何以在眾多巨頭逐鹿多年的AI競技場一路披荊斬棘,摘得通用人工智能的圣杯?無論在硅谷,還是在國內,很多人都在問:
為什么AGI這樣史詩級的革命,背后的核心推手竟然是OpenAI這樣的創業公司?OpenAI到底做對了什么?
我自從2016年開始一直追蹤研究AI領域的產業發展,每年籌辦全球機器學習技術大會(ML-Summit)的工作原因,陸續和很多來自OpenAI的專家、包括Ilya Sutskever(首席科學家)、Lukasz Kaiser(Transformer共同發明人)、Andrej Karpathy(聯合創始人)、Ian goodfellow(GAN之父)等經常接觸和交流。很早就注意到了OpenAI這個在AI領域特立獨行的“異類”。
如果回看AI產業的發展歷史,和OpenAI歷史道路上的諸多關鍵選擇,我幾乎驚嘆地發現,作為一家創業公司,OpenAI在每一次關鍵的岔路口上,都毫不猶豫地選擇了“難而正確”的決定。回顧OpenAI發展歷史上這些“難而正確”的選擇,我覺得對于我們今天很多AI領域的同行者會有重要的啟發。
愿景和使命:劍指通用人工智能
「我們的目標是以造福全人類的方式推進人工智能。今天的AI系統雖然令人驚嘆,但很多表現又不免差強人意。但在未來,AI極有可能在幾乎所有智力任務上達到人類的表現。這項事業的結果是不確定的,工作是困難的,但我們相信我們的目標和結構是正確的。」
這段話是我摘抄自OpenAI 在2015年12月剛成立不久創始團隊發表的“愿景和使命”博客中的一段文字。八年后的今天讀來,感受仍然是真誠和激蕩的。
OpenAI能夠在2015年整個AI領域被各種迷霧籠罩的時候,就提出“通用人工智能”這一強大的“愿景和使命”,是建立在創始團隊對人工智能的堅實信仰、深刻理解和現狀研究基礎之上的,我將這些合稱為對通用人工智能的“愿力”。這樣的“愿力”,幫助OpenAI此后在人工智能的發展道路上一次次守正出奇。
“愿景和使命”在今天浮躁的創投圈,很容易被異化為“忽悠VC和給員工畫餅”。但如果研究人類科技發展史,你會發現在一個領域提出強大的“愿景和使命”,是成為一個領域拓荒者的鮮明特征。反過來說,但凡革命性的事情,都有極大的難度,沒有強大的“愿景和使命”指引,遇到困難就很容易放棄和潰散。因此,對于那些堅定信仰的創業者,我鼓勵大家大聲講出你的“愿景和使命”。我也希望我們的創投界、媒體界對于創業者的“愿景和使命”要鼓勵支持、而非奚落鞭撻。
我時常在想如果將時間拉回到2015年,如果30歲的Sam Altman和29歲的Ilya Sutskever這兩位毛頭小子在我們的某個創投活動上講出上述“愿景和使命”,是不是會被一眾“大佬”唾沫星子淹死?事實是OpenAI在成立時就獲得了大約1億美金的捐贈,彼時OpenAI還是以非贏利性組織的方式成立的。
技術路線一:無監督學習
OpenAI剛成立不久,就在Ilya Sutskever的領導下下注“無監督學習”這條道路。熟悉AI研究領域的朋友都知道,今天這個看起來無比正確的決定,在2015-2016年,絕對不是那么顯而易見。因為彼時的人工智能領域,通過標注數據方法的“監督學習”大行其道,在很多垂直領域比如推薦系統、機器視覺等,效果也更好。
而“無監督學習”在理論突破和工程技術上彼時都非常不成熟,效果也大打折扣,屬于典型的“非主流”。但無需人工標注數據的“無監督學習”具有強大的普適性、且易擴展,通過大規模的數據預訓練,模型就能學到數據中蘊涵的人類豐富的知識,從而在各類任務中大顯身手。對于“通用人工智能”這一目標來說,“無監督學習”顯然具有“任務的普適性”和依據海量數據進行快速“scale(擴展)”的能力。
今天來看,很多“監督學習”方法都被OpenAI的“無監督學習”大幅甩開,但在當時選擇“無監督學習”顯然屬于“難而正確”的決定,這樣的關鍵道路選擇和OpenAI對AGI的愿景是密不可分的。
技術路線二:生成式模型
當2016年,各種“識別”類任務(如視覺識別、語音識別等)大行其道時,OpenAI在2016年6月發表《生成式模型(Generative Models)》中開篇就引用著名物理學家費曼的名言“What I cannot create, I do not understand. 如果不能創造,就無法理解”。也將OpenAI的研究重心放在生成式任務上。
而彼時雖然有Ian goodfellow 發明的GAN(生成式對抗網絡)的驚艷時刻,但它的不可解釋性,以及相較于識別類任務的“有用”,總體上,主流的人工智能業界其實對于生成式模型的判斷是“難度大,但用處不大”。
但通讀《生成式模型(Generative Models)》文章中,可以看出OpenAI團隊對于生成式模型是“AGI必經之路”的堅定,就能體會出OpenAI團隊卓爾不群、堅定自我的特質。
技術路線三:自然語言
雖然在2012年深度學習進入工業界成為主流方法之后,機器視覺很快成為更為成熟、效果更好、變現能力也更強的領域。雖然Ilya Sutskever也是通過AlexNet參加ImageNet大賽拔得頭籌而在機器視覺領域一戰成名,但OpenAI在做了一些嘗試之后并沒有選擇視覺作為主攻方向,而是選擇了押注更難、更險的“自然語言”。
相對視覺、語音等領域,自然語言處理長期被認為是相對落后的領域,因為自然語言任務具有巨大的復雜性和解空間,很多方法在某一個單一任務上可以,但放到另一任務上就表現很差,起伏不定。業界也有說法,自然語言處理是人工智能領域的“圣杯”。
在嘗試OpenAI Gym(開源強化學習平臺)和OpenAI Five(使用強化學習打Dota2游戲)的同時,OpenAI在使用無監督學習來進行自然語言的任務上走的越來越遠。特別是2017年通過生成式方式來預測 Amazon 評論的下一個字符,取得了很棒的效果。
為什么OpenAI選擇押注自然語言?套用著名哲學家維特根斯坦“語言的邊界就是世界的邊界”。如果用Ilya Sutskever的話來說?“語言是世界的映射,GPT是語言的壓縮”。就人類智能而言,自然語言是核心中的核心,而其他視覺、語音等都不過是自然語言的輔助佐料。
正是有了對自然語言通向AGI道路信仰般的押注,等到2017年6月12日Google的Transformer奠基性論文《Attention is All You Need》一發布,用Ilya Sutskever的原話說論文發表的第二天,他看到論文后的第一反應是“就是它了”。Transformer模型從理論上顛覆了前代RNN、LSTM等自然語言處理方法,掃清了OpenAI團隊苦苦探索自然語言領域的一些關鍵障礙。
然而遺憾的是,Transformer這一理論模型并沒有在Google內部得到足夠的重視,反倒讓OpenAI團隊如獲至寶。這一幕像極了1979年喬布斯參觀施樂PARC研究院的Alto電腦上的圖形界面(GUI)和鼠標后,回到蘋果就開始押注圖形界面并開啟了轟轟烈烈的個人電腦時代,而施樂PARC的領導層卻遲遲看不到GUI向普通大眾釋放的巨大計算潛力。而親自打造Transformer的七位共同發明人后來也陸續離開Google,有的加入OpenAI(包括我們2021年全球機器學習技術大會的keynote speaker、OpenAI研究科學家Lukasz Kaiser),有的在硅谷VC支持下創辦新一代人工智能公司。很有點當年硅谷仙童半導體“八叛徒”的昨日重現。
技術路線四:解碼器
在Transformer打開了大語言模型的理論窗口之后,大語言模型發展出了三種路線。第一種,以Google BERT、ELECTRA為代表的Encoder-Only(編碼器)路線;第二種,以Google T5、BART為代表的Encoder- Decoder(編解碼器)路線;第三種,以OpenAI GPT為代表的Decoder-Only(解碼器)路線。
這三種路線,Encoder-Only路線適合理解類任務,很難應對生成式任務,也不具有好的擴展性和適應性,雖然被Google BERT在個別子領域一度帶火,但現在幾乎處于被主流拋棄的地步。Encoder- Decoder路線適合特定場景任務,但通用性和擴展性也比較差。Decoder-Only路線首先非常適合生成類任務,同時對各類任務都具有很好的通用性,在工程上也具有很高的可擴展性(scale),非常適合將模型規模做大。
基于這些特點來看,要以AGI通用人工智能為目的地的話,那么Decoder-Only路線顯然是不二選擇。從上面的大語言模型進化樹來看,可以看出GPT選擇的Decoder-Only路線顯然引領了大語言模型的發展和繁榮。
技術路線五:從強化學習到對齊
通過以上的無監督學習、生成式模型、自然語言、解碼器這幾個關鍵的技術岔路口選擇之后,GPT模型顯然已經奔赴在通往AGI的康莊大道上了。但是GPT的強大也引入一些新的隱憂,它的強大會不會為人類帶來危險、破壞人類價值觀、幫助作惡、擾亂社會秩序、甚至威脅人類的生存?
這是嚴重違背OpenAI的愿景和使命的。如何將強大的GPT模型與人類價值觀和社會規范對齊?強大之后如何變得“對人類有用”?技術的問題要靠技術來解決。這時候OpenAI在早期訓練Dota游戲智能代理時積累已久的強化學習功底就派上用場了。通過在預訓練之后加入基于人類反饋的強化學習(RLHF,Reinforcement Learning from Human Feedback)來教導AI做一個對人類有益的“好的AI”,設立護欄,防止被用來做惡。這方面,OpenAI想得很遠,投入的也很大,配得上它的“愿景和使命”。
工程智慧:Scale Law
如果回顧OpenAI在歷史上做的一系列技術選擇,我們會發現幾乎所有的選擇都是圍繞“是否有利于通用人工智能Scale”的原則進行的,而與該技術在當時“是否能快速變現”、“是否主流”、“是否容易上手”、“是否效果立竿見影”完全無關。
做過技術架構,或者商業戰略的人也都知道,“快速易擴展”是好的技術架構或者商業模式的“鐵律”。這一鐵律同樣適用于通用人工智能的發展。OpenAI的團隊顯然是洞悉這一點的。他們甚至在2020年發表了一篇著名的論文《Scaling Laws for Neural Language Models》來總結模型參數、訓練數據集大小、算力投入(FLOPs 每秒浮點操作)、網絡架構之間的擴展法則。
其實除了模型的Scale Law,OpenAI對于邁向AGI道路上的各種Scale力量都有非常深刻的洞見和睿智的選擇。
產品智慧:從超級應用到生態平臺
從2018年OpenAI推出GPT 1.0到2020年GPT發展到3.0,OpenAI這時已經拿到大語言模型這樣一張王牌,但怎么出牌也很重要。歷史上握著一手技術好牌,但是打得稀爛的也比比皆是。以OpenAI強大的“通用人工智能”愿景來說,不做平臺型公司是很難的。但是科技史上一上來就做平臺的公司,大部分都折戟沙場。反觀那些成功的平臺型技術公司,絕大多數都是先從建立“超級應用”開始的。
歷經硅谷頂級孵化器YC總裁的鍛煉,OpenAI的另一位靈魂人物CEO Sam Altman,當然是產品戰略高手中的高手。OpenAI選擇先從ChatGPT這一“超級應用”入手,通過短短幾個月的時間,積累了上億的用戶、海量的交互數據、和極強的品牌號召力,才有后面的ChatGPT API, Plugins等一系列大手筆的平臺布局。以目前各種渠道的消息來看,OpenAI在產品上還有很多大招,讓我們拭目以待。
順便提一下,我在前面《AGI時代的產品版圖和范式》文章中,也更深入地談了很多我對AGI時代產品創新的思考。
股權設計:限制盈利公司
OpenAI最早是以非盈利組織的方式成立,初期資金以捐贈的方式募集。但顯然創始團隊低估了發展AGI需要的硬件和人才投入,也高估了捐贈的兌現(早期承諾的捐贈后來其實很多沒到位)。因此到2019年3月,OpenAI重新設計公司治理架構,改為“限制盈利”的公司,接受微軟10億美金投資。
“限制盈利”規定向OpenAI投資的股東,未來從OpenAI能夠獲取的利潤分配最多到投資額X100倍的上限。超出部分將由非盈利組織OpenAI Nonprofit控制。
這一精妙的股權設計既能吸引OpenAI所需要的投資,又防止了AGI過于強大而攫取巨額利潤。平衡了發展AGI需要的商業支持和AGI造福全人類這一宏大愿景之間的矛盾。我覺得若干年后回看歷史,這一股權設計也是商業史上一個偉大的發明。創始人兼CEO Sam Altman不拿股權,不求商業回報,一心追求AGI改變世界的胸懷也讓人心生敬意。
戰略設計:合縱連橫
如果將OpenAI比作AI時代的一只小恐龍,那么在AI領域長期重兵投入、市值萬億的Google和微軟顯然是AI時代的兩只大恐龍。OpenAI這樣的“攪局者”如果被兩只大恐龍中的任何一只盯上,都會惹火燒身。而OpenAI對于ChatGPT這樣的“爆款應用”推出所引起的AI戰國紛爭顯然有充分的預判和精妙的戰略設計。
OpenAI首先通過和微軟這只大恐龍的戰略合作,既拿到百億美金量級的寶貴發展資金,同時又通過GPT賦能微軟Bing搜索、半路攔截Google這只大恐龍,還順帶將GPT賦能到自己一時半會照顧不到的B端市場(Azure云服務、Office 365等)以獲取適當利潤,而自己卻可以集中精力、以C端市場為切入點、在構建AGI時代的生態平臺上蒙眼狂奔。
這一巧妙利用巨頭“創新者窘境”的合縱連橫,讓一家人數僅有300多估值不過300億美金的創業公司,同時撬動兩家市值萬億美金、員工近二十萬的科技巨鱷的戰略布局,放眼整個商業史,空前絕后,蔚為大觀。
團隊架構:學術+工程+產品+商業
讀到這里很多朋友可能會問,OpenAI到底什么來頭、何德何能如此彪悍?秘密無他,科技公司最貴的就是人才。OpenAI有著足以笑傲AI江湖的聯合創始團隊組合。
一號位CEO Sam Altman 20歲從斯坦福輟學創辦Loopt,于2012年將公司以4300萬美金出售。于2014被大自己二十歲的YC創始人、硅谷創業教父格雷厄姆說服接替他擔任YC總裁。格雷厄姆很早就看到Sam Altman的卓越才華,在他眼里,Sam Altman就是硅谷未來的喬布斯。Sam Altman在硅谷的創業和YC的經歷鍛造了他在產品模式、商業戰略、投融資方面的頂級才能。
二號位首席科學家Ilya Sutskever是深度學習之父Geoffrey Hinton的關門弟子,從ImageNet大賽一戰成名,后來加入Google大腦,發明Seq2Seq大幅改善機器翻譯,參與TensorFlow和AlphaGo的研發。是深度學習學術領域當仁不讓的“開山功臣”。
總裁Greg Brockman之前創立著名支付公司Stripe并擔任CTO,具有極強的工程技術能力和從零到一搭建技術團隊的經驗。是OpenAI長期的工程技術支柱。除此之外,像Andrej Karpathy 、John Schulman、Lukasz Kaiser等燦若群星的匯聚,使得OpenAI在AI人才密度上放眼全球,都屬頂流之列。OpenAI的團隊結構也反應OpenAI的AGI創業觀:學術、工程、產品、商業,四大支柱缺一不可,而且各個都很強。
除了自己聚焦AGI還不夠,OpenAI和Sam Altman還投資了眾多核聚變、量子計算、加密貨幣等公司,圍繞能源、算力、財富分配等未來變革進行大手筆布局。這些每一個都劍指AGI的未來。
綜上所述,OpenAI無論是在技術的多個岔路口上的關鍵選擇,還是在產品、工程、股權、戰略、團隊上,都打得一手好牌,是一家非常值得研究和重視的公司,也是我們窺視AGI時代的一扇窗戶。
作者簡介
李建忠? Boolan創始人兼任首席技術專家,全球機器學習技術大會主席。對人工智能、產品創新、商業模式有豐富經驗和深入研究。近年來研究以?語?模型為主的??智能?法,相關研究和咨詢引起業界強烈關注。曾于 2005年-2010年期間擔任微軟最有價值技術專家,區域技術總監。擁有近二十年技術與產品經驗,為包括眾多世界500強公司在內的知名品牌提供高端產品創新、技術戰略咨詢服務。
編輯:黃飛
?
評論
查看更多