今天抽空寫個文章,聊一聊AI芯片的生態問題。這個話題很大,涉及面非常寬泛,而且不是純技術問題,相關的爭議也同樣非常多。
和我過去寫的文章一樣,我的觀點一般也比較激進,各位看官請酌情食用。
萬字長文預警!??!這個話題非常大,但實在不想拆成多篇了,也就一口氣講完了。
“生態”本身就是個很寬泛的詞,生態本身的定義很容易陷入文字游戲的范疇?!肝医裉旄鄰囊恍┕J的標的物出發去討論生態競爭的底層邏輯?!?/p>
例如:
算子編程CUDA、
系統層編程語言C/C++、
甚至包括C/C++為主的項目的構建系統cmake等,
芯片側標配也是NVidia GPU、
Intel的x86服務器、
GPU之間通信的NVLink、
CPU和GPU之間的PCIe。
這些基本都是公認的擁有一定生態統治力的軟件、硬件、協議,這些組件組合到一起,共同形成了整套行業內最標準化的體系。
這套體系實際上是自計算機誕生以來持續迭代演進至今的一套事實標準組成的體系,其中很多組件都具有歷史的厚重感。
整個體系不屬于任何一個組織,是全行業多年競爭博弈后的結果,但同時,博弈中的勝者也都擁有整個體系中某一生態位的話語權。
整個體系又大大小小的各種生態位構成,生態位之間相互依賴,「每個生態位上的組件既是其他生態位的應用」,需要滿足相應生態位的規則,又給其他生態位搭建平臺,可以制定相應的游戲規則。
「生態位的話語權并不取決于誰是誰的平臺,而取決于需求」,例如NVidia的GPU名義上仍然是Intel定義的“中央”處理器+各種PCIe“從屬”設備游戲規則下的“從屬”設備,但今天在AI的需求暴漲的情況下,「NVidia在這一塊的解決方案形態的定義上有著遠超Intel的話語權?!?/p>
PyTorch雖然是基于C++和Python構建的深度學習框架,但C++和Python語言本身的演進也很難對深度學習領域有多強的話語權。
「當然這種話語權也并不意味著可以為所欲為,需求本身也限定了各個掌握了話語權的玩家可以折騰的邊界」。Intel雖然在傳統云、虛擬化、處理器安全、包括PCIe、CXL的演進上擁有充分的折騰自由度,但在AI領域基本沒什么號召力。
同樣,NVidia的折騰一定要能解決目前體系在AI領域的各類瓶頸問題,漸進式地講整個體系逐漸改造成一個更加適用于AI需求的整體解決方案。今天有很多人說NVidia不只是一家芯片公司,更是一家軟件公司,是一家系統級解決方案公司,NVidia也正在打造各行各業的整體解決方案。
這些都是非??陀^的評價,NVidia事實上也確實不斷圍繞GPU產品打造越來越多行業的軟件解決方案,而且在很多垂直行業都做到了老大的地位?!傅@并不意味著整體解決方案就是芯片競爭的有效途徑」。
「解決方案式的思維是目前在芯片領域競爭最常見的坑」。
實際上解決方案式的產品模式本身就是已經取得生態統治力的玩家收割各行各業的手段,「是構建了生態統治力之后的果,而不是他們取得競爭力的因」。
今天有無數公司把端到端解決方案當作取得競爭力的方法論,但NVidia駕馭的整體解決方案是上述事實標準體系,而其他玩家自己從芯片到軟件全棧打造解決方案,并期望通過軟硬件整體解決方案的競爭力來構建自己的生態,屬實搞錯了因果。
事實標準體系實際上需要極強的親和性,NVidia的CUDA采用C/C++語言擴展的形式構建,并且整體設計對C/C++的編譯、鏈接、構建、調試等體系具有更好的親和性,例如形式上兼容elf格式的object文件,兼容C/C++的整個函數調用和符號體系,最大化減少對用戶項目的侵入性。
這樣在一個復雜的C/C++項目中,只有和GPU直接相關的代碼用nvcc編譯器編譯,其他代碼的編譯以及整個項目的鏈接和構建都原來用啥還用啥。這種對C/C++的親和性實際上對于切入事實標準體系是非常重要的。
而今天CUDA已然成為事實標準體系中的一部分,新的玩家入場,就不止要考慮C/C++的親和性,也一樣要考慮對CUDA的親和性。
當然與哪些東西親和取決于要從整個體系的大大小小生態位的什么位置切入,NVidia設計CUDA時,深度學習還沒有起飛,C/C++也是高性能計算非常主流的平臺,選擇從C/C++切入自然是當時最優選擇。
今天C/C++仍然是最優選擇之一,不過深度學習在應用層也帶飛了Python,與Python親和也是今天一種可能的選擇,但在整體設計上就需要考慮更多與Python及其周邊生態的親和性。
像TVM雖然選擇了Python庫的形式,但整體上采用了Python寫編譯和優化流程這種坑爹形式,自然跟Python親和性完全扯不上邊。這里面沒有什么標準答案,成敗全在細節之中,需要對周邊生態的親和性有極強的感知和理解。
即使像TVM這種純軟件背景團隊的作品甚至TensorFlow這種出自Google這種頂級軟件公司的作品,也因為缺乏這方面意識而在生態上各種碰壁。
今天有無數微架構背景的架構師把編譯器、軟件框架當作萬金油,只著眼于最終的業務,最終做出的產品自然也和生態親和性相去甚遠。
這背后的細節把控其實無論軟件背景還是芯片背景都沒有孰優孰劣,能同時清楚所有邊界上生態位的設計理念才是最重要的。
在今天AI領域的軟件生態已然包含CUDA、PyTorch等組件構建的龐大體系,整個親和性的設計就變得愈發困難,于是很多公司就走上了端到端整體解決方案式的邪路。
芯片的算子編程語言做不好親和性,就把上面各種可能用到算子編程語言的圖編譯、深度學習框架、推理引擎、甚至具體業務全都做了,以期望減少算子編程語言親和性的問題。
但同時帶來的也有上層這些框架、引擎與周邊生態的親和性。最后等于是為了解決一個親和性問題創造了無數個親和性問題,只是在不斷redirect問題。
除了軟件棧之外,其他方面類似的踩坑簡直不要太常見,芯片搞不好就包成整機,整機搞不好就包成云。最后邊界越搞越大,周邊與之交互的標準化生態位越搞越多,親和性問題基本就爆炸到無法解決了。
最后實際上是游離于標準化體系之外的獨立體系。表面看起來和NVidia一樣在打造整體軟硬件解決方案,但NVidia是駕馭著事實標準體系,而你如果只是駕馭著一套游離于標準化體系之外的私有解決方案,和事實標準體系競爭無疑是蚍蜉撼樹。
當然了,凡事都有例外,這種游離于標準化體系之外的解決方案在某些特定的業務下也是一種捷徑。極端一點的比如像礦機,因為需求足夠單一,而且市場規模巨大,這時候拋開現有體系整個做一套獨立的體系倒也是可以分一杯羹。
但無論如何,NVidia駕馭著事實標準體系競爭力也是非常強悍的,并且也在礦潮時狠狠大賺了一筆。對于礦老板而言,礦難了礦卡也就是電子垃圾了,NVidia顯卡還能轉手翻新一下賣給游戲佬和AI市場。
其他市場,比如安防攝像頭、車載自動駕駛芯片等等,相比礦機市場肯定差不少,但好在需求還沒分化得特別嚴重,也有脫離體系分一杯羹的空間。
到云端數據中心就別想了,從計算機發明至今多少巨頭共建的體系,業務需求變化極快。「不過這種特定市場分一杯羹雖然有捷徑,也同樣沒法建立真正意義上的生態統治力。」
今天你可以走捷徑拿到一定市場,明天別人也可以走捷徑把你的市場拿走。今天客戶可以克服生態的慣性付出遷移成本遷到你的自建體系上,明天也一樣可以遷到其他自建體系或者標準化體系上,走捷徑實際上也意味著和生態帶來的統治力和護城河無緣。
「解決方案層面真實有效的競爭是爭奪標準化體系內的話語權」。
這套體系里的每一個手握方向盤、掌控著某一塊生態位的玩家都借助自己的生態位根據地,試圖按照符合自己利益的方式漸進式改造整個標準化體系,「同時給競爭對手使絆子?!?/p>
「比如Intel過去卡著PCIe帶寬的升級速度,讓NVidia的GPU始終存在各種瓶頸」,包括今天Intel推出CXL作出一定的讓利,希望團結更多玩家一起打NVidia。
但這些都是已經成功上車,手握方向盤的玩家之間的事情,沒有上車的玩家連參與這個層面競爭的資格都沒有,打造自建的整體解決方案只是營造了一種自己在車上的虛幻感。
其實NVidia本身也是生態競爭的極佳案例,但學習NVidia不能光看人家今天大口吃肉就有樣學樣,更重要的反而是過去30年里,NVidia怎么從車下的nobody成功上車,并且拿到了體系里面一個足夠大生態位的方向盤。
這個尺度應該拉長到30年這個尺度去看NVidia如何在生態競爭的殘酷邏輯里實現了上車掌握方向盤的壯舉。生態競爭的邏輯無比殘酷,事實標準往往會給大家一種錯覺,就是計算機系統似乎就應該是這樣的,過于自然而然了,從而使很多人低估了生態競爭的殘酷性,認為老黃只是有超出常人的直覺和堅持賭對了賽道。
「實際上建立賽道本身就是壯舉,只不過建立成功了,讓人覺得似乎本來就應該存在這樣的賽道」。放到今天,我們會覺得計算機系統里自然而然就需要一塊獨立顯卡,因為CPU的集成顯卡性能太差了,只能滿足中低端需求。但放到NVidia剛成立的那個年代,這件事情可不這么顯然。
NVidia當時作為一個nobody,實際上需要競爭的并不是已經存在的幾百家顯卡公司,而是當時整個標準化體系的王牌駕駛員Intel。
Intel作為車上的駕駛員,掌握著制訂游戲規則的權力,而Intel制訂的游戲規則就是它自己的產品CPU作為“中央”處理器,「通過PCIe擴展的形式,讓圍繞CPU的整個計算機系統變得非常具有可擴展性,可以圍繞CPU打造各行各業的解決方案?!?/p>
而這套游戲規則的殘酷之處在于,一旦一種PCIe設備的需求變得穩定,Intel就在CPU里增加一些專用指令,于是這種PCIe設備就從歷史長河中抹去了,這種方式消失的各類PCIe擴展卡不計其數,顯卡在這套游戲規則下也并不例外。
生態競爭的殘酷實際上是運動員和裁判的競爭。任何一種新興需求都有潛力催生一些新的生態位,但游戲規則的定制者會建立一套讓自己立于不敗之地的規則。
生態競爭需要臺下的nobody構造一個在這樣一個體系內打造并守住獨立生態位的戰略。這個說實話,沒有可復制的路徑,不同時間節點下標準化體系的形態是完全不一致的,不同的需求和生態位對生態親和性的要求,包括可以借力的點也是完全不一致的。
如果沒有老黃對于這場競爭深刻的洞察力,以及相應的戰略,顯卡也一樣會消失在歷史的長河中。老黃當時意識到這個問題后,「提出了Intel的摩爾定律是十八個月翻一番,NVidia要做到六個月翻一番。用更快的性能提升曲線快速拉高需求,讓Intel的集顯變成落后的產品」。于是NVidia把顯卡越做越大,功耗越做越高,性能拉升的幅度也遠超Intel,從而讓游戲畫質提升飛快,導致Intel的集顯疲于去追NVidia的節奏,面積和功耗各方面都承受巨大的壓力。
「最終,獨立顯卡在Intel的游戲規則下成為了事實標準,NVidia也卡住了游戲卡這個不大不小的生態位」。
但老黃這套競爭邏輯,其實沒有直接借鑒的可能性,今天顯卡的生態位早成為事實標準中的一環。我們即使學會了怎么在Intel的規則下打Intel也沒有什么意義了,因為時過境遷,今天制訂規則的變成了NVidia,「實際上每個屠龍少年都會成為新的惡龍,他們的成功也同時堵死了對應生態位的后來者?!?/p>
今天要爭取的是AI這個需求。老黃這套打法背后的思想,才是真正值得借鑒的,但如何因地制宜在現如今的情形下用好,也是極具挑戰性的。AI芯片這個形態不是既成事實,而是需要靠AI芯片這個賽道的“老黃”去爭取這個賽道的獨立性的,否則NVidia的GPGPU就會把AI芯片這個賽道打成曇花一現的形態,而GPGPU會生態位也會繼續擴大到AI的整個領域。
過去十年,幾乎沒有人把NVidia的GPGPU襯托成AI需求下的落后產品,大家甚至在做產品規劃的時候,也是對標著自己產品上市的時間點,去預估NVidia的產品規格。
本質上是沿著和老黃一樣的曲線去走,自然也不可能把老黃的產品搞成落后的產品,也更不可能爭取到獨立的生態位了。實際上大家產品迭代的曲線甚至比不過NVidia,在16年那個時間節點宣傳的都是比NVidia快十倍,到今天這個時間點宣傳的也僅僅是對標了。
像TPU這種產品,其性能增長曲線甚至不如NVidia。這種戰略意識的缺失本身就是致命的。誠然,讓芯片性能提升速度超過NVidia也極具挑戰性,這不僅僅是某一代產品比它高個多少百分比的性能,也不是每一代都比NVidia高個多少百分比的性能。
而是NVidia基本2年一代產品,性能提升3~5倍,挑戰者如果能每代相比自己上一代提升10~20倍,和NVidia的性能優勢越拉越大。這才是NVidia當年挑戰Intel時所作的壯舉,這對于芯片設計本身也極具挑戰,但當年NVidia也是在摩爾定律演進的半導體工藝上走出了黃氏定律增長的GPU性能。
「生態競爭最難的地方也在于沒有可復制的路徑。每一個成功從運動員翻身成為裁判的玩家,本質上也都成功建立了新的游戲規則,堵死了后來者競爭這個新生態位的機會?!?/p>
換句話講,每一個翻身的案例都是在特定歷史時期,特定需求下,設計一套超凡的戰略,并且配合超凡的戰術執行才完成的壯舉。這方面的微操在今天實際上沒有任何現實意義。而老黃不僅完成了這樣的壯舉,還完成了兩次。
NVidia成立的最初十年,成功保住了獨立顯卡這個不大不小的生態位,也成功上市。而Intel雖然沒能按死獨立顯卡的生態位,但倒也不太動搖Intel的王牌駕駛員地位,隨著互聯網的興起,Intel在數據中心大把大把撈錢。
要和Intel在數據中心領域競爭,最直接的辦法似乎是做一款更有競爭力的CPU,但這件事AMD和ARM做了好多年,一直都翻不起巨大的浪花。
「生態競爭最有效的路線是生態位的競爭」。
實際上同一個生態位內的競爭只存在兩種可能性:一種是生態位建立的初期,新興的需求催生了新的生態位,但這個生態位的贏家還沒出現時,無數玩家會下場去競爭這個生態位。
但最終往往會決勝出一兩家,一旦穩定下來之后基本是沒有什么機會的。
另外一種就是神仙打架了,整個標準化體系內有無數大大小小的生態位,每個生態位也會和周邊的生態位有千絲萬縷的聯系。
一個擁有更大生態位的裁判可以借著生態位的影響力去侵入其他稍弱一些的生態位,擴張自己的地盤,比如今天ARM聯合蘋果和NVidia去侵蝕x86的生態位。但這兩條路實際上都不適合今天我們這些nobody。
實際上后面這種生態位都不適合以小博大,NVidia上市之后所掌握的獨立顯卡的生態位相比Intel的x86生態位還是小到可以忽略不計的。
想以小博大根本沒有可能性,甚至到16年前后NVidia已經如日中天時,想把NVLink擴展到CPU上替換PCIe都沒能成功,只留下IBM的power處理器在風中凌亂。
當然,NVidia今天做ARM CPU也是持續不斷想侵蝕Intel最后的陣地,但這個過程以今天NVidia的話語權仍然不是一件容易的事情,放到當年只有獨立顯卡的生態位時更是不可能。
而nobody做同一個生態位內的競爭就更是無稽之談了,但今天仍然有無數玩家前赴后繼要和已有的生態位上做差異化競爭。其實NVidia的第二段壯舉向我們展示了另外一種更加有效的生態競爭方式。
NVidia并不是靠差異化的CPU去和Intel競爭的,「而是靠把GPGPU的生態位在數據中心的價值占比越做越大實現的。「這個過程實際上是」不同生態位隨著需求變化的此消彼長」,而「不是同一個生態位內部暴烈地替換」。
這種此消彼長就意味著,在整個更替的全過程,兩種生態是高度親和共存的,而且在很長一段時間內,原有生態位的體量會大得多。所以即使今天一臺服務器內90%以上的價值是NVidia的產品,
「但服務器的常見形態仍然是2個“中央”處理器搭配8個“從屬設備”GPU」。這個形態實際上還是符合Intel的游戲規則,只不過“從屬設備”這邊的生態位已經遠大于“中央”處理器的生態位了,大家買服務器更多是為了買這些“從屬設備”,而且也盡量追求用更少的CPU來支持更多的“從屬設備”。
實際上今天這種2CPU+8GPU這種看起來自然而然的形態也不是天然就該這樣,而是老黃整個布局和執行的結果,Intel在這個過程處處給老黃挖坑,但奈何老黃對生態競爭邏輯的深刻理解以及十幾年的布局。
這個過程實際上要解決三個層級的問題:第一個層級是芯片本身要足夠好用,開發效率要足夠高。實際上今天很多AI芯片的開發效率是遠低于NVidia的CUDA+GPGPU的。這個層級也是無數AI芯片玩家至今沒能邁過去的坎。
第二個層級是更進一步的要求,芯片不是一代產品,而是一個延續十幾年,需要有持續生命力的體系。
硬件層面能有延續數十年的持續性能提升空間,而且這個提升的速度要比競爭對手的更快,同時軟件層面也不光是開發效率要高,在芯片持續演進的過程中,這種開發效率、兼容性要穩定平滑地延續幾十代產品。
第三個層級就不光是純技術問題了,畢竟生態是具有巨大慣性的,一個再好的方案如果游離于目前的主流形態太遠,也很難克服生態巨大的慣性。
同時,還需要足夠好的需求來催化,因為生態位是由需求產生的。
今天的AI芯片大多連第一個層級都還沒邁過去,老黃也用好幾年時間完成了GPU到GPGPU的改造,同時也建立了CUDA相關的體系,邁過了前兩個臺階,同時也為第三個階段的親和性做了極致的設計,就像我們最開始講的,一方面保持對C/C++這套體系的親和性,另一方面減少對不相關部分的侵入性。
但第三個階段不光是技術問題,老黃的這套體系也需要需求的東風吹起來,在那個階段,老黃也很難預料什么樣的需求會爆發,只能頂著股價下滑的壓力等,同時投資各種潛在的需求。
終于,等來了2012年AlexNet引爆的深度學習。整個這個階段,老黃給我們演示了,和Intel的CPU競爭的最佳方式不是做另一種形態的CPU,而是在Intel的游戲規則下做大PCIe設備在加速計算領域的生態位。
讓這個生態位從CPU+PCIe擴展的體系下一個小的生態位逐漸增長為一個足夠大的生態位,甚至超過CPU的生態位,進而吞噬Intel在數據中心的市場份額,甚至到今天可以拉著ARM試圖把Intel從數據中心的AI解決方案中抹掉。
其實這個事情對我們今天去搞AI芯片的生態是有很大借鑒意義的,當然這種借鑒不是戰術層面的微操,生態競爭的戰術戰略都很難復制,畢竟今天要應對的是NVidia以及CUDA的軟件體系。
但從更宏觀的層面來講,和NVidia CUDA競爭的不一定是AMD ROCm,這個本質上還是同一個生態位內部的競爭,AMD錯過了2012年那個前后的時間窗口后其實就沒太多直接從這個生態內部競爭的機會了。
實際上,CUDA之上還有深度學習框架的生態位,當然深度學習框架在12年前后開始形成需求,到16年前后也逐漸開始收斂,到今天事實上已經被PyTorch把持,今天這個時間點繼續在深度學習框架上卷機會也不多。
深度學習框架同樣不是重點,深度學習框架之上仍然有更多生態位機會。這里面任何一層抓住了機會,如果在未來這一層的重要性變得更高了,其他層的重要性相對下滑,這里面實際上是存在非常多機會的。
不過挑戰也在魔鬼般的細節里,例如今天的深度學習框架實際上更多解決的是計算圖的表示和在不同設備上計算的問題,方便算法用戶能夠自由探索模型結構。對于算子編寫這一層并沒有真正意義上隔離,只是通過內置上千個算子的方式滿足了高頻需求。
因此PyTorch這一層實際上沒有辦法真正意義上隔離掉CUDA的生態位,類似TensorFlow希望隔離GPU和TPU的差異這種嘗試就走得異常痛苦。當然了,Google的TensorFlow還是在深度學習框架領域占據過很長一段時間上風的,在這個生態位是,Google至少是有方向盤的,其他沒有方向盤的肯定就別想通過這種方式借力了。
今天要看生態的機會,從軟件角度也更應當著眼于PyTorch之上的生態位機會,來構思一整套打法,比如今天的大模型實際上也催生了PyTorch之上的大模型訓練/推理框架的生態位機會,而且目前實際上正處于生態位建設的早期,大量玩家在這個領域造輪子爭奪這一塊的生態位。
「當然了,這種軟件生態位的機會怎么反哺芯片生態位,其實老黃在12年之后的整個動作也可以體會到NVidia對這一塊的把控,機會來了怎么把控好也非常關鍵」。
生態的卡位靠的是開發者而不是業務。**生態卡位最終目的是要讓業務“不得不用”,但如果這個組件時直接服務最終業務的,**那只能因為單純的“好用”而用,但任何一個產品都有不好用的地方,「很難真正意義上長期綁定,達不到“不得不用”的地步?!?/p>
實際上不得不用需要兩層遞進關系,也就是說在一個組件之上有大量“好用”的二次開發的組件,用戶因為很多二次開發的組件“好用”,進而才能“不得不用”這些組件依賴的組件。
這個層級遞進越深,「這種“不得不用”會越來越強烈」。我們看NVIDIA第三個階段,借著深度學習的熱潮是怎么布局自己的生態位的。
他并不去搶深度學習框架的生態位,而是給各個造深度學習框架的開發者提供無微不至的服務,包括異常健全的文檔,甚至連debug API這種估計很少有開發者會關注的文檔都寫得非常詳細,也包括給很多開發者送顯卡。
當然最關鍵的,還是產品在這個生態位需求下的絕對競爭力。換句話講,寫深度學習框架的核心需求是讓海量算法用戶能簡單獲得極高的算力跑深度學習模型,AlexNet也證明了GPU比CPU快太多,因此對于做深度學習框架的開發者,支持GPU的框架顯然也比只支持CPU的框架更具有競爭力,這就給了上面無數開發者最基礎的動力去支持GPU,再加上事無巨細的文檔和無微不至圍繞開發者的一整套打法,自然海量開發者涌入CUDA體系。
在CUDA之上寫了無數的深度學習框架去競爭。上面開發者開發了不同特點的框架,每個最終用戶都會其中一些框架的“好用”而加入某一陣營,「但也因為所有框架基本都支持CUDA和NVidia的GPU,從而使得用戶進入了“不得不用“CUDA和NVidia的GPU的狀態?!?/p>
「這實際上做所有解決方案都繞不開的子集的思路」,而大多數人做項目「都不自覺會陷入做大而全的超集的思路」。
以NVidia的軟件開發能力,在那個階段去研發一個深度學習框架和TensorFlow、PyTorch包括早期的Caffe、theano競爭是完全沒問題的,甚至可以借助軟硬件協同的能力比各家的框架做得更有競爭力,甚至借此干掉其他框架。
但NVidia實際上沒有這么做,「NVidia是一種典型的做子集的思路,做一個所有人都繞不開的子集」。
與之相對的是做一個大而全的超集的思路,這種思路是今天很多項目不自覺就會落入的思路,所有競爭對手有的所有好的特性我們也都支持,我們再做一些自己的特性,這樣是一個功能比所有人更全的超集。
實際上NVidia在下面看上面所有人卷超集,各個超集都把自己的CUDA納入其中,間接促成了自己成為所有人繞不開的子集的目的。而成為很多解決方案的子集,無論每個方案有多少用戶覺得好用,每個解決方案都能給NVidia帶來足夠多“不得不用”CUDA的用戶。
而每個深度學習框架自己僅僅靠“好用”捆綁用戶,那自然也很容易因為“不好用”而被用戶拋棄。
這個其實是一個極具生態競爭智慧的打法,今天很多人說NVidia是一家軟件公司,有大量軟件的人,于是也投海量的軟件工程師去打造產品競爭力,「最后都落入了大而全的超集思路,實際上跟NVidia這種做子集的思路完全南轅北轍?!?/p>
大家想想以NVidia的軟件能力,真的要去搶各種軟件層面的生態位,雖說不一定能干掉其他目前主流的產品,但至少分一杯羹完全不在話下。
NVidia真正下場干的軟件,要么開源讓大家隨便抄,把自己的產品繼續抄成所有人的子集,要么是覺得整個業界實在沒在某個場景下用好GPU,不得不下場帶一波節奏。
「解決方案式的打法是最后的收割階段」。
實際上NVidia這幾年才算真正開啟了收割模式,如果你關注老黃這幾年的演進,他會更多提到“重構計算機工作方式”,實際上這是向Intel發起沖鋒了,今天的整個計算機系統實際上是圍繞CPU定義的,圍繞CPU定義了指令集、軟件、以及繁榮的軟硬件生態,老黃今天終于拿到了整個生態位里面最大的話語權。
老黃借著三十年臥薪嘗膽打下來的生態地位,開始真正對這個事實標準的體系進行重塑。這種重塑同樣不是destructive的,無論有多大的話語權,生態的慣性仍然需要遵從。
老黃更多把AI作為切入點,要在今天的計算機系統上支撐一個圍繞AI的全新計算機系統,那么在AI領域擁有最大話語權的老黃自然也就可以將底層的經典計算機系統塑造成一個更適用于支撐上層新興的AI計算機系統的底座。這種重塑是王者的特權。
回到我們開頭說的,學習NVidia不能光看老黃這幾年吃肉的模樣有樣學樣,這屬于生態競爭最基本的邏輯都沒搞清楚。我們更需要關注NVidia這三十年的臥薪嘗膽,以及整套戰略思維,反過來,去考慮今天在NVidia游戲規則下的真正出路,當然這也是今天最難的問題了。
其實生態這個事情就是這樣,我們今天站在如此自然而然的計算機系統看過去,似乎到了那個時間點自然而然有這樣那樣的一些機會被今天的王者抓住了,而今天似乎缺乏這樣那樣的機會。
殊不知,今天的王者正是當時那種絕境種塑造了這樣那樣的機會,把整個計算機系統塑造成了這種形態,也只有這種今天看起來足夠自然而然的形態才能順應生態的邏輯取得競爭的勝利。
萬字長文看到這里也是不容易,說了這么多競爭邏輯,今天該怎么做?
今天圍繞NVidia建立的標準化體系看起來似乎堅不可摧,CUDA牢牢卡住了算子編程生態位,甚至PyTorch都沒法屏蔽,而今天海量軟件又都建立在這套體系之上。
但需求一直都在變,這種變化實際上也造成了很多生態位的此消彼長,生態位的萎縮并不是那么立竿見影的,CPU的生態位已經萎縮到今天這個當量也絲毫不會讓大家覺得x86似乎沒影響力了,其實仍然是強大到基本不可動搖。同樣,這些今天看起來牢不可破的生態位實際上也在悄悄發生很多變化。
CUDA的生態位最大的時候實際上是2012~2018年,無數的深度學習框架在CUDA的基礎上爭奪用戶,上面這些通過自身的“好用”幫助CUDA實現“不得不用”的東西越多越碎片,CUDA自然就越穩固。
而深度學習框架收斂到TensorFlow和PyTorch之后,實際上CUDA的生態位是一定程度下降的,但問題在于深度學習框架并沒有屏蔽算子編程,只不過內置了一個子集消除絕大多數算子編程的需求。
所以實際上CUDA的需求實際上是穿透了深度學習框架捅上去了,今天仍然有無數PyTorch之上的領域框架寫了大量PyTorch算子集之外的CUDA算子,所以實際上CUDA雖然削弱了一些,但還是極具生命力。這實際上也是很多希望通過PyTorch這一層解決AI芯片軟件生態問題屢屢碰壁的主要原因。
而深度學習框架最輝煌的階段是在2023年以前,深度學習框架是提供了一個構建不同深度學習模型結構的平臺,在模型結構探索最活躍的年代自然也是深度學習框架最高光的時刻。
而隨著Transformer is all you need被大模型進一步鎖定,模型結構的探索活躍度實際上是降低的,深度學習框架的生態位重要性實際上開始逐步降低。今天最活躍的是大模型的框架,大量開發者在PyTorch之上瘋狂造輪子,從各個角度解決大模型訓練、推理的各種問題。
「這里面最核心的實際上是顯存和帶寬的利用,是大模型不同數據如何在這有限的顯存和帶寬之上調度,并合理地穿插相應的計算」。
這一塊實際上是一個全新生態位的形成階段,對于大模型infra開發者而言,是生態卡位的時間窗口,對于芯片廠商而言,也是學習CUDA卡位的邏輯最好的時候,當然現在大模型infra層面,需要肯定不是算子編程,學習CUDA卡位的微操肯定死路一條,各種邊界條件完全不同,「沒有可復制的路徑?!?/p>
怎么用好這樣的機會,全看對上面生態邏輯的理解和細節的把控了。
除了軟件生態上的契機,NVidia這么多年構建的護城河實際上也在削弱,我在之前的一篇文章里也講了大模型對NVidia的巨大沖擊,NVidia構建的護城河是建立在對算力的巨大需求上,利用CUDA在硬件抽象和軟件接口位置的精準卡位,卡住了一波又一波DSA芯片沖擊算力高地的企圖。
實際上對NVidia而言最危險的并不是DSA芯片的算力沖得比它高,反正他有生態位話語權,最危險的是芯片最大的需求不再是算力了。
那么此時無論是圍繞算力建立起來的CUDA護城河還是在DSA這種在算力這個賽道的競爭者都失去了最重要的東西——需求。
NVidia今年實際上過去延續了十幾年的產品路線和節奏被徹底打亂了,這個節奏在過去一波又一波AI芯片的攻勢下從未動搖過,但今年AMD的MI300X都足以引起老黃巨大的恐慌。實際上并不是AMD有多強,而是NVidia最大的危機來了。
今年早些時候,我也因為這樣的原因唱衰了DSA,DSA這種為堆算力而生,帶著一系列軟件問題的形態,如果在算力需求收縮的背景下,就只剩下軟件上的巨大問題了。當然對于生態競爭來講,這種混亂和行業洗牌實際上是最大的生態競爭機遇。
「NVidia另一個巨大的潛在隱患在于整套游戲規則沒有給其他人空間」。
相比上一代裁判Intel而言,實際上Intel設計的游戲規則是分配了很多蛋糕給行業內其他賽道的,而NVidia這種幾乎吃獨食的方式,也給它在各個領域樹立了無數競爭對手。
這種模式在生態穩定的階段可以拿到超額的利潤,同樣在危局之下同樣也面臨全行業甚至客戶的敵對。這種特點減少了像NVidia當年在Intel劃出的蛋糕下長出一個獨立王國的空間,但也帶來了聯合全行業上下游構成松散的反NVidia聯盟的空間。
今天NVidia不僅在GPU領域面臨競爭,在網絡層面也同樣面臨諸多競爭。今天的挑戰者在這樣的游戲規則下有更多的勢能去聯合其他生態位的競爭者構造一套白盒標準化的方案。
實際上今天有太多競爭者陷入了打造全棧對標的陷阱,即跟NVidia比GPU,又跟NVidia拼互聯,也做整機,這樣實際上很難借力反NVidia聯盟的力。
相反,能通過一系列技術和產品的布局塑造一套不同生態位都可以切入并受益的體系,也能更好的在這樣的體系中獲取更多的生態競爭力。
當然了,這些都是今天各種生態競爭上最大的機會,生態競爭始終仍然是一個無比艱難的挑戰,歷史上成功案例很多,很多有運氣和機緣巧合,但多次成功的恐怕也只有老黃做到了。
除了對生態競爭底層邏輯的理解,還需要一整套生態競爭的無解陽謀來實現以小博大,更需要技術和產品設計能匹配,這里面每個點都極具挑戰性。審核編輯:黃飛
評論
查看更多